язык-это набор правил использования слов.
другими словами, это структура из этих правил.
Применение слова без системы этих правил БЕССМЫСЛЕННО.
поэтому слово Маша, переданное другому компьютеру не несет в себе смысловой нагрузки в языковой системе русского языка.
Оно несет в себе смысловую нагрузку ТОЛЬКО в ASCII системе.
но мы понимаем слово маша, глядя на монитор в ДРУГОЙ системе.
Нужно построить в компьютере ту же форму правил, что и сами используем.
Для того, чтобы создать словарь в БД морфолоический, достаточно построить элементарную БД по принципу любого словаря, т.е. классифицировать по буквам в порядке их расположения в алфавите. Но вот для того, чтобы записать смысл этих понятий, придется делать совсем другую структуру БД, вот такую упрощенно:
Дело в том, что смысл слова мы будем кодировать координатой расположения этого слова в этой БД, а смысл фразы, состоящей из последовательности слов, будем кодировать последовательной записью координат слов через запятую:
С//сущ/собств/ед число/имен. падеж/маша, С//глагол/наст вр/любит, С//сущ/собств/ед число/род. падеж/петю.
получилось:
Маша любит Петю
Т.е. смысл оказался записан в форме записи данных, хранящихся в указанной структуре.
Если перетусовать местами координаты, то смысл не измениться в этом примере, получиться, что "Петю любит Маша" или "любит Маша Петю" или "Маша Петю любит". А вот если взять более сложный пример, то смысл может сказиться до неузнавамости. Скажем, такая фраза:
"Маша не любит Петю".
Если поменять местами слова, то получиться
"Маша не Петю любит"
Т.е. если в первом случае мы поняли, что Маша не любит Петю, то во втором случае мы понимаем, что Маша все таки, кого то любит, но к сожалению не Петю. Т.е. смысл изменился.
Или вот еще пример:
"Петя сказал, что Слава дурак."
Поменяем местами координаты Пети и Славы, и получиться, что зачинщик драки не Петя, а Слава, и виноват он.
А если взять пример со знаками препинания, то смысл может тоже стать противоположным:
"казнить нельзя, помиловать"
"казнить, нельзя помиловать"
Можно присвоить каждому понятию боле удобные координаты в виде чисел. Теперь этот смысл можно обрабатывать. Можно применять эту технологию в Гугле или Яндексе и обрабатывать слова не морфологически, а семантически, разбирая строку запроса пользоватля ПО СМЫСЛУ.
связи между понятиями определяют место их расположения в понятийном дереве.
Необходимо в первую очередь сказать, что место понятия в дереве следует определять не исходя из реальных имеющихся слов, а исходя из общих принципов их возникновения и семантики.
В русском, да и любом другом языке полно исключений, поэтому и отталкиваться от реального языка не нужно. Язык не совершенен, хотя и избавляется от синонимов и омонимов в ходе своей эволюции (достаточно посмотреть на китайский текст, где вы не найдете таковых, поскольку за более чем 4000 летнюю историю, он просто изжил из себя подобные вещи). Корректировка понятий должна производиться программистом ручками. К счастью, исключений не так уж много, чтобы нельзя было этого сделать.
Например, не русское слово "компьютер", который согласно правил семантики должен называться "вычислительной машиной", следует вводить вручную, потому что алгоритм по данной методике синтезирует новое понятие "вычислялка" и внесет это понятие в соответствующее место в понятийном дереве. А если вы попытаетесь сами запихать это понятие "компьютер" в семантическое дерево, то вы потратите кучу времени на проверку правильности координаты. Гораздо легче просто исправлять то, что алгоритм структуризации вам сам выдаст.
Мелочь, но сэкономит уйму времени и денег тем, кто будет этим заниматься.
Далее, хочется озвучить еще одно правило:
Если исходное понятие появилось раньше, чем понятие-его следствие, то новое понятие образуется путем присоединения суффикса.
Например, понятие принт(печать)-причинное понятие, появилось гораздо раньше, чем печатающее устройство, поэтому получился принт-ЕР, где принтер-следственное понятие.
А если исходное понятие следственное оказывается (дедуктивно полученное), то новое понятие получается путем присоединения приставки.
Например, сначало был "том" что означает делимый. Люди делили делили вещество, потом плюнули и придумали неделимое вещество (предположили, что таковое существует, т.е. дедуктивный вывод).
Так образовалось понятие А-том , что означает неделимый.
Эти же правила следует использовать и алгоритму, структурирующему понятийное дерево, поскольку от того, с какой стороны приписана приставка или суфикс, они будут расклассифицированы в разные подкаталоги, следовательно, будут иметь разные координаты.
Еще одна немаловажная деталь.
Все прилагательные, есть не что иное, как отношения (количественное сравнение весовых коэффициентов) субъекта к некоорому существительному, с использованием эталона, которому присвоен весовой коэффициент 100%. С появлением нового соотношения, весовой коэффициент которого по указанным признакам оказывается выше эталонного, происходит переранжирование и смена эталона.
В качестве субъекта может выступить и программа (но это отдтельная тема).
Все глаголы, есть не что иное, как отношение (количественное сравнение весовых коэффициентов с эталоном)одного существительного к другому.
Для каждого глагола опрделяются пределы, в рамках которых по отношению к эталону следует применять данный глагол.
Например глагол "бежит" определяется как скорость объекта по отношению к земле в некоторых пределах относительно эталонной скорости. Тут ранжировать легко, поскольку в качестве эталона у нас ест скорость света. Если бы эталона не было, то им бы была другая скорость, обозначенная для глагола, связанного со скоростью перемещения.
Таким образом вы видите, что причинно-следственные цепочки, связывающие глаголы, прилагательные и существительные, детерменированы между собой определенным образом, что и должно управлять МЕСТОМ расположения каждого понятия в понятийном дереве и принимать участие в классификации вновь образуемых понятий. Всякое новое понятие должно быть встроено в систему с переранжированием соответствующих логических связок (что вручную делать попросту нереально!). При этом координаты исходных понятий также будут изменены.
Т.е. как и в математической структуре по типу куста, требуется переформатирование структуры, но просто по другому алгоритму.
Как видите, не все так просто с понятийным деревом, но куда деваться, мы же хотим чтобы система упаковки данных повторяла человеческую. Иначе машина будет выдавать словоформы по выборкам, которые человек не сможет понять как нужно. Т.е. машина будет нести бред по определению, с точки зрения человека.
Описанные здесь принципы построения семантиеских деревьев, являются, конечно обобщенными и показывают вектор, по которому следует вести разработку. До реальных алгоритмов, конечно, далеко, но при желании, совместными усилиями можно создать и их.
Примечательно, что до такой элементарной вещи додумался, похоже, только я один.
Хочется сказать, что подобным образом, хотя и более сложным, можно хранить в БД шаблоны зрительных образов и применять эту технологию для распознавания смыслового содержания картинок, а не по тегам к ним, как сейчас практикуется.
Гугл запатентовал недавно технологию в этой области, но она настолько приметивна, что не идет ни в какое сравнение с предлагаемой.
http://www.widenet.ru/software/google-vvodit-sistemu-raspoznavaniya-avtorskogo-kontenta-na-youtube/
т.е. речь идет о распознавании надписей на картинках всего лишь, в то время, как я предлагаю гораздо большее-распознавание того, что изображено на картинках, вплоть до идентификации личности по фотографии.
язык-это набор правил использования слов.Язык-это система знаков.