[340x255]
Физики нашли ключ к индивидуальности писателя
На днях СМИ в своих научных разделах сообщили об исследовании, осуществленном учеными с физического факультета университета города Умео (северная Швеция). В работе найден ответ на вопрос, как с математической точностью описывать индивидуальность стиля писателя. Полученная формула дает разные значения для разных прозаиков и, соответственно, открывает большие возможности для определения авторства текстов, создателей которых мы пока не знаем. Атрибуция произведений - одна их прикладных и самых главных задач филологии, и шведские физики, видимо, решили посильно помочь гуманитариям. Их статья будет опубликована в журнале New Journal of Physics.
Авторы исследования отталкиваются от так называемого закона Зипфа (Ципфа), сформулированного в 1935-49 годах и использующегося, например, в современных системах поиска в интернете. Лингвист Джордж Кингсли Зипф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже - 2, еще на уровень ниже - 3, и так далее. Далее вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Зипф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского - 0,06-0,07.
Шведские ученые эту универсалию решили скорректировать. Они считают, что частота использования тех или иных слов не всецело определяется безличным языком, а зависит от индивидуального стиля человека, который им пользуется, в нашем случае - писателя. Физики обратились к словам самого высокого ранга - тем, которые встречаются в тексте лишь единожды - и изучили их распределение по всему произведению. Оказалось, что чем дальше читаешь текст, тем реже попадаются такие "уникальные" слова. Шведы взяли произведения трех классиков англоязычной литературы - Томаса Харди, Д.Г. Лоуренса и Германа Мелвилла - и выяснили, что степень снижения встречаемости "уникальных" слов является общей для разных произведений одного автора, но при этом своей собственной для каждого из троих писателей. Ученые исследования предполагают, что этот показатель может быть "ключом" к индивидуальному авторскому стилю и поможет определить, какой текст справедливо приписывается тому или иному писателю, а какой стоит исключить из его собрания сочинений.
Как видно, физики, решившие заняться литературоведением, прибегли к методам лингвистики, в которой давно и с успехом применяется математическая статистика. Станет ли новый метод прорывом в филологической атрибуции текста - покажут дальнейшие результаты его применения. В конце концов, не исключено, что какое-нибудь случайное совпадение между Вальтером Скоттом и Джеком Керуаком перечеркнет все амбициозные выводы шведских исследователей.
Некоторые сомнения также вызывает сам выбранный метод - он кажется несколько взятым с потолка: почему Толстой от Достоевского должен отличаться именно скоростью снижения встречаемости "уникальных" слов, а не каким-нибудь другим показателем? Не знаю про шведских физиков, а филологам известно, что статистические методы давно и с успехом применяются при определении авторства текста. Однако перед тем как рассказать об этом, стоит кратко описать историю становления точных методов в гуманитарных науках. Их родиной можно с гордостью признать Россию.
Далее в комментариях…