• Авторизация


Предъявите частоту. 13-11-2008 15:51 к комментариям - к полной версии - понравилось!


У каждого дела - запах особый... Тьфу, то есть я хотел сказать, у каждого человека свой письменный стиль, свой словарный запас, соответственно своя частота употребления тех или иных слов и букв. Но если словарный запас в блогах разных людей мне лень анализировать, то частотную картину по буквам представить довольно легко. Я взял три своих записи и три записи другого блоггера, и построил немножко графиков:



V.exeRALEXRUS
[показать] [показать]
[показать] [показать]
[показать] [показать]

Слева направо на каждой диаграмме: кучка знаков препинания, английский алфавит, русский алфавит. Можно заметить, что вообще в осмысленном русском тексте частотная картина примерно одинаковая, но есть некоторые штрихи, которые могут придать индивидуальность. На графиках выше, если присмотреться, можно заметить эти особенности.

При определенной доле фантазии можно объявить, что дневники со схожими частотными характеристиками имеют схожих по мышлению хозяев. Исходя из этих соображений, я попробовал найти записи, коррелирующие на 98 и более процентов с моими. Но сначала из-за ошибки в коде я нашел гнездо англоязычных спамеров. А потом нашел пару знакомых, которых и так читаю. А потом... В общем, пока ничего путного еще не придумал. Зато после того, как объяснил Сами Знаете Кому, как я отловил новых спамеров, на Одном Блогосервисе по ошибке оказались удаленными десяток сообществ - видимо, ввиду малого количества текста характеристики записей жутко выбивались из стандартной характеристики осмысленного текста и были приняты за спам.

Надо еще подпилить напильником скрипт по автоматическому поиску дружеского разума в Интернете, авось что-нибудь путное все же выйдет из затеи...
вверх^ к полной версии понравилось! в evernote
Комментарии (19):
Ohana_safo 13-11-2008-16:49 удалить
любопытно узнать, что же ты еще сканируешь и исследушь, пока мы тут жужжим... :)))
Optical_Race 13-11-2008-17:14 удалить
Очень интересная идея!

Анализ текстов по частоте букв используется, в первую очередь, в криптографии. Именно таким образом программа-дешифратор может, подбирая ключи, установить, какой из них правильный.

Но это только что касается отличий осмысленного текста от бессмысленного набора букв. Есть еще такое понятие, как "авторознавческая экспертиза", задача которой - установить, например, были ли два текста написаны одним и тем же автором, или является ли указанное лицо автором некоего текста.

Похожие методы используются. Там, конечно, не только частота букв анализируется, но и лексикон, стилистические особенности. Некоторые исследования в этой области и вовсе не могут проводиться компьютерами, так как вопросы и ответы на них не формулируются четко, а эксперт действует скорее интуитивно, чем по алгоритму.

Так что, если хочешь подойти к делу действительно профессионально - поинтересуйся методами авторознавческой экспертизы!
dandr 13-11-2008-17:15 удалить
V_exeR, определённая логика есть...
Будешь оформлять "поиск братьев по разуму" как приложение ЛиРу?
PS Направляющих только не хватает.
Optical_Race 13-11-2008-17:17 удалить
Прошу прощения, ошибся в терминах. Правильно это называется "АВТОРОВЕДЧЕСКАЯ ЭКСПЕРТИЗА". Просто с термином я изначально познакомился на украинском языке и перевел на русский чисто по интуиции, не сверяясь со словарем терминов :)
V_exeR 13-11-2008-20:51 удалить
Ohana_safo: а что придет в голову, то и исследую =] И, как видишь, делюсь своими изысканиями, мне не жалко.

Optical_Race: такой глобальной задачи у меня не стояло. Я искал какой-то оптимальный вариант, который и работать будет шустро, и как можно точнее результат давать. Пока не очень получается... Не совсем то, что хочется.

dandr: нет, как приложение оно слишком навороченное, сыроватое и ресурсоемкое. Но в перспективе - может быть. А про какие ты направляющие?..

детишко: положительные или наоборот?..

ALEXRUS: ничего, что я тебя тут как пример привёл? :D
dandr 14-11-2008-10:35 удалить
Исходное сообщение V_exeR:
А про какие ты направляющие?..

V_exeR, для графиков. Разделить знаки препинания и алфавиты. Если в массы пустишь, конечно.
shoshilla 14-11-2008-10:39 удалить
положительные)))) прям можно приложение сделать "тест на ... совместимость"
ну, вместо ... подобрать подходящее определение))
Flashr 14-11-2008-11:11 удалить
В жж один товарищь долго развлекался тем что анализировал последие 25 постов блогеров по RSS выдаче. Также сравнивал их посты с библейскими записями, с писателями , друг с другов, и т.д. Но никакой математической подоплеки под этим нет, все это простая рулетка по типу тупых гороскопов, как ты знаешь.
Lurk 14-11-2008-12:49 удалить
Ого.
Интересная тема. :)
Все таки нужно нам с тобой пива попить :)
V_exeR 14-11-2008-13:04 удалить
Flashr: да знаю я... Но все равно смешно =]

dandr: лень. Мне лично и так все на глаз видно. Даже то, что буква «О» чаще всего используется.

Lurk: в чем же дело? Пошли! :D
Lurk 14-11-2008-13:07 удалить
Ответ на комментарий V_exeR # Прям, вот так вот сегодня, и в Гоголь? Компания будет, и выпить, и поговорить.
Optical_Race 14-11-2008-14:09 удалить
Flashr, вовсе не рулетка. Есть вполне надежные математические методы получения информации об авторе, подвергая сочиненный им текст всевозможным анализам.

V_exeR, даже когда глобальной задачи не стоит - все равно полезно обратиться к теории! Тогда, вместо слепого блуждания, ты получишь конкретные указки, что можно сделать чтобы из текста извлечь информацию об авторе. Некоторые методы будут посложнее, другие попроще - вот ты и реализуй в первую очередь те, что попроще!

Заодно из теории получишь оценку, на что способен каждый из методов, какова его сила.
Flashr 14-11-2008-14:24 удалить
Optical_Race, во-первых, я и сам развлекался таким анализом, при этом анализируя не последние 25постов, а вообще все посты автора.
Во-вторых, примерно 10% блогера - это копипасты других постов, чужих идей. И 20% всех постов блогохостингов - это посты виртуалов и рекламщиков.
V_exeR 15-11-2008-12:53 удалить
Flashr: В этом плане мне с собой сравнивать остальных все-таки проще - у меня в блоге чужого нет в принципе :D
так можно строить графики совместимости, можно использовать в коммерческих целях -на сайтах знакомств и вообще полезная штука.
dandr 17-11-2008-15:24 удалить
Исходное сообщение Larisa_from_SPB:
так можно строить графики совместимости, можно использовать в коммерческих целях -на сайтах знакомств и вообще полезная штука.

Larisa_from_SPB, и кто станет на сайтах знакомств афишировать свой блог?
Flashr 17-11-2008-15:52 удалить
Larisa_from_SPB, графики совместимости на сайтах знакомств успешно работают и по такой формуле - random(a)+random(b)/random(a+b).

dandr, А кто сказал, что блогхостинг не есть сайт знакомств? Вот на лиру же есть знакомтсва. Осталось только приложение написать и поместить в общий каталог =)
RiIzZi 20-11-2008-03:00 удалить
Любопытно. Возьму к себе. Спасибо


Комментарии (19): вверх^

Вы сейчас не можете прокомментировать это сообщение.

Дневник Предъявите частоту. | V_exeR - ЛИру-аккаунт | Лента друзей V_exeR / Полная версия Добавить в друзья Страницы: раньше»