У каждого дела - запах особый... Тьфу, то есть я хотел сказать, у каждого человека свой письменный стиль, свой словарный запас, соответственно своя частота употребления тех или иных слов и букв. Но если словарный запас в блогах разных людей мне лень анализировать, то частотную картину по буквам представить довольно легко. Я взял три своих записи и три записи другого блоггера, и построил немножко графиков:
Слева направо на каждой диаграмме: кучка знаков препинания, английский алфавит, русский алфавит. Можно заметить, что вообще в осмысленном русском тексте частотная картина примерно одинаковая, но есть некоторые штрихи, которые могут придать индивидуальность. На графиках выше, если присмотреться, можно заметить эти особенности.
При определенной доле фантазии можно объявить, что дневники со схожими частотными характеристиками имеют схожих по мышлению хозяев. Исходя из этих соображений, я попробовал найти записи, коррелирующие на 98 и более процентов с моими. Но сначала из-за ошибки в коде я нашел гнездо англоязычных спамеров. А потом нашел пару знакомых, которых и так читаю. А потом... В общем, пока ничего путного еще не придумал. Зато после того, как объяснил Сами Знаете Кому, как я отловил новых спамеров, на Одном Блогосервисе по ошибке оказались удаленными десяток сообществ - видимо, ввиду малого количества текста характеристики записей жутко выбивались из стандартной характеристики осмысленного текста и были приняты за спам.
Надо еще подпилить напильником скрипт по автоматическому поиску дружеского разума в Интернете, авось что-нибудь путное все же выйдет из затеи...