Мобильный LiveInternet Какой вопрос - такой ответ

Авторизация

Дневник profhce Лента друзей - Дневник - Полная версия

Какой вопрос - такой ответ 07-08-2007 18:33 к комментариям - к полной версии - понравилось!

Продолжимте взвешивать блоги. Допустим индекс мы построили, настроили и обновляем.
/Заметка: инженерные вопросы индексирования масивов текста размером с LiRu в разрезе автор.пост/комент обсудим на следующем этапе, буде интерес. Пока отсылаю заинтересованных к источнику /

Как жеж теперь спросить (сформулировать запрос) ? Обычные методы запроса к поисковикам не меняются с прошлого века - вводим строку на выходе получаем список документов отсортированных по "ценности " (релевантности). Дополнительные возможности могут быть такими:

запрос по всем словам в строке, по нескольким , по точному совпадению , за исключением определённых слов;
ограничение области поиска (всякие разные, для поиска по блогам отобор по автору, в случае патентов - по заявителю и т.д.);
в некоторых системах реализван режим поиска по синонимам (~ для Google);
ещё много всяких фишек.

Среди них есть полезная "мелочь", которой редко пользуются, найти страницы " похожие" на заданную (related: для Google). Чем-то похожим (по идее) предлагается пользоваться для поиска авторов подходящих блогов. На мой взгляд, самый простой и удобный способ спросить (отобрать) - это запрос типа - выбрать (сколько то) авторов, похожих (не лицом, вестимо а текстом) на этого. Или по другому - выбрать авторов, чей текст похож на следующий фрагмент (прилагается). А уж как выбрали, можем их сортировать (по звёздочкам, числу ПЧ, возрасту и росту).

Звучит (пока) не страшно. Вопрос как сравнить массивы текста? - определённо как-то можно, Google же сравнивает. Кроме того, есть такая интересная задачка, как определение авторства . Занимаются ею давно и лингвисты (с математиками) накопали, наверное, полезной математики сравнения. Чтобы не быть голословным (а даже если и вдруг..проекты то завиральные) - отсылаю заинтересованных к источнику Лингвоанализатор и всему, что найдется по ссылкам. К сожалению, автор методики и программы (доступной в исходниках!) умер в 04. И даже если вычисление относительной энтропии текстов вам не понравится - там есть ещё много чего другого.

вверх^ к полной версии понравилось! в evernote

Комментарии (6):

Lurk 24-08-2007-22:05 удалить

Огромное спасибо за "Лингвоанализатор", штудирую))) Есть кое-какие спорные вопросы, например что брать, по отношению к блогу, за эталон? Ведь в блоге могут быть как свои собственные тексты блогера, так и цитаты из любых других источников.

Обратиться - Ответить - К полной версии

profhce 25-08-2007-23:18 удалить

Lurk, Нэма за що, но штудировать надо, скорее пару специализированных статей Хмелёва, а лучше просто исходники (хороший алгоритмист ..был, это я как краевед заявляю). Они легко находятся, но могу дать прямой линк. Алгоритмы "антиплагиата" - проще и ..традиционнее, что ли. Пиара по ним больше чем математики, но тоже можно глянуть. Что касаемо цитат - без проблем - если кто кого цитирует, это всё равно определяет автора (сообщения с цитатой в этом случае). Важно построить способ кормить индекс не краулером (пробовал - нудно разбирать структуру страницы)- а прямо RSS-ом (а лучше -ATOM-ом - в нём просто есть поле "author". Ну и понятно, если договориться с Valez-ом, то накормить индекс через DTS (или как это в MySQL называется) можно без проблем. Удач!

Обратиться - Ответить - К полной версии

BlogRider 27-08-2007-00:05 удалить

profhce, Если дашь линк буду очч признателен, т.к. сейчас присутствует полное отсутствие свободного времени. В данный момент пристально изучаю русский язык, как это ни странно звучит. Может к концу недели, хотя я сомневаюсь, будут результаты. В любом случае если из моей идеи что-то выгорит озвучу. Краулер - неизвестное для меня слово, но как я понял это имелось ввиду "парсить хтмл". Совершенно неблагодарное занятие. Исписав кучу кода плюнул и спокойно работаю с RSS, в котором есть вся инфа которая мне нужна. Правда база растет не по дням, а по часам но этого стоило ожидать. Блог хостингов море и ограничиваться одним лиру не стоит. Договорившись с Валей всего этого моря не выпить, а потому писать программы нужно под стандартные протоколы которые работают и применяются везде. Хотя договорившись с одним "начальником", с другим уже будет куда проще. )))

Обратиться - Ответить - К полной версии

Lurk 27-08-2007-00:07 удалить

Черт. Спалился раньше времени.

Обратиться - Ответить - К полной версии

profhce 27-08-2007-19:57 удалить

Lurk, Линк - прошу пожалуйста: http://www.math.toronto.edu/dkhmelev/PROGS/tacu/index-rus.html Краулер, он же спайдер понятно что делает. Как правило, ему можно сказать: "..здесь читать, здесь не читать, здесь рыбу заворачивали". Но хлопотно. Про море и Валю (выпивали вместе?) - согласен, но ему может оказаться интересно - что бы отличиться (от других), вам - чтобы проверить(методу) /показать(результаты). А уж если будет что показать, договариваться будут уже с вами.

Обратиться - Ответить - К полной версии

Lurk 28-08-2007-13:30 удалить

profhce, За линк огромное спасибо. Про Валю - было дело)) Как только будет, что показать обязательно пойдем и к Вале и еще к кому-нибудь))

Обратиться - Ответить - К полной версии

Комментарии (6): вверх^

Вы сейчас не можете прокомментировать это сообщение.

Дневник Какой вопрос - такой ответ | profhce - Завиральные проекты | Лента друзей profhce / Полная версия Добавить в друзья Страницы: раньше»