• Авторизация


Уникальность текста. Пассажи и шинглы. 10-04-2010 18:36 к комментариям - к полной версии - понравилось!


Чем важна уникальность текста? Думаю никому не стоит разъяснять стольобщеизвестный факт. Другое дело, как этого добиться. Уникальности то есть. Сейчас существует море программ, которые способны распознать плагиат, даже при малейшем его присутствии. Только сегодня я убедилась, что не все программы одинаково хороши. Проверив один текст довольно известной утилитой, я с чистым сердцем пометила его уникальным на 100%. Каково же было мое удивление, когда я его продублировала вручную по яндексу и гуглу шинглам по 6-8 слов. Уникальность составила всего 88%.

Что такое проверка шинглами.

Сoврeмeнныe пoискoвые систeмы обрабатывают очень большое количество информации, и, тем не менее, они достаточно успешно отсеивают дубли. В основе способа выявления дубликатов лежит не простое сравнения двух текстов, а более сложный механизм.

На сегодняшний день единствeнным вeрным способом является алгоритм шинглов. Он основан на разбиении обоих текстов на цепочки слов (шинглы) и последовательное выявление в текстах схожих цепочек. Тексты разбивают на цепочки случайным образом, что позволяет выявлять такие вещи, как простая перестановка абзацев или просто сдвиг текста на одно слово.

Проверка шинглами наиболее эффективна, если в каждой цепочке не одно слово, а два, три или четыре слова. Так как большинство текстов используют одни и те же слова, а тексты, написанные в одной, узкой теме, как правило, оперируют больше чем на 50% одинаковыми словами и выражениями, основой уникальности является именно совпадение некоторой последовательности слов в проверяемых текстах.

Для большинства поисковых систем, в частности Яндекс и Google, достаточно результата порядка 5% при проверке по цепочкам длинной в 4 слова и порядка 10% при проверке цепочек длинной в три слова. Важно также то, что, как правило, поисковые системы игнорируют html-теги и предлоги (стоп-слова), при определении уникальности, но, в то же время они не учитывают словоформы. Ориентировочно, при сравнении текстов при помощи специальной программы, результат должен быть не более 3%.

поисковые системы с каждым днем все больше и больше изощряются в поиске плагиата. Если раньше можно было обмануть склонениями слов, то теперь программы просто отсекают окончания. Или некоторые умельцы еще добивались высокой уникальности, путем замены русских букв на латинские (о,е). Так теперь это тоже стало неэффективно.

 

вверх^ к полной версии понравилось! в evernote


Вы сейчас не можете прокомментировать это сообщение.

Дневник Уникальность текста. Пассажи и шинглы. | topalka - Дневник topalka | Лента друзей topalka / Полная версия Добавить в друзья Страницы: раньше»