• Авторизация


частота слова, инверсия частоты 26-02-2008 15:39 к комментариям - к полной версии - понравилось!


TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.
Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска. Например как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.
TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом оценивается важность слова ti в пределах отдельного документа.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некторое слово встречается в документах коллекции. Таким образом понижается вес широкоиспользуемых слов.
wiki

вверх^ к полной версии понравилось! в evernote


Вы сейчас не можете прокомментировать это сообщение.

Дневник частота слова, инверсия частоты | nepowloe - nepowloe | Лента друзей nepowloe / Полная версия Добавить в друзья Страницы: раньше»