• Авторизация


15,16 26-05-2009 22:59 к комментариям - к полной версии - понравилось!


15.
Следующий шагом в освоении ресурсов Интернета может стать целенаправленное формирование специализированных корпусов текстов на жестком диске вашего компьютера. Современные средства позволяют быстро сформировать весьма обширный (несколько десятков миллионов слов) корпус текстов практически по любой тематике, и сделать это может каждый, кто владеет основными навыками работы с ПК и Интернетом. Для создания корпусов, помимо обычных браузеров, используются т.н. оффлайновые браузеры и программы докачки (download managers). Полнотекстовый поиск по накопленным материалам осуществляется с помощью специализированных программ индексации и поиска.
Преимущества специализированных корпусов:
1. Вы сами - а не поисковая система - определяете, что именно вы хотите проиндексировать. Здесь следует иметь в виду несколько моментов:
• Не все сайты индексируются на 100%: ограничения на глубину индексирования накладываются по разным причинам как владельцами поисковых систем, так и владельцами сайтов. Такие сайты, тем не менее, поддаются скачиванию оффлайновыми браузерами.
• Существует феномен т.н. "невидимой Сети" (invisible Web): все большее число сайтов переходит от статического формирования вэб-страниц к динамическому и размещает всю основную информацию в базах данных. Страницы в этом случае формируются "на лету" в зависимости от запросов или "профилей" пользователей. Этот метод особенно удобен для сайтов с постоянно обновляемой информацией (новости, развлечения и т.д), однако большая часть материалов при этом становится недоступной для поисковых машин, которые в результате как бы скользят по поверхности. Такие сайты могут содержать уникальную информацию, которую вполне можно сохранить на жестком диске вручную или с помощью программы докачки.
• Все основные поисковые системы имеют т.н. "stop lists", т.е. списки сверхчастотных слов (the, and, is, to), которые не подлежат индексации. Переводчика же зачастую интересуют особенности употребления выражений, содержащих такие служебные слова.
2. Профессиональные поисковые программы предоставляют гораздо более широкий набор функций, чем онлайновые поисковые системы: поиск с заданным интервалом между ключевыми словами, варианты интерпретации дефиса, многочисленные логические операторы и маски, "нечеткий поиск" (fuzzy search), одновременный поиск по нескольким корпусам и проч.
3. Наличие корпуса на жестком диске, естественно, не требует выхода в Интернет. Переход от одного результата поиска к другому также происходит на порядок быстрее, при этом все результаты поиска автоматически подсвечиваются.


Технические рекомендации:
1) Для формирования корпусов текстов лучше всего использовать популярный оффлайновый браузер Teleport Pro. Он позволяет создать на жестком диске компьютера точную копию какого-либо сайта для его последующего просмотра в режиме оффлайн, либо скачать с данного сайта файлы определенного типа исходя из заданных пользователем параметров. Работает автоматически и позволяет за ночь загрузить на жесткий диск несколько сотен мегабайтов данных.
2) В тех случаях, когда сайт не поддается автоматическому скачиванию, интересующие вас материалы можно загрузить вручную, используя программу докачки ReGet или ее аналоги. Программы докачки позволяют возобновлять загрузку файла после обрыва связи без потери ранее скаченной информации, запоминают адрес, с которого необходимо скачать файл, и могут проделать это автоматически в указанное вами время. Незаменимы для загрузки больших файлов или большого числа мелких файлов.
3) Для индексации и поиска информации можно рекомендовать программу dtSearch (ее полнофункциональную демо-версию можно бесплатно скачать из Интернета: www.dtsearch.com/download.html). Программа поддерживает все основные типы файлов (htm*, doc, txt (ANSI и ASCII), xls), индексирует zip-архивы с минимальной потерей скорости, может работать с любыми языками на основе латиницы, с кириллицей и греческими шрифтами. Платная версия также поддерживает формат pdf.



16
Конкорданс - это не просто список слов или словосочетаний. Его ценность в том, что он даёт контекст слова. То есть, мы можем запустить поиск и получить все появления данного конкретного слова в тексте. Результаты поиска показываются в формате, который называется KWIC (key word in context). Обычно при щелчке на строку программа-конкордансер выдаёт полный контекст. Результаты поиска можно сортировать по-разному. Вы можете настроить программу на показ того или иного количества слов справа и слева от искомого термина. Также возможно изменять порядок строк конкорданса: например, если вы искали существительное, то можете попросить конкордансер, чтобы он отсортировал в алфавитном порядке слова, непосредственно предшествующие слову поиска. Это поможет вам найти подходящие прилагательные, которые можно употреблять со словом поиска. Таким образом можно, например, обнаружить, что справа от слова computer очень часто стоят слова hardware, software и problem.
Можно видеть, что конкордансы чрезвычайно полезны для изучения устойчивых словосочетаний (коллокаций). Мы можем искать типичные случаи употребления слов в одной коллокации. Одной из наиболее распространённых программ-конкордансеров является WordSmithTools Майка Скотта из Оксфордского университета, но она платная. Учитывая, что автор живёт в Великобритании, купить её в России затруднительно. Впрочем, можно скачать демонстрационную версию с ограниченными возможностями. Практически ничем WordSmith не уступает бесплатный AntConc, разработанный японскими учёными. В нём реализованы все необходимые функции — список слов, конкорданс, поиск коллокаций. Отечественная лингвистика может гордиться разработками группы «Автоматическая обработка текста» среди которых есть и доступный для свободного скачивания конкордансер Dialing Concordance (DDC). По возможностям он пока значительно уступает AntConc, но зато обладает встроенным морфологическим анализатором и способен понимать русское словоизменение, например, по запросу «студент», находить так же слова «студентов» и «студенткой».
Недавно появился полностью свободный конкордансер Corsis (ранее назывался Tenka Text), который стремится стать полнофункциональной заменой для WordSmith Tools. Он разрабатывается в Германии.
Помимо конкордансов программы анализа корпусов обычно отображают и базовую статистическую информацию о корпусе: соотношение числа словоформ и словоупотреблений, среднюю длину предложения, количество предложений и их распределение по длине, индекс исключительности (каков процент слов, употреблявшихся лишь один раз), индекс постоянства (каков процент частых слов) и так далее.
вверх^ к полной версии понравилось! в evernote


Вы сейчас не можете прокомментировать это сообщение.

Дневник 15,16 | Ksue_G8 - Subject | Лента друзей Ksue_G8 / Полная версия Добавить в друзья Страницы: раньше»