11,12
26-05-2009 22:52
к комментариям - к полной версии
- понравилось!
11
Лингвистический поиск в Интернет.
Фактически вся совокупность размещенных в Сети страниц представляет собой колоссальный корпус текстов, охватывающий собой все мыслимые темы. Современные поисковые системы позволяют весьма эффективно использовать его для лингвистических изысканий. Использование поисковых сайтов позволяет очень быстро, порой всего за несколько минут, найти ответы на самые разнообразные вопросы и справиться с многочисленными переводческими проблемами, которые раньше были неразрешимы без обращения к носителю языка или к специалисту в той или иной предметной области. Все это позволяет радикально повысить качество перевода, особенно при переводе текстов с родного на иностранный язык - что в России, особенно в сфере делового перевода, происходит едва ли не чаще, чем перевод с иностранного на родной, - а также в тех областях, где идет постоянное обновление терминологии: компьютеры и телекоммуникации, бизнес и финансы, СМИ, международные отношения, фармацевтика и многих других. Кроме того, даже самый опытный переводчик, делающий переводы только на родной язык и только в той области, в которой он специализируется уже 20 лет, с неизбежностью и регулярно встречает неизвестные ему термины из смежных областей, загадочные сокращения, неологизмы, профессиональный сленг и т.д. - то, чего днем с огнем не найти даже в самых современных словарях. Переводчику достаточно войти в Сеть и набрать несколько ключевых слов в поисковой системе - и вся терминология у него перед глазами. Главное, что для этого необходимо - владение эффективными технологиями поиска.
Информационный поиск
Интернет — это огромная информационная сеть. И каждый из нас рано или поздно сталкивается с проблемой поиска информации. Любая навигация по Интернету (или же — поиск информации) осуществляется двумя путями: с помощью каталогов и поисковых машин. Рассмотрим каждый вид поиска в отдельности:
1. Каталоги.
Вся информация в каталогах обрабатывается вручную. Для того чтобы добавить новый сайт в какой-либо раздел, необходимо прислать заявку. И только после того, как сотрудник, отвечающий за наполнение каталога, ознакомится с содержанием ресурса, может решаться вопрос о его добавлении в каталог. Из этого следует, что вся работа в каталогах не автоматизирована. Это доставляет дополнительные сложности при добавлении нового ресурса (требуется больше времени).
2. Поисковая система
Это уже более современный и удобный способ навигации и поиска в Сети.
В отличие от каталогов, поисковая система — это полностью автоматизированная структура. Иначе говоря, любая поисковая машина — это база ссылок. Чем чаще обновляется эта база, — тем лучше работает поисковик. Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет. При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте. Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.
При запросе какой-либо информации, поисковая машина, прежде всего, просматривает свою базу ссылок и подсчитывает релевантность. Каждая поисковая машина обладает собственным механизмом подсчета уровня релевантности. Релевантность — это соответствие каждой найденной страницы поисковому запросу. У каждой поисковой машины своя формула подсчета релевантности. На сегодняшний день, самые популярные поисковые машины РуНета, это:
1. Rambler
2. Yandex
3. Goggle
4. Aport
Главное отличие поисковых систем друг от друга — это база ссылок и система подсчета уровня релевантности. Поэтому для наиболее точного результата поиска рекомендуется использовать несколько поисковых машин.
Этапы поисковой процедуры:
1 – определение цели поиска, стратегии и области проведения (поисковые серверы, каталоги, тематические порталы)
2 – формирование запросов к информационной поисковой системе
3 – работа с конечными документами
12
Тематический поиск – поиск публикаций по некоторой теме или предмету
Тематический поиск используется, когда нужно найти определенную вещь в специфической области.
Тематические поисковики ищут только по сайтам своей направленности, т.е. решается проблема понимания запроса пользователя.
Для выполнения тематического поиска широко используются Интернет-каталоги.
Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней.
Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.
К удобству их применения можно отнести то, что, если пользователю известна тема искомого документа, он будет исследовать соответствующую ветвь каталога, не отвлекаясь на посторонние, не относящиеся к делу документы. Однако, объем каталога ограничен физическими возможностями редакторской группы и ее субъективностью в выборе материала. В них отсутствует информация на узкие, специальные темы, да и саму тематику искомого документа не всегда можно сформулировать в пределах классификации каталога.
Примеры:
Yahoo! Самый популярный каталог, содержащий обширную информацию о десятках тысяч Web-узлов. Первый уровень иерархии содержит 14 тематических категорий, которые разветвляются еще на 4 - 5 подуровней. Имеет собственную машину поиска, позволяющую: 1) искать по базе Yahoo!, по Usenet или по адресам электронной почты; 2) ограничить поиск материалами, размещенными за последний день, неделю, месяц, год или 3 года; 3) выдать статьи, содержащие хотя бы одно ключевое слово или все ключевые слова; 4) искать по однокоренным словам или только по указанным ключевым; 5) выдать результаты по 10, 25, 50 или 100 на одной странице.
Excite Reviews Содержит обзоры 60 тыс. узлов Интернет, систематизированные в иерархический каталог.
City.Net Каталог сведений о разных странах и городах.
Galaxy Иерархический каталог с подробным описанием тематических категорий на первой странице. Осуществляет поиск по категории поиска, по одному или нескольким ключевым словам.
Yellow Pages Поиск информации о 16 млн. американских компаниях в различных областях деятельности, а также персональные данные и электронные адреса частных лиц.
вверх^
к полной версии
понравилось!
в evernote