"Качество поиска" - так называется отдел, который отвечает за определение рейтинга результатов поиска Google. Смысл нашей работы прост и понятен: люди отправляют запросы в компанию Google по нескольку сотен миллионов раз в день, и за несколько долей секунды система Google должна принять решение о том, какие из миллиардов страниц им показать, и в каком порядке. В последнее время мы также делаем и другие вещи. Однако об этом чуть позже.
Удивительно, но о рейтинге результатов Google, которым пользуется так много людей и настолько часто, известно очень мало. Это полностью наша вина, и сделано это намеренно. Откровенно говоря, мы не много рассказываем о том, что мы делаем. Этому есть две причины: конкуренция и злоупотребления. Про конкуренцию все понятно. Ни одна компания не станет делиться секретными рецептами со своими конкурентами.Что касается злоупотреблений: если мы сделаем наши формулы определения рейтинга слишком доступными, то увеличим возможность мошенничества с системой. Обеспечение безопасности за счет скрытности, конечно, не самый эффективный способ, но мы и не полагаемся исключительно на него, однако таким образом мы предотвращаем большое количество нарушений.
Алгоритмы определения рейтинга являются одним из наиболее привлекательных активов компании Google. Мы ими очень гордимся и очень их защищаем. По некоторым оценкам, если сложить все годы работы программистов и исследователей, ушедшие на разработку этих алгоритмов, то получится более 1000 лет, и скорость инноваций с тех пор не снизилась.
Тем не менее полная секретность не является идеалом, и эта публикация в блоге позволит нам открыть немного больше информации, чем мы делали раньше . Мы постараемся выпускать такие сообщения периодическими, рассказывая о нововведениях, объясняя существующие функции, делясь советами, новостями и вступая в диалог. Начать я хотел бы с общей информации о нашем отделе. В дальнейшем мы планируем новые блог-посты на эту тему.
А теперь позвольте мне представиться. Меня зовут Уди Манбер. Я являюсь вице-президентом по инженерным разработкам в компании Google и возглавляю отдел качества поиска. Я работаю в компании Google более двух лет, а поисковыми технологиями занимаюсь почти 20 лет.
Основа отдела - это коллектив, который работает над определением основных рейтингов. Определение рейтинга - нелегкая задача. Она гораздо сложнее, чем многие могут подумать. Одна из причин этого состоит в различиях языков и отсутствии правил, которых следует придерживаться при создании документов. Стандартов, определяющих способ изложения информации, не существует. Поэтому мы должны "понимать" все веб-страницы, которые мог создать любой человек, по любому случаю. Это только половина проблемы. Нам также надо понять вводимые пользователями запросы, которые в среднем составляют менее трех слов, и сопоставить их с тем, как мы распознаем все документы. Не говоря уже о том, что разные люди ищут разные вещи. И все это нам надо сделать за несколько миллисекунд.
Самая известная часть алгоритма определения рейтинга - это PageRank, алгоритм, разработанный Ларри Пейджем и Сергеем Брином, основателями компании Google. PageRank используется и сейчас, однако теперь он является частью гораздо более сложной системы. В число других элементов входят языковые модели (способность обрабатывать фразы, синонимы, диакритические знаки, ошибки правописания и так далее), модели запросов (это имеет отношение не столько к языку, сколько к тому, как его используют люди), временные модели (на некоторые запросы самые лучшие ответы можно найти на странице, созданной всего 30 минут назад, а на некоторые - на страницах, которые выдержали испытание временем) и персонализированные модели (потому что все люди разные).
Другая группа сотрудников в нашем отделе отвечает за оценку эффективности нашей работы. Это делается различными способами, однако цель всегда одна: повышение удобства работы пользователей. Это не главная цель - это единственная задача. Каждую минуту выполняются автоматизированные проверки эффективности (чтобы все работало как надо), а также периодическая оценка качества в целом, и, что самое важное, оценка улучшений алгоритма. Когда у инженера возникает новая идея, и он разрабатывает новый алгоритм, мы его тщательно проверяем. У нас есть группа по работе со статистикой, которая рассматривает все данные и определяет ценность новой идеи. Каждую неделю проходят встречи (иногда и два раза в неделю), на которых мы прорабатываем новые мысли и одобряем нововведения. В 2007 году мы внедрили более 450 улучшений, что в среднем составило около 9 улучшений в неделю. Некоторые из них просты и очевидны -- например, мы исправили ошибку при обработке запросов, содержащих аббревиатуры на иврите (в иврите аббревиатуры обозначаются символом (") рядом с последней буквой, то есть аббревиатура IBM пишется как IB"M), а некоторые были очень сложными -- например, в январе мы внесли значительные изменения в алгоритм PageRank. Большую часть времени мы искали способы
Читать далее...