• Авторизация


Что такое парсинг 15-05-2019 21:56 к комментариям - к полной версии - понравилось!


Для меня всегда было некоей магией то, как Getpocket, Readability и Вконтакте парсят ссылки на страницы и предлагают готовые статьи к просмотру без рекламы, сайдбаров и меню. При этом они практически никогда не ошибаются. А недавно подобная задача назрела и в нашем проекте, и я решил копнуть поглубже. Сразу скажу, что это «белый» парсинг, вебмастеры сами добровольно пользуются нашим сервисом.


В идеальном мире вся информация на страницах должна быть семантически размечена. Умные люди придумали много полезных штук типа Microdata, OpenGraph, тэги Article, Nav …etc, но полагаться на сознательность вебмастеров в плане семантики я бы не спешил. Достаточно самим посмотреть код страниц популярных сайтов. Open Graph кстати самый востребованный формат, всем хочется красиво выглядеть в соц. сетях

Вычленение заголовка статьи и картинки остается за рамками моего поста, так как заголовок обычно берется из title или og, а картинка если она не берется из og:image – это отдельный рассказ.
вверх^ к полной версии понравилось! в evernote
Комментарии (2):
TU-_134 15-05-2019-22:04 удалить
Нас сейчас интересуют подходы к извлечению статьи имея на руках лишь один html документ. Параллельно мы можем решить проблему определения страниц со списками статей с пагинаций. В данной статье мы говорим о методах и подходах, а не окончательном алгоритме.
ЛАП-ПУЛЯ 16-05-2019-08:49 удалить
Вы вот знаете что услуги по парсингу сайтов, интернет магазинов, обработке разного рода информации можно делать чужими руками ивам только нужно зайти на сайт https://parsing.center/ru/ и узнать новости


Комментарии (2): вверх^

Вы сейчас не можете прокомментировать это сообщение.

Дневник Что такое парсинг | rebus__no - Дневник rebus__no | Лента друзей rebus__no / Полная версия Добавить в друзья Страницы: раньше»