Оригинал сообщения И снова выкладываю, надеюсь, полезную тузлу. На сей раз грабим текс для дорвеев. Грабить будем яндекс весну. На выходе получаем текст достаточно уникальный ( с уникальностью в 85% , говорит нам сервис http://miratools.ru/Promo.aspx) текст чистый от всяких хитрых знаков. Так как текс для доров, нам вообще пофигу на его осмысленность, главное, что бы не было линков на сайты и частых упоминаний не нужных нам брендов.
Прога как всегда консольная работает под windows, кому надо могу дать питоновскую версию, под Linux. Как всегда все настройки в текстовом конфиге.
+ Выбирать тематики или в ручную или автоматом(рандомом)
+ Использовать проксятины
+ Использовать разные user agents, прога представляется сервису полноценным браузером
+ Немного уникализировать добытый текст. Есть несколько режимов перемешивания.
Минусов пока не нашел, если есть замечания пишите. Многопоточность специально не делал, так как не понял зачем. На момент написания парсер яндекса работает отлично.
Конфиг парсера
debug – врубает дебаг режим при котором сохраняется последняя страничка запроса и трейс если программа упала сама.
txtcount – сколько запросов делать.
headers – при значении 0 текс будет собираться сплошняком без заголовков.
spim – задержка перед следующим запросом в секундах
zoprosi - генерация тематик. 0 - Вручную, берутся и раздела topics, который ниже в конфиге. 1 - генерируется случайным образом, т.е запрос может содержать от 1 до 16 тематик, в любой последовательности.
filedel - Если есть старый файл от сегодняшнего числа то: 0 - дописывать в старый, 1 - писать новый
proxychoose - 0 - не использовать прокси, 1 - использовать из файла в папке resurs.
proxytime – перед использованием прокси, скрипт проверяет возможность открытия сервиса яндекса за указанное кол-во секунд.
pshuffle - опция позволяет управлять перемешиванием текста. 0 – не перемешивает текст и записывает текст в исходном виде. 1 – перемешивает параграфы местами, их обычно три. 2 – мешает параграфы и предложения в них, отличная каша получается.
тopics - если параметр zaprosi в режиме 0, то темы будут браться из раздела topics.