• Авторизация


скриптик 13-12-2007 11:43 к комментариям - к полной версии - понравилось!


Под влиянием Antropos начал сочинять скрипт, скачивающий дневник пользователя li.ru. Пока так:

#!/bin/sh
getpage ()
{
# $1,$2,$3,$4,$5 - url,mozdir,uid,ext,postid
wget ${1}/${3}/${5}/ --load-cookies ${2}/cookies.txt -O ${3}${5}.htm
cntr=`cat ${3}${5}.htm | grep "var maxpages="`
cntr=`echo ${cntr#*maxpages=}`
cntr=`echo ${cntr%;*}`
cntr=`expr $cntr - 1`
while [ $cntr -gt 0 ]
do
wget ${1}/${3}/${5}/page${cntr}${4} --load-cookies ${mozdir}/cookies.txt -O ${3}${5}${cntr}.htm
cat ${3}${5}${cntr}.htm >> ${3}${5}.htm
rm ${3}${5}${cntr}.htm
cntr=`expr $cntr - 1`
done
}
getpostid ()
{
ltmp=`echo ${1%/}`
ltmp=`echo ${ltmp##*/}`
echo $ltmp
}
url="http://www.liveinternet.ru/users"
mozdir="."
#uid="1333262"
uid="braindump"
getpage $url $mozdir $uid .shtml
tmp=`cat ${uid}.htm | grep class=\"TTL\" | koi2koi`
cntr="0"
for strings in $tmp
do
cntr=`expr $cntr + 1`
tmp1=`echo $strings | grep href= `
if [ "" != "$tmp1" ]
then
tmp1=`echo ${tmp1#*\"}`
tmp1=`echo ${tmp1%\"*}`
#echo $tmp1 >> jposts.tmp
#getpostid $tmp1 >> jpostids.tmp
getpostid $tmp1
#echo $ltmp
getpage $url $mozdir $uid .html $ltmp
fi
done
#grep class=\"ZAG\" |

Геморойненько у меня получается, опыта shell-программизма маловато. Однако ж вроде работает. Теперь надо парсить страницы постов с комментами - вытягивать собственно пост, комментарии юзеров...
вверх^ к полной версии понравилось! в evernote
Комментарии (8):
скриптик - это что-то среднее между скептиком и скрипкой)
zerolevel 13-12-2007-22:11 удалить
А по-моему, основное в скрипте - "шобы пело" :)) Но скромность украшает! ;)
braindump 13-12-2007-22:51 удалить
Нопильнег, мне стыдно за способ, которым я режу строки. Что при упоминании sed'a и awk'а теряю волю:)
braindump 13-12-2007-22:53 удалить
Эльф-Аниматор, скриптег:) Соответственно, следуя эхолалической логике, скрип тегов.
braindump 14-12-2007-02:03 удалить
Блин, идея в том, чтобы продолжить начинание:)
zerolevel 15-12-2007-22:08 удалить
braindump :))) а для меня sed / tail / tac что-то стали уже привычными (также, как (X)grep и awk)! Правда под Вендой ;)
braindump 17-12-2007-23:13 удалить
MonaSax, спасибо, однако ж я решил пойти немного другим путём, ибо комментарии не экспортируются, а задача заключается в том, чтобы сохранить и их, причём в базе данных или xml-формате. Файлы парсятся на раз, просто программные конструкции получаются какими-то неуклюжими. Короче, там работы немного, больше говорю, чем делаю:) Лень-матушка:)


Комментарии (8): вверх^

Вы сейчас не можете прокомментировать это сообщение.

Дневник скриптик | braindump - Дневник braindump | Лента друзей braindump / Полная версия Добавить в друзья Страницы: раньше»