• Авторизация


- yandex.blogs 03-12-2009 14:50


Вот и убрали с главной Яндекса рейтинг блог постов блогосферы, теперь у нас более 20 рейтингов. Также добавили новый раздел "новости в блогах" - почти тоже самое, что и темы дня - польза нулевая, зато новая возможность для спамеров нагнать себе трафик. Вообще если приглядеться, то треть топов сделана сеошниками для нагона трафика, треть - скучающими фрилансерами, а треть - новостными порталами и пиарщиками. Все они на перебой говорят об своей уникальности - которая на самом деле позаимствована с других; о своих гиганских планах - когда нет честной монетизации; и а своих крутых алгоритмах - хотя у некоторых в итоге будут сидеть модераторы или топ составляться по спискам бана и разрешенным блогером.
И только топ30 для топбота - белая ворона, был сделан только потому, что, блять, 4 года уже занимается сбором популярных записей и глупо сейчас все бросать. По случаю обновил дизайн на ТОП30 - стало лучше =).

А самое интересное, что ни пользователи, ни блогеры, ни инвесторы, ни рекламщики - не хотят иметь 20 топов, все хотят иметь 2-3, а для этого придется ждать где-то 2 года, пока все вымрут, а там глядишь и блоги никому уже нужны не будут - все будем сидеть в Фейсбуке =).
комментарии: 0 понравилось! вверх^ к полной версии
noindex - Неиндексируемый контент 02-12-2009 17:20


Еще одна актуальная проблема создания ТОПа, с которой придется столкнуться всем - когда сам автор не хочет попадать в ТОП. Для этого ему логичнее всего поставить настройку в ЖЖ "не учавствовать в индексации". Технически это выражается в добавлении тэга noindex. Но ЖЖ такой нехороший, что продолжает выдавать данные по RSS, что позволяет все равно попадать в ТОП, а вот Яндекс, с другой стороны, поступает честно и не индексирует записи, что заметно усложняет анализ "топовости" поста. Но с другой стороны, если автор не захотел поисковой популярности, почему бы нам не пойти ему на уступку и отбрасывать запись.

И более сложный вопрос, а что если модераторы сообщества запретили индексацию, а автор и не знал об этом, как это случилось с популярной записью в следующем сообществе - http://community.livejournal.com/positive_adopt/117852.html. Вроде бы автор не виноват, писал хороший текст, старался, а тут облом и не пришла популярность. Видимо именно для таких случаев придется сделать исключение. А Вы что думаете?
комментарии: 0 понравилось! вверх^ к полной версии

Last week news 01-12-2009 17:24


Самые интересные IT-новости прошлой недели, которые не должны пройти незамеченными. Во всяком случае я их отметил в ридере и только сейчас из-за нехватки времени возвращаюсь к чтению...
комментарии: 3 понравилось! вверх^ к полной версии
Рейтинг блогосферы - пост 5 (алгоритм сортировки) 30-11-2009 16:45


За прошедшую неделю я успел пообщаться с нашим патентным ведомством, которое сказало мне, что алгоритмы не патентуют, патентуют готовые прототипы. Предложили подогнать мою заявку под "Программу для базы данных для ЭВМ", но я не стал тратить время. Таким образом продолжаю серию постов, кратко рассказывающих как формируется ТОП30.
Содержание уже опубликованных заметок


Сегодня я приведу алгоритм первичной сортировки и объясню некоторые моменты. Если Вы читали предыдущие заметки, то должны знать, что алгоритм первичной сортировки нужен только для того, чтобы выбрать порядок в котором записи будут анализироваться на предмет прохождения через фильтры. Собственно сам package первичной сортировки:
Читать далее...
комментарии: 0 понравилось! вверх^ к полной версии
Who care about comments: GoogleWave 27-11-2009 15:43


Уже все крупнейшие западные гик-блоги успели высказать негатив про GoogleWave: TechCrunch, TheNextWeb и т.д. Кто-то сравнивает wave с очередной аськой, которой еще никто не пользуется, кто-то сравнивает с новой социальной сетью, в которой лень регистрироваться. Но лично мне видится явная задача, которую wave сможет скоро решить - это "комментарии, как источник новостей". Действительно, сейчас всех журналистов волнуют только посты, которые они перепечатывают получая новости, но очень часто в комментариях появляются не менее важная информация, которая достойна стать отдельной новостью. Но, увы, нигде нет нормальных средств для распространения комемнтариев - "цитирования", "ретвитинга", или иными словами "распространения в контексте обсуждения". Есть много систем пытавшихся унифицировать комментарии к новостям - это и Disqus, и IntenseDebate. Но все они пытались лишь привлечь пользователя со стороннего ресурса для обсуждения новости у себя. GoogleWave же должен позволить скопировать обсуждение в любую из имеющихся новостных площадок. И даже проиграть комментарии по времени.

Пример для наглядности: президент подписывает новый закон - это есть новость, которая копируется во все СМИ, в том числе и в GoogleWave, где пользователи начинают активно обсуждать и высказывать негатив. Это замечают журналисты, которые пишут 2 новые новости: 1) интернет пользователи высказываются негативно по новому закону. 2) пользователь kasparov@googlewave.com в комментариях к новому закону призывает выйти на митинг против новых....
Соответственно сейчас в СМИ, если и будет напечатана одна из двух новостей, созданных комментариями, то будет в лучшем случае показана картинка с комментариями и дана ссылка на всю тему с обсуждением. Но интернет-СМИ на то и "интернет", чтобы давать не просто картинки, а более полные и интерактивные цитаты того, что происходит.
Поэтому, если wave создаст удобный функционал во вне для так называемого "ReWave" (по аналогии с ReTweet) - то у него все шансы обогнать твиттер и тем более закрытый фейсбук благодаря открытому обсуждению горячих новостей.
комментарии: 0 понравилось! вверх^ к полной версии
Подстава дня: rss2email.ru 26-11-2009 12:18


С грустью обнаружил, что и среди перспективных проектов до сих пор случаются проблемы с регистрацией доменных имен. Так сегодня стал недоступен стартап с многотысячной аудиторийей http://rss2email.ru, о котором так много писала UNOVA и презентацию которого можно увидеть по ссылке. Кроме того я и сам планировал им пользоваться. Ребята то ли забыли продлить доменное имя, то ли не нашли инвестиций и решили закрыть "перспективный" проект. В любом случае доменное имя можно будет купить послезавтра, тогда же мы и узнаем ответ на столь волнующий вопрос.
комментарии: 0 понравилось! вверх^ к полной версии
Hardlock Dongles emulation 24-11-2009 17:15


Многие знают как создавать виртуальные сидиромы, чтобы устанавливать игрушки и пиратский софт, но не многие знают как эмулировать USB-ключ, который обычно поставляется с серьезными программными решениями. То есть чтобы запустить программу нужно предварительно вставить ключ и только тогда программа запустится. На западе такое устройство называется Dongle, у нас, кроме как USB-ключ, существует название "Шипка". Важно отметить, что устройство не обнаруживается как простой USB-ключ, тем самым вы его просто так не скопируете. Доступ к нему даже самой прогой осуществляется через специальный драйвер (Alladin и т.д.).

Программ по обходу такой защиты и эмуляции, если поискать, то можно найти массу, и 98% из них будут разводиловом. Поэтому для тех кто найдет этот пост через поиск я выложил архивчик, в котором есть все что надо для устройств типа Hardlock.
Читать далее...
комментарии: 0 понравилось! вверх^ к полной версии
Speedly: Text Parsing 23-11-2009 23:26


Мало освященной в рунете оказалась новость, что некие ребята планируют запустить сервис автоматического парсинга страниц по словам и тематике. То есть на вход дает ссылку на текст, а на выходе получает набор основных слов и название тематики поста. Очень удобно и всем необходимо, жаль, что пока закрытое тестирование идет. В целом, такой сервис без труда могли бы поднять как Гугл, так и Яндекс. В последнем случая у нас были бы просто космические возможности по созданию тематического ТОПа... А пока приходится все делать вручную.
комментарии: 1 понравилось! вверх^ к полной версии
посвящается топ30 22-11-2009 19:22
Слушать этот музыкальный файл

Click Click Boom - Saliva
комментарии: 1 понравилось! вверх^ к полной версии
Рейтинг блогеров 20-11-2009 20:33


Яндекс наконец-то выкинул мертвяков (их нельзя было читать) из blogs.mail.ru с верхних строчек рейтинга. Теперь вопросы вызывает нахождение там "блога картинок" - уровень заметно ниже тех же фишек, да и посещаемость накручена, да и комментариев относительно немного.
Будем ждать.
комментарии: 4 понравилось! вверх^ к полной версии
news-Outernet-ICQ-GoogleOS 20-11-2009 14:12


самые интересные технический новости: 1) Tish - выложила презентацию про следующий этап развития Интернета - Outernet , а также про необходимость использования Google Wave в AR приложениях. В общем все уныло, если бы не мысль, что "А.Everyone here will make money, B.Everyone not here can go fuck themselves" или по русски, "кто успеет - тот и папка"

2) AOL продает ICQ - дада, ту самую ICQ, через которую вы общаетесь с друзьями. Теперь вашу переписку будет мониторить не только ЦРУ, но и любая фирма за символические 300млн.у.е. Такая дешевизна продажи может быть связана либо с кризисом, либо с тем, что все боятся выхода Google Wave - нового слова в коммуникациях.

3) Состоялся показ GoogleOS - он запускается за 7 секунд! - почти также быстро как винда выходит из спящего режима!

комментарии: 0 понравилось! вверх^ к полной версии
CAPTHA+ADS 19-11-2009 21:15


Посетила меня мысль, что каптча в современном мире бесполезна, однако ее продолжают применять, так как несколько сот миллионов пользователей интернет уже привыкли к тому, что это защищает сайт от роботов и пользователи на дрессировались распознавать хитро-зашумленные буквы и цифры, поэтому грех этим не воспользоваться. А в итоге только тратиться впустую время всей планеты. Сегодня, когда Микрософт и Гугл тратят немало усилий, вплоть до пересмотра базовых протоколов, чтобы сделать интернет быстрее, когда лучшие умы планеты думают, чтобы ускорить загрузку на сотую секунды, и все это напрасно, ибо после нескольких миллисекунд вам грузится капча и вы тратите несколько минут пытаясь угадать, что же там нарисовано. А между тем роботы, которых все якобы боятся, делают стартап популярным в глазах статистики, а уже на популярный ресурс в итоге заглядывают реальные пользователи, делая посещаемость.

Таким образом, мысль моя приходит к тому, что в у нас должна быть капча, где пользователям предлагают ввести не просто слово, а имя бренда, одного из тех, что рекламируется. То есть создается банерная сеть из каптча вводов. А рядом еще кнопка подсказка, где вам тупо зачитывают основной рекламный лозунг этого бренда, про отбеливание и чистую одежду, чтобы вы уж точно вспомнили, что это "VANISH" закодирован в каптче.
комментарии: 0 понравилось! вверх^ к полной версии
Рейтинг блогосферы - пост 4 (про ссылки) 18-11-2009 15:10


Примечательно, что с каким бы программистом я не начинал обсуждать алгоритм составления ТОПа, в итоге каждый говорил, что вот он сейчас пойдет создаст сайт, выложит там новый ТОП и станет популярным. Это с одной стороны хорошо, так как показывает, что программисты - люди дела и любители играть в разные алгоритмы, а также мечтают стать знаменитыми. Но с другой стороны показывает, что они не понимают
1) Как работать в команде,
2) Что так как все работают с одним векторным пространством и одинаковыми сырыми данными, то в итоге рейтинг у всех будет совпадать в значительной степени.(~20%)
3) Самая сложность не в первоначальной сортировке, а в последующих фильтрах, которые должны отсеять спамерские посты. А спамерские посты чаще всего имеют ссылки как входящие, на сам пост, так и исходящие - на рекламу - которые нужно уметь определять и фильтровать. Вот об этом алгоритме работы нового ТОПа и поговорим.

После 4х летнего изучения топов я с полной уверенностью могу сказать, что нет смысла составлять списки бана, то есть лишать определенныз определенных блогеров шанса попасть в ТОП. Ибо это равносильно тому, чтобы посадить своего модератора, так как спамер может создавать новые блоги каждый день. В связи с этим логичным видится
1) фильтр по ссылкам, которые содержаться в посте - то есть все ссылки должны проходить проверку через сервис opendns, чтобы исключить ссылки на фишинговые сайты в топе или на сайты с вирусами. Минус - медленная работа по отбору записей, поэтому я пока ограничился самосоставленным списком с плохими ресурсами. И если в после есть ссылка на плохой ресурс, то пост не попадет в топ. Также я расматриваю вариант, когда на наличие плохих ссылок будет анализироваться вся главная страница блога и страница профиля, так как вероятно их откроет человек захотевший узнать побольше об авторе ТОПа и этим тоже пользуются спамеры.
2) ссылки на популярные сервисы сокращения ссылок (bit.ly) можно пока не фильтровать, так как эти сервисы сами заинтересованы в фильтрации ссылок на фишинговые и вирусные сайты.
3) Ранее я упомянул фильтр на локальный экстримум - он заключается в том, что проверяется, что за локальный период времени ссылок именно на этот пост блогера было больше всего или комментариев было больше всего. Это прежде всего позволяет отфильтровать тех у кого есть трансляции и у кого стабильно по несколько ссылок между своими трансляциями. Также отфильтрует тех, у кого стабильно много комментариев, например из-за спама в комментариях.
4) Анализируя спамерскую активность я пришел к выводу в необходимости фильтра "LinksIntegrity" - задача которого проверить все ссылки на расматриваемый пост, отбросить одинаковые, отбросить те, которые сделаны из сообществ и отбросить все ссылки с микроблогов. Повышенная активность в микроблогах и то, что там почти каждый пост содержит ссылки - говорит о том, что нельзя микроблоги причислять к полноценным блогам. Кроме того в микроблогах сейчас каждый упоминание типа "@user" - считается ссылкой и это сильно перекосило рейтинг блогеров и вызывает недоумение в определенных кругах. Итак, после отбора ссылок, проверяется, что оставшееся число ссылок достаточно для того, чтобы интегральная характеристика поста оставалась среди 20% постов с наибольшим значением.
комментарии: 2 понравилось! вверх^ к полной версии
Сказка на ночь 16-11-2009 02:01


В сеть выложено еще 13 тыс. взломанных аккаунтов от вконтакта - http://habrahabr.ru/blogs/virus/75345/. Проверил - подходят. Такая регулярность с паролями в открытом виде наводит на мысль, что взлом осуществляется не просто троянами, а с помощью популярных социальных игр число которых растет постоянно, где участникам предлагается залогиниться, введя мыло и пароль, что наивные пользователи и делают.
Спокойной ночи.
комментарии: 2 понравилось! вверх^ к полной версии
Go Code 15-11-2009 03:55


Свежая наклейка на ноуте с надписью "Go Code" заставила меня поразмышлять о новом языке программирования, который предлагает Google. Во-первых, уже полно языков программирования и трудно придумать что-то, чтобы всех заставило разом перейти на него. Во-вторых, пошла шутка, что "В ответ Yahoo запустил язык программирования YO! А мы теперь ждем языка YA!". Но если подумать, то можно вспомнить, что сейчас идет бета тестирование GoogleWave, которое в следующем году станет доступно всем, а также появится маркет, на подобии AppStore, где девелоперы смогут продавать, написанные ими снипеты для GoogleWave. Это программы, с помощью которых пользователи смогут взаимодействовать друг с другом, например, игры в социальных сетях. Но если мы возьмем OpenSocial платформу, то даже в ней для создания какой-то простой игры потребуется дополнительно изучать форматы сообщений, представления данных, почти как изучить новый язык. Не исключено, что Гугл захочет заставить прогеров писать снипеты, а также федеративные сервера, для GoogleWave на собственном языке.
комментарии: 0 понравилось! вверх^ к полной версии
Ретинг блогосферы - пост 3 12-11-2009 16:29


Провел небольшой эксперимент, имея на руках 4 параметра (visits24, links, comments, commenters), базу из 1000 постов за 3 дня, а также историю ТОПа с 40 постами за сутки, а попытался методом перебора коэффициентов найти наиболее подходящий вектор, на который делается проекция, как было описано в первом посте, чтобы после сортировки всех записей по величине этой проекции, в первых 100 оказывалось максимальное число постов, которые попали в топ, построенный по старому алгоритму.
Результатом стал вектор (10,9,12,12) с результатом в 25 постов из 40. Это прежде всего говорит о том, что в текущем алгоритме есть явная завышенная зависимость от числа различных русскоязычных комментаторов к посту (commenters). Я же для сортировки записей беру вектор с равными весами = (1,1,1,1). Кроме того, стоит отметить два выявленных особенностей
1) В блогах на YaRu - внутренняя ссылка является также комментарием, поэтому важно уменьшать кисло комментариев на число ссылок. Иначе получается завышенное число ярушных блогов с высокими значениями.
2) Нормировка происходит не только в группах по типу блогплатформы, но и по типу блога или сообщества. То есть для блогов и сообществ максимумы значений считаются отдельно.

После того, как записи в текущей куче постов за 3 дня отсортированы применяются фильтры. Их много, я их кратко перечислю по ходу применения:

Читать далее...
комментарии: 0 понравилось! вверх^ к полной версии
Рейтинг блогосферы - А что всем нужно? 11-11-2009 14:31


В рамках открытого обсуждения нового алгоритма ранжирования записей блогосферы собраны следующие пожелания к обновленному топу. Эти условия необходимо выполнить, чтобы ТОП блогов, как социальное явление не был полностью дискредитирован теми, кто хочет на нем лишь заработать:

  • Сводный рейтинг записей, который было бы интересно читать.
  • Сводный рейтинг записей, в который при необходимости можно было бы попасть.
  • Несколько разных страниц с разным дизайном, но одинаковым содержанием, чтобы не винить одну сторону во всем.
  • Достаточную посещаемость у рейтинга, чтобы рекламодателям было бы интересно.
  • Единую систему ценностей, чтобы попадание в ТОП – что-то значило как достижение.
комментарии: 0 понравилось! вверх^ к полной версии
GoogleDevDeay 2009 11-11-2009 12:26


Пару слов о вчерашнем мероприятии гугла. План минимум выполнен - попили, поели, футболку получили. В остальном же не был особо поражен наработками гугла, такое чувство, что переделываются в Open Source все наработки Микрософта. Только для бизнеса Open Source не вариант - ибо если что-то непонятно или не работает, то кто должен отвечать или чинить? Вот на той же схеме с синхронизированными данными сервер-сервер в GoogleWave мне бы обязательно задали вопрос - а что будет, если один из серверов вырубиться в процесе такого обмена... как будет реагировать второй.

Посмотрел еще раз на моего любимого Chrisa Chabota (любимый, так как похож на Гомера Симпсона), занимающегося http://ActivityStrea.ms, правда он до сих пор пребывает в заблуждениях, разбивая социально значимый объект на 3 части, а не на пять, как я рекомендую, забывая о еще не созданном 8м семантическом инварианте - мониторинге. То есть "социально значимый объект" в сети должен состоять из "Idendity"(я-вася), "Relations"(знаю Петю), "CurrentState"(часто меняющиеся переменные, такие как локация или список используемых приложений), "Activities"(список посещенных мероприятий, сделанных постов), "Statistic" (например, блог ведется 2 года, запощено 100 постов).

Далее подловил главного по GoogleWave - спросил, собираются ли они делать из WaveID распределенный идентификатор, чтобы я мой шарить не только личные данные, но и текущие активные вавлеты, через которые со мною можно было бы связаться. Он сказал, что не думал еще про это, но идея очень интересная.

И в дополнение, на ugotrade вышла очередная большая статья, рассказывающая про будущее Дополненной реальности и создание так называемого OuterNet'a - то что прийдет на смену InterNet'u.
комментарии: 0 понравилось! вверх^ к полной версии
F5 today 09-11-2009 14:30


Почитал сегодняшний номер журнала F5. В целом как обычно - отсутствие собственных мыслей и куча копипастов из интернета дополненных развлекательными картинками. Хочу прокомментировать историю про черно-белые мультики Mr.Freeman. Примерно 2 года назад в сети появилась книга, которую можно было бесплатно скачать и активно распространялась среди разных вирусмейкеров рунета. Книга называлась "Войны креатива" и как раз повествовала о русском креативщике, который анонимно завел блог в интернете и постил креативы. Его целью было активизация российских умов с целью создания нового товара экспортируемого на запад - креатива. Российского креатива, который бы составил конкуренцию западному креативу, какой-то там фирмы. Вообщем тым была долгая история, но можель исполнения и ключевые фразы совпадают. Помню еще тогда мне говорили, что типа - давай организуем блог креатива, сделаем революцию в умах... но я не ведусь на подобный бред.

Примечательно также, что из газеты убрали небольшой блог с самыми интересными блогпостами за неделю, хотя и топ яндекса еще жив и мой deep-water.ru (на который они ссылались, но данные которого не релевантны) тоже еще жив.
комментарии: 0 понравилось! вверх^ к полной версии
Рейтинг блогосферы - пост 2 08-11-2009 17:43


Сегодня я вернусь к вопросу правильности выбора параметров, от которых строится функция F(comms,visits,commenters,links) - входящая в композицию веса поста.
Первый вопрос, почему я отбросил другие параметры, кроме перечисленных четырех, такие как "число комментариев/ссылок/комментаторов за последние 24 часа", а также "вес ссылок - linksweight". Ответ: Я достаточно долго работал с данными, собираемыми распределенной системой по всему миру и убедился, что такой параметр как время становится более чем относительной характеристикой. В этот параметр вкладывается и задержка поступления данных с разного индексирующего кластера, и месторасположение блогплатформы, у которой серверное время может выдаваться со сдвигом и прочее и прочее. Однако, стоит заметить, что параметр linksweight в алгоритме учитывается. Так как в старом алгоритме придавалась большая значимость количеству ссылок, которые делаются на запись, и кроме того есть механизмы обнаружения спамерских ссылок, то в новом алгоритме я оставляю требование на наличии хотя бы одной неспамерской по версии Яндекса ссылки.

Второй вопрос, почему четыре параметра входят в функцию с одинаковыми весами. Ответ: При построении интегрального коэффициента глупо было бы отдавать предпочтение одному из параметров. Записи должны отсеиваться на основании тех параметров, которые определяют текущее состояние экспертной системы, а следовательно базируются на выборке из всех записей блогосферы, а не одной конкретной, о которой накрутчикам известно все и они могут подкрутить любой из параметров. С такой точки зрения, все четыре параметра равноценны, однако, у меня есть большое недоверие к параметру посещений, так как он весьма условный и вероятно считается некорректно. Но это не так важно, так как наш интегральный параметр задает лишь критерии сортировки записей перед выборкой и не является определяющим при помещении записи в ТОП.

В заключение отмечу, что в единицу времени в ТОП помещается только одна запись, так как эта операция меняет основные параметры экспертной системы и следовательно дискретна. За день в ТОП может попасть не более 70 записей. Если этого будет много, то я уменьшу этот параметр.

В следующий раз я затрону тему фильтров 1)по темам дня 2) отсеивание ссылок на плохие сайты 3) отсеивание дублей методов сравнения слов-низкочастотников в постах находящихся в ТОПе. А пока, результат работы нового алгоритма формирование рейтинга популярных тем блогосферы публикуется на сайте beta.topbot.ru. Присылайте вопросы на topbot@ya.ru.
комментарии: 0 понравилось! вверх^ к полной версии