• Авторизация


Энграммы 20-12-2010 17:22 к комментариям - к полной версии - понравилось!


В субботу, когда я прочитал про Гугл.Тушку, полез смотреть на Google.Labs, что ещё у них есть интересного. И не пожалел, хотя и не выспался.

Одна из главных вещей, подвесивших меня на много часов, это Books Ngram Viewer. Гениальная штука, позволяющая смотреть частоту упоминания того или иного слова — но не в интернетах, как это делает Яндекс.Wordstat или Яндекс.Пульс, а по книгам. Период исследования — с 1800 по 2008 год, что само по себе уже вдохновляет. Добавим возможность искать отдельно по русскоязычной литературе, британской, американской, немецкой и станет понятно, что это суперский инструмент для исследований. Историкам он поможет проверять гипотезы, неисторичным людям вроде меня — просто доставит удовольствие.

К недостаткам в настоящее время можно отнести

  1. отсутствие морфологии при поиске («катастрофа» и «катастрофы» — два разных слова),
  2. невозможность отключить различение заглавных и строчных букв («Жизнь» и «жизнь»),
  3. отсутствие прямого сравнения между статистическими данными на разных языках (интересно было бы увидеть, как коррелирует британский «кризис» с «кризисом» в США),
  4. много ошибок распознавания при сканировании,
  5. невозможность задать коэффициент нормализации для каждого слова, чтобы увидеть именно совпадение трендов, а не частоту.

Однако авторы сделали исходные данные доступными для скачивания и самостоятельной обработки. Так что если кому-то горит, он может исправить вышеперечисленные недостатки самостоятельно.

Разумеется, п1 не столь серьёзен и может быть легко компенсирован заданием сразу нескольких вариантов слова, чтобы убедиться, что между ними есть корреляция:

[756x354]

Делюсь кое-чем интересненьким, из того, что нашёл.

1. Динамика внимания к Ленину и Сталину:

[756x290]

Обратите внимание на спад количества упоминаний Сталина, начавшийся в 51-52 годах. Напоминаю, что Сталин умер в 1953 году. То есть спад начался до его смерти. Также посмотрите на пик упоминаний Ленина в 1941 году, одновременно со сталинским провалом. Я не знаю причин, но выглядит очень любопытно.

2. «Холодное лето 1953-го».  «Воровство» и «убийство» в период с 1940 по 1960 годы.

[759x284]

В 1953 году нет пика ни по «воровству», ни по «убийству». Что вполне может объясняться цензурными причинами. Зато пик «воровства» есть в 1947 году (почему?) и «убийства» в 1954 году.


3. «Молиться, поститься!» — «религия» и «голод»

[761x277]

Что косвенно подтверждает это исследование.


4. «Несправедливость»

[761x284]

Просто для калибровки системы. Пики в 1905 и 1920 году вполне понятны. Небольшой пик в 1928 и горка, в 1953 любопытны. Ну и рост «несправедливости» в 1990-х тоже вполне объясним. Кстати, обратите внимание, что рост продолжается и сейчас.


5. «Let kill 'em in WC»©.

[759x285]

И мы знаем, кому слово «сортир» обязано такой популярностью в последние годы. Ну, хоть так в историю вошёл. Или влип. Кстати, посмотрите и «мочить в сортире» — там график совсем очевидный.


6. «Шизофрения» у нас и за рубежом.

Это Россия/СССР:

[763x283]

Это Британия:

[766x281]

США:

[756x289]

А это Германия:

[759x279]

Шизофрения имхо любопытна тем, что упоминание о ней обычно (насколько я знаю) не цензурируется. В то же время, чем гаже обстановка в стране, тем больше шизофреников (психиатры, поправьте, если я здесь ошибся). Поэтому графики в принципе показывают реальный уровень напряженности и фрустрированности в обществе.  Разумеется с поправкой на научные публикации и политзаказы. Например, при Брежневе в СССР была популярна «карательная психиатрия», когда диссидентов упекали в дурку. В том числе и с диагнозом «шизофрения».  Возможно этим объясняется пик в 70-х. А может быть, причина — разочарование  в «оттепели».

В России любопытен пик в середине 30-х. Возможно он связан со всем нам известными событиями. А в Германии больше SCH стало как раз к 1945 году. Вероятно народ начал приходить в себя после угара нацизма и как-то болезненно осознал, что скоро им хана. США в 65-73 году вели войну во Вьетнаме, оттуда возвращались Рембо, а встречали их пацифисты. Посмотрите на пик в эти годы.

 

7. «Боишься ли ты конца, Света? Конец, Света, близок!»

[755x285]

Да, 17 год не для всех был счастливым. И с 70-х ощущение неминуемого трындеца стабильно нарастало. Но почему такой пик в конце 40-х?

Любопытно, что в англоязычной литературе ожидания конца света («end of the world») неизменно снижаются. UPD. «Doomsday» выравнивает график.

Как пример, США:

[760x289]

Более-менее равномерные ожидания конца света только в англоязычной художественной литературе (English Fiction corpus).

 

8. Нефть, газ, уголь. Oil, gas, coal.

[759x279]

Относительная роль угля стабильно снижается в СССР с 60-х. И кризисы уголь не подбрасывают.

А вот в Буржуинии этот спад начался раньше. США:

[756x289]

 

 

9. Млеко, яйки, брот!

[765x281]

Ну и напоследок, загадка почище улыбки Моны Лизы. Откуда такое паранойяльное внимание к яйцам в середине 1930-х? UPD. Виноват Фаберже.

 

Также любопытно посмотреть следующие слова:

  • катастрофа
  • war, peace
  • революция
  • уехать
  • фашизм
  • любовь, дружба
  • заговор
  • купить, продать
  • предатели
  • нефтедоллары
  • астрология, astrology
  • говно
  • убили
  • холодная война
  • педофилия — рост после 90-х, вероятнее всего просто стали писать
  • физик, лирик
  • Пушкин, Толстой, Достоевский

Для более детального исследования можно как скачать исходные данные, так и посмотреть литературу за выбранный период прямо онлайн, по ссылкам под графиком.

Хорошего вам развлечения!

вверх^ к полной версии понравилось! в evernote
Комментарии (12):
XYZ 20-12-2010-18:01 удалить
>Обратите внимание на спад количества упоминаний Сталина, начавшийся в 51-52 годах. Напоминаю, что Сталин умер в 1953 году. То есть спад начался до его смерти. вполне понятно. книги подготовленные в печать в 51-52 году пошли бы в печать в 53, а там их уже и сняли с печати.
akry 20-12-2010-18:54 удалить
Ответ на комментарий XYZ # Разве в то время цикл подготовки книг был аж два года?
XYZ 20-12-2010-19:11 удалить
ну не меньше полугода полюбому. год на утверждение - обычное дело. http://yandex.ru/yandsearch?text=%D0%A1%D0%B4%D0%B...%B0%D1%82%D0%B8%2C+1950&lr=213 а ещё надо напечатать, переплести, доставить.... думаю дело именно в этом.
akry 20-12-2010-20:27 удалить
Ответ на комментарий XYZ # Похоже, что ты прав. Я ещё поспрашивал, подтверждается. Внесу сейчас исправление в текст.
Делитант 20-12-2010-20:33 удалить
Очень интересный сервис!
akry 20-12-2010-21:06 удалить
Ответ на комментарий XYZ # UPD. Что-то я опять засомневался. В книге годом выпуска ставят ведь не год начала работы над книгой, а когда она печатается? Но тогда спад был бы после смерти Сталина, а то, что произошло до — уже выпущено.
XYZ 20-12-2010-23:20 удалить
Ответ на комментарий akry # передо мной книга. год выпуска 1978 isbn ... 77 сдана в набор 21.09.77 подписана к печати 15.4.78 такие дела...
Inita 20-12-2010-23:54 удалить
Если задать конец света как doomsday, график более понятен (что-то ночью не разобралась, как тут ночью картинки попроще вставить )) С любовью грустно... а вот по "религиозным" вопросам все неоднозначно
akry 21-12-2010-12:30 удалить
Ответ на комментарий XYZ # Ну да. Мы сейчас большую книжку делаем, уже почти год. Похоже на true. Самый главный вопрос: они по «сдано в набор» или по «год выпуска» меряют? Потому что если по году выпуска, то получается такая штука: 1. автор собирал материал и писал свой опус N лет, непредсказуемо сколько. 2. написав, он (после переговоров с издательством) сдал авторские листы в набор — в 1951 году. 3. понабирав и повычитывав, они подписали книгу к печати и она ушла в типографию (не факт, что сразу) — в 1952 году. А вот если бы автор попытался сунуться в издательство после 53 года, причём, после Хрущёвского «О культе личности» — когда он там был, в мае 53-го? — то получил бы отлуп. И вероятно подписание к печати бы тоже засуспендилось после доклада. Поэтому должны были бы быть книги с датами подписи в печать до 53 года (когда бы их ни сдали в набор), а дальше провал. Сталин умер в марте, но сомнительно, что издательства сразу начали придерживать книги о нём. Скорее наоборот, до доклада Хрущёва, они печатали их массово, потому что информационный повод.
akry 21-12-2010-12:33 удалить
Ответ на комментарий Inita # Если более вдумчиво исследовать, надо смотреть литературу по каждому пику, чтобы понять, о чём речь. Например, до революции было много «Бог», после стало много «бог». Вполне вероятно, что речь не о религиозности, а об антирелигиозной литературе. Я то так, не проверял особо. Накидал навскидку всякого для возбуждения аппетита :)
Inita 21-12-2010-21:22 удалить
Ответ на комментарий akry # Да, я это учитывала, писала и с заглавной, и со строчной. И разные слова брала


Комментарии (12): вверх^

Вы сейчас не можете прокомментировать это сообщение.

Дневник Энграммы | akry - aKry online | Лента друзей akry / Полная версия Добавить в друзья Страницы: раньше»