Теоретическая часть
Что такое Big Data?
Big Data (Большие данные) - большие объёмы структурированных и неструктурированных потоков информации, непрерывно поступающих с измерительных электронных устройств на специальные сервера.
Примеры больших данных:
- потоки статистических данных
- потоки сообщений в социальных сетях
- потоки данных с устройств видеонаблюдения
- потоки данных о местонахождении абонентов сетей сотовой связи
Сегментация
Сегментация - это процесс разбивки данных на различные группы (сегменты).
Сегментировать можно всё, что угодно, включая:
- идеи
- проекты
- продукты
- рынки
- контракты
- расходы
- доходы
- клиентов
- конкурентов
- сотрудников
- собственное время
Например, если у вас много идей, их можно сегментировать на перспективные, бесперспективные, выгодные и невыгодные.
Если много сотрудников, их можно сегментировать на ключевых, полезных, бесполезных и вредных.
Разбивка любых больших данных на сегменты позволяет разделить потоки информации на части и выделить наиболее важные данные. Однако если сегментов слишком много - возникает беспорядок, в котором трудно найти нужное.
Особенности сегментации баз данных
Сегментировать базы данных, разбивая записи на несколько сегментов, можно по любым произвольным критериям: например, выбрать все данные, относящиеся к определённому промежутку времени, региону или цене.
Цель сегментации баз данных - выделение из общего массива информации наиболее важных данных для быстроты обработки.
После сегментации, к тому или иному сегменту данных можно применить один из двух методов обработки информации:
- анализ связей
- прогнозное моделирование
Анализ связей подразумевает:
- вычисление размера сети
- вычисление сетевой плотности (сила связей между объектами, а также соотношение действующих и возможных связей)
- вычисление степени централизации (понимание того, что в центре, а что - на периферии)
- вычисление плотности централизации (понимание силы связей между центром и периферией)
- вычисление эквивалентности (схожесть структурных свойств объектов в сети и масштабы возможных изменений)
Анализ связей позволяет ужимать большие объёмы данных в компактные пучки, выводить общие закономерности и наглядно их демонстрировать в виде схем, графиков, таблиц и т.д.
Прогнозное моделирование позволяет на основе собранной статистики или анализа текущих и исторических фактов спрогнозировать будущее объектов изучения с целью принятия оптимальных решений.
Вопросы для самопроверки
- Что такое Big Data?
- Какие информационные потоки являются примером Больших данных?
- Что такое сегментация?
- Почему при сегментации не должно быть слишком много сегментов?
- Каковы особенности сегментации баз данных?
- Для чего нужен анализ связей?
Практическая часть
Упражнение 1.
***
Записаться на индивидуальное обучение, получить больше упражнений и подробную расшифровку каждого пункта теоретической части, а также попасть на личную консультацию можно связавшись с автором. Для тех, кто занимается йогой по программе авторской закрытой школы йоги "Инсайт", все услуги - бесплатно, для остальных - по договорённости.
Мой скайп: seahappiness
Страница Вконтакте: http://vk.com/id39643953
P.S. Посетите также мой блог, посвящённый вопросам саморазвития методами йоги: http://v-lavrov.livejournal.com/