Big Data — это термин, описывающий огромные и постоянно растущие объемы данных. Обработка таких данных невозможна без машинного обучения. Преимущество использования Big Data заключается в сборе данных из различных источников, улучшении бизнес-процессов за счет анализа в реальном времени, хранении огромных объемов данных, получении более глубокого понимания скрытой информации при помощи структурированных и полуструктурированных данных, снижении рисков и принятии более взвешенных решений благодаря анализу рисков.
Big Data на практике
Рассмотрим несколько примеров использования Big Data:
- Нью-йоркская фондовая биржа: ежедневно генерирует 1 терабайт данных о торгах.
- Социальные сети (Facebook): ежедневно загружается 500 терабайт новых данных, генерируемых загрузками фото и видео, сообщениями, комментариями и т. д.
- Реактивные двигатели: генерируют 10 терабайт данных каждые 30 минут полета. Учитывая тысячи ежедневных полетов, общий объем данных достигает петабайтов.
Классификация данных Big Data
Big Data можно классифицировать по форме данных:
- Структурированные данные: данные с фиксированным форматом, которые легко хранить, получать доступ и обрабатывать. Примеры: данные в реляционных базах данных (например, таблица сотрудников компании с идентификатором, именем, полом, отделом и зарплатой). Несмотря на достижения в обработке структурированных данных, их объемы уже достигают масштабов в несколько зетабайт (1 зетабайт = миллиард терабайт).
- Неструктурированные данные: данные неизвестной структуры, сложные для обработки и извлечения информации. Примеры: гетерогенные источники, содержащие текстовые файлы, изображения и видео. Результат поиска Google — типичный пример.
- Полуструктурированные данные: данные, обладающие некоторой структурой, но не являющиеся табличными данными реляционных баз данных. Пример: персональные данные, представленные в XML-файле.
Характеристики Big Data
Согласно Gartner, Big Data характеризуется четырьмя основными параметрами:
- Объем: Сам термин «Big Data» связан с огромным размером данных. Ежедневно 6 миллионов человек используют цифровые медиа, генерируя около 2,5 квинтиллиона байт данных.
- Разнообразие: Данные поступают из гетерогенных источников и имеют различную природу (структурированные, неструктурированные). Раньше основными источниками были электронные таблицы и базы данных, сейчас же к ним добавились электронные письма, фото, видео, PDF-файлы и аудио. Это разнообразие усложняет хранение, извлечение и анализ данных. 27% компаний не уверены в правильности используемых данных.
- Скорость генерации: Скорость накопления и обработки данных определяет их потенциал. Поток данных из различных источников (бизнес-процессы, логи приложений, сайты, социальные сети, сенсоры, мобильные устройства) огромен и непрерывен.
- Изменчивость: Непостоянство данных во времени усложняет их обработку и управление. Большая часть данных изначально неструктурирована.
Big Data аналитика: польза для бизнеса
Анализ Big Data приносит ощутимую пользу:
- Продвижение товаров и услуг: Доступ к данным социальных сетей (Facebook, Twitter) позволяет точнее разрабатывать маркетинговые стратегии.
- Улучшение сервиса для покупателей: Big Data и обработка естественного языка позволяют анализировать отзывы покупателей.
- Расчет рисков: Например, при выпуске нового продукта или услуги.
- Операционная эффективность: Big Data структурирует информацию, обеспечивая быстрый доступ к необходимым данным и оперативное получение точных результатов. Это оптимизирует работу с редко используемой информацией.
Big Data — это не просто большие данные, а мощный инструмент для анализа и извлечения ценной информации из различных источников, способствующий развитию бизнеса и принятию более обоснованных решений.