Озера данных (Data Lake) — это масштабные хранилища, в которых разнообразные данные хранятся в сыром, необработанном и неструктурированном виде. Аналогия: рыба в озере, попавшая туда из реки — вы не знаете, какая именно рыба и где она находится. Для обработки (приготовления рыбы) её нужно поймать.
Неструктурированные данные и их хранение
В повседневной жизни мы чаще сталкиваемся с неструктурированными данными: видеоролики, книги, журналы, документы Word или PDF, аудиозаписи, фотографии. Вся эта неструктурированная информация может храниться в Data Lake.
Принцип работы озера данных
Озеро данных — это огромное хранилище, принимающее файлы любых форматов из любых источников: CRM-системы, ERP-системы, продуктовые каталоги, банковские программы, датчики, умные устройства — любые системы, используемые бизнесом. После сохранения данных с ними можно работать: извлекать по определённому шаблону в классические базы данных, анализировать и обрабатывать непосредственно внутри Data Lake. Для этого используются специализированные программные средства, позволяющие обрабатывать большие объемы данных различных типов и структур. С их помощью собранные данные можно распределить и структурировать, настроить аналитику для построения моделей и проверки гипотез, а также использовать машинное обучение. Примеры таких инструментов: Hadoop и системы на базе Spark.
Озера данных vs. обычные базы данных
Ключевое отличие: базы данных хранят только структурированные данные, озера данных — неструктурированные, несистематизированные и неупорядоченные.
Пример: Описание целевой аудитории: «Девушки 20-30 лет, незамужние, обычно без детей, работающие на низких руководящих должностях, и мужчины 18-25 лет, женатые, без детей, без чётко определённого места работы». Это неструктурированные данные, которые можно загрузить в озеро данных. Для структурирования их нужно обработать и преобразовать в таблицу. В классической базе данных необходимо определить тип данных, проанализировать их, структурировать и только потом записать в чётко определённое место. В озере данных информация структурируется на выходе, когда нужно извлечь данные или проанализировать их; сам процесс анализа не влияет на данные в озере.
Другие различия:
- Актуальность данных: В базах данных данные актуальны и полезны «здесь и сейчас»; бесполезные данные теряются. В озерах хранятся данные, которые могут пригодиться в будущем или не пригодиться никогда.
- Типы данных: Базы данных хранят таблицы с цифрами и текстом по чёткой структуре; озера данных — любые данные: картинки, видео, звук, файлы, документы, разнородные таблицы и т.д.
- Гибкость: Базы данных обладают низкой гибкостью, требуют определения типов данных и структуры на старте; озера данных — максимальная гибкость, ничего не нужно определять заранее.
- Стоимость: Базы данных дороже, особенно при хранении больших объемов данных; озера данных дешевле, вы платите только за занятый объем.
- Доступность данных: Данные в базе данных доступны всем сотрудникам; для работы с данными в озере данных требуются технические специалисты (data scientists).
- Сценарии использования: Базы данных идеально подходят для хранения важной информации, всегда необходимой под рукой; озера данных — для хранения архивов неочищенной информации, потенциально полезной в будущем, и для масштабной аналитики.
Области применения
Озера данных применимы в любом бизнесе, собирающем большие данные: маркетинг, ритейл, IT, производство, логистика. Они используются для хранения важной информации, пока не используемой в аналитике, или даже данных, которые кажутся бесполезными, но могут пригодиться в будущем.
Примеры использования:
- Оптимизация логистики: более детальное планирование и прогнозирование объемов продаж, поставок нужного качества в нужное время с минимальными затратами.
- Производство: мониторинг сложного оборудования с помощью IoT-датчиков, анализ данных для предотвращения поломок.
- Маркетинг и электронная коммерция: хранение разрозненной информации о клиентах (активность на сайте, в соцсетях, звонки менеджерам, покупки) для масштабной аналитики и прогнозирования поведения.
Исследования показывают, что компании, внедрившие Data Lake, опережают конкурентов по выручке на 9%.
Управление данными: предотвращение превращения озера в болото
Серьезная проблема озер данных: бесконтрольное попадание данных, невозможность определить их качество. Без четкой модели данных и управления озером быстро накапливаются огромные объемы неконтролируемых и бесполезных данных. Озеро превращается в «болото данных», пожирающее ресурсы и не приносящее пользы.
Для решения этой проблемы необходимо наладить процесс управления данными (Data Governance):
- Определение достоверности и качества данных до загрузки в озеро.
- Отсечение источников с недостоверными данными.
- Ограничение доступа к загрузке.
- Проверка параметров файлов (например, размер картинок).
Управление данными — приоритетная задача, необходим отдельный ответственный сотрудник (Data Officer).
Data Lake — это хранилище неструктурированной информации любых форматов из различных источников. Они дешевле и гибче обычных баз данных, легко масштабируются, пригодны для любых целей анализа, прогнозов и оптимизации бизнес-процессов. Важно помнить: без контроля и управления данными озеро превратится в бесполезное «болото». Заранее определите цели сбора данных, чтобы избежать накопления бесполезной информации.