Как повторить привычные паттерны работы с данными в 2023 году
Долгое время российские компании строили системы аналитики преимущественно с применением глобальных продуктов. Это определяло архитектуру дата-решений и подходы команд к работе с данными.
2022 год поставил задачу поиска нового стека инструментов для систем аналитики и новых подходов к их архитектуре. В этой статье поговорим о том, с помощью каких инструментов аналитики можно воспроизвести привычные архитектурные паттерны систем, и рассмотрим, как работать с аналитикой в облаке.
Статья написана на основе вебинара c Ольгой Свитневой (менеджером продукта Data Platform в VK Cloud), Алексеем Бестужевым (архитектором VK Cloud) и Александром Белоцерковским (евангелистом VK Cloud).
Отправная точка
Индустриальный стандарт инфраструктуры работы с данными, привычный для большинства специалистов отрасли, состоит из следующих элементов:
Источники данных. Ими могут быть устройства, промышленные и корпоративные системы.
Передача данных. Обязательные элементы для построения распределенной архитектуры. Обычно представлены как Gateway, так и Queue.
Препроцессинг для отслеживания очереди. На этом этапе данные конвертируют из формата в формат, обрабатывают поток, собирают и систематизируют данные, например, от IoT-устройств.
Hot Path. «Горячий путь» данных в аналитику создан в качестве приоритетного варианта для отслеживания информации или предобработанных показателей в консистентном виде в реальном времени или близком к нему.
Архив. Основной хаб для хранения потока данных для последующего ретроспективного анализа, а также в рамках выполнения технических, бизнес- и законодательных требований хранения корпоративных и персональных данных.
Сейчас привычный стек инструментов для аналитики недоступен, и компании начали задумываться о новых подходах к созданию систем аналитики — задача оказалась нетривиальной, и вот почему.
Отсутствие экосистемности. В текущих реалиях российского рынка не так много вендоров, предлагающих комплексные решения для проектов аналитики данных. Большинство предложений покрывают один или несколько этапов работы с данными.
Необходимость выстраивания архитектуры. Актуальной задачей стало исследование функциональных возможностей доступных продуктов, их готовности к интеграции и пересмотр подходов к работе с данными.
Поэтому компании параллельно поиску новых инструментов для аналитики данных ищут новые подходы к построению архитектуры дата-решений.
Новые вызовы для систем аналитики данных
В текущих условиях часть компаний использует Open Source-инструменты или комбинацию Open Source и проприетарного ПО. Вариант хорош тем, что функциональность Open Source-решений для аналитики многим известна, они не зависят от вендора, а их возможности по кастомизации и алгоритмы интеграции понятны. Вместе с тем для работы с такими инструментами нужны специалисты с экспертизой по построению, внедрению и администрированию систем.
Облачные провайдеры также стали предлагать современные инструменты аналитики: они предоставляют пользователям готовую платформу в виде проинтегрированных между собой сервисов для работы с данными — от их загрузки и обработки до управления качеством и аналитики.
Например, в VK Cloud можно строить решения для аналитики в облаке как на базе проприетарного ПО, так и на основе Open Source-решений (или их комбинации).
Рассмотрим пример архитектуры c применением продуктов вендора и Open Source-компонентов:
Data Lake на основе Arenadata Hadoop с возможностью хранения до нескольких петабайтов неструктурированных данных. Hive и Spark для работы с ними;
Enterprise Data Warehouses на базе Arenadata DB (Greenplum) и S3;
предобработка и построение витрин данных с помощью ClickHouse;
сбор, обработка и визуализация данных с применением Apache Superset;
для работы с ML-моделями можно использовать Cloud ML Platform с преднастроенными и интегрированными Jupyter и MLflow в составе платформы.
Нюансы построения системы аналитики в облаке
Наряду с преимуществами работа с данными в облаке имеет ряд нюансов, которые нужно учитывать.
Скорость доступа к данным. Для On-premise-решений обмен данными по локальной сети происходит быстро, в облачном же сценарии слои хранения и обработки данных могут быть разделены, а значит, данные будут ходить по сети. Это ограничение можно снять, если правильно сформировать архитектуру решения для аналитики в облаке с учетом конечной задачи.
Разделение зон ответственности. Переход в облако подразумевает частичную передачу ответственности за обеспечение работоспособности ИТ-систем, в том числе инструментов аналитики данных, облачному провайдеру. При этом важно помнить, что обеспечение отказоустойчивости систем аналитики остается в зоне влияния бизнеса. Для того чтобы решение работало стабильно, без отказа и без потери данных, нужно делать резервные копии нужной глубины, реплицировать данные, мониторить состояние сервисов и подключить систему алертинга. Сервисы облачного провайдера помогут настроить эти процессы в пару кликов, но забывать о них нельзя.
Масштабирование ресурсов. В облаке удобно масштабировать ресурсы — например, можно настроить автомасштабирование. При этом компания оплачивает их по модели Pay-as-you-go. Важно внимательно относиться к предоставлению сотрудникам доступов для управления квотами и ресурсами проекта. В проекте также нужно учесть расходы на миграцию, лицензии и дублирование данных.
Гибкость реализации. Если инструмента цифровой аналитики нет в облаке в виде Managed-сервиса, можно развернуть нужное решение в облачной инфраструктуре (IaaS). Если нет специалистов с опытом, то можно воспользоваться услугами интегратора.
Работа с корпоративными и персональными данными. Аналитика часто подразумевает работу с чувствительными данными, в том числе с персональными данными клиентов, защиту которых регулирует ФЗ-152. Работать с ними можно и в облаке, но нужно, чтобы облачный провайдер имел сертификат соответствия ФЗ-152 и аттестат на соответствие инфраструктуры требованиям закона о персональных данных. Рекомендуем посмотреть выступление Максима Строгого, ИТ-директора «Ашана», о том, как работать с данными по требованиям 152-ФЗ в публичном облаке.
Гибридные реализации. Облако позволяет применить гибридный подход к построению инфраструктуры: одновременно использовать сервисы и инструменты аналитики публичного облака с физическим железом или частным облаком. Например, можно источники данных оставить в инфраструктуре компании, а для их хранения и аналитики использовать ресурсы облака.
Тестирование прототипов. Перед запуском в продакшен важно сформировать прототип дата-решения и провести его нагрузочное тестирование. Это поможет определить реальные возможности всей платформы данных, а не только отдельных ее компонентов.
Вместо выводов
В отсутствие экосистемных решений и альтернатив некоторым инструментам аналитики данных одним из приоритетных решений является развертывание систем для аналитики данных в облаке. У такого варианта построения платформы есть много нюансов, которые обязательно стоит учитывать, но он снижает порог входа в работу с большими данными и упрощает миграцию на новый стек. Например, построить полноценную платформу данных под разные задачи аналитики можно с помощью сервисов и ресурсов VK Cloud для работы с большими данными.