Как повторить привычные паттерны работы с данными в 2023 году

Долгое время российские компании строили системы аналитики преимущественно с применением глобальных продуктов. Это определяло архитектуру дата-решений и подходы команд к работе с данными. 

 
2022 год поставил задачу поиска нового стека инструментов для систем аналитики и новых подходов к их архитектуре. В этой статье поговорим о том, с помощью каких инструментов аналитики можно воспроизвести привычные архитектурные паттерны систем, и рассмотрим, как работать с аналитикой в облаке.   

Статья написана на основе вебинара c Ольгой Свитневой (менеджером продукта Data Platform в VK Cloud), Алексеем Бестужевым (архитектором VK Cloud) и Александром Белоцерковским (евангелистом VK Cloud).

Отправная точка

Индустриальный стандарт инфраструктуры работы с данными, привычный для большинства специалистов отрасли, состоит из следующих элементов:

  1. Источники данных. Ими могут быть устройства, промышленные и корпоративные системы. 
  2. Передача данных. Обязательные элементы для построения распределенной архитектуры. Обычно представлены как Gateway, так и Queue.
  3. Препроцессинг для отслеживания очереди. На этом этапе данные конвертируют из формата в формат, обрабатывают поток, собирают и систематизируют данные, например, от IoT-устройств. 
  4. Hot Path. «Горячий путь» данных в аналитику создан в качестве приоритетного варианта для отслеживания информации или предобработанных показателей в консистентном виде в реальном времени или близком к нему.
  5. Архив. Основной хаб для хранения потока данных для последующего ретроспективного анализа, а также в рамках выполнения технических, бизнес- и законодательных требований хранения корпоративных и персональных данных.

Сейчас привычный стек инструментов для аналитики недоступен, и компании начали задумываться о новых подходах к созданию систем аналитики — задача оказалась нетривиальной, и вот почему. 

  • Отсутствие экосистемности. В текущих реалиях российского рынка не так много вендоров, предлагающих комплексные решения для проектов аналитики данных. Большинство предложений покрывают один или несколько этапов работы с данными. 
  • Необходимость выстраивания архитектуры. Актуальной задачей стало исследование функциональных возможностей доступных продуктов, их готовности к интеграции и пересмотр подходов к работе с данными. 

Поэтому компании параллельно поиску новых инструментов для аналитики данных ищут новые подходы к построению архитектуры дата-решений.  

Новые вызовы для систем аналитики данных

В текущих условиях часть компаний использует Open Source-инструменты или комбинацию Open Source и проприетарного ПО. Вариант хорош тем, что функциональность Open Source-решений для аналитики многим известна, они не зависят от вендора, а их возможности по кастомизации и алгоритмы интеграции понятны. Вместе с тем для работы с такими инструментами нужны специалисты с экспертизой по построению, внедрению и администрированию систем.

Облачные провайдеры также стали предлагать современные инструменты аналитики: они предоставляют пользователям готовую платформу в виде проинтегрированных между собой сервисов для работы с данными — от их загрузки и обработки до управления качеством и аналитики.

Например, в VK Cloud можно строить решения для аналитики в облаке как на базе проприетарного ПО, так и на основе Open Source-решений (или их комбинации).

Рассмотрим пример архитектуры c применением продуктов вендора и Open Source-компонентов:

  • Data Lake на основе Arenadata Hadoop с возможностью хранения до нескольких петабайтов неструктурированных данных. Hive и Spark для работы с ними;
  • Enterprise Data Warehouses на базе Arenadata DB (Greenplum) и S3;
  • предобработка и построение витрин данных с помощью ClickHouse;
  • сбор, обработка и визуализация данных с применением Apache Superset;
  • для работы с ML-моделями можно использовать Cloud ML Platform с преднастроенными и интегрированными Jupyter и MLflow в составе платформы.

Нюансы построения системы аналитики в облаке

Наряду с преимуществами работа с данными в облаке имеет ряд нюансов, которые нужно учитывать.

  • Скорость доступа к данным. Для On-premise-решений обмен данными по локальной сети происходит быстро, в облачном же сценарии слои хранения и обработки данных могут быть разделены, а значит, данные будут ходить по сети. Это ограничение можно снять, если правильно сформировать архитектуру решения для аналитики в облаке с учетом конечной задачи.
  • Разделение зон ответственности. Переход в облако подразумевает частичную передачу ответственности за обеспечение работоспособности ИТ-систем, в том числе инструментов аналитики данных, облачному провайдеру. При этом важно помнить, что обеспечение отказоустойчивости систем аналитики остается в зоне влияния бизнеса. Для того чтобы решение работало стабильно, без отказа и без потери данных, нужно делать резервные копии нужной глубины, реплицировать данные, мониторить состояние сервисов и подключить систему алертинга. Сервисы облачного провайдера помогут настроить эти процессы в пару кликов, но забывать о них нельзя.
  • Масштабирование ресурсов. В облаке удобно масштабировать ресурсы — например, можно настроить автомасштабирование. При этом компания оплачивает их по модели Pay-as-you-go. Важно внимательно относиться к предоставлению сотрудникам доступов для управления квотами и ресурсами проекта. В проекте также нужно учесть расходы на миграцию, лицензии и дублирование данных.
  • Гибкость реализации. Если инструмента цифровой аналитики нет в облаке в виде Managed-сервиса, можно развернуть нужное решение в облачной инфраструктуре (IaaS). Если нет специалистов с опытом, то можно воспользоваться услугами интегратора. 
  • Работа с корпоративными и персональными данными. Аналитика часто подразумевает работу с чувствительными данными, в том числе с персональными данными клиентов, защиту которых регулирует ФЗ-152. Работать с ними можно и в облаке, но нужно, чтобы облачный провайдер имел сертификат соответствия ФЗ-152 и аттестат на соответствие инфраструктуры требованиям закона о персональных данных. Рекомендуем посмотреть выступление Максима Строгого, ИТ-директора «Ашана», о том, как работать с данными по требованиям 152-ФЗ в публичном облаке. 
  • Гибридные реализации. Облако позволяет применить гибридный подход к построению инфраструктуры: одновременно использовать сервисы и инструменты аналитики публичного облака с физическим железом или частным облаком. Например, можно источники данных оставить в инфраструктуре компании, а для их хранения и аналитики использовать ресурсы облака. 
  • Тестирование прототипов. Перед запуском в продакшен важно сформировать прототип дата-решения и провести его нагрузочное тестирование. Это поможет определить реальные возможности всей платформы данных, а не только отдельных ее компонентов. 

Вместо выводов

В отсутствие экосистемных решений и альтернатив некоторым инструментам аналитики данных одним из приоритетных решений является развертывание систем для аналитики данных в облаке. У такого варианта построения платформы есть много нюансов, которые обязательно стоит учитывать, но он снижает порог входа в работу с большими данными и упрощает миграцию на новый стек. Например, построить полноценную платформу данных под разные задачи аналитики можно с помощью сервисов и ресурсов VK Cloud для работы с большими данными.

Источник: https://mcs.mail.ru/blog/kak-povtorit-privychnye-patterny

Перезвоним и ответим на ваши вопросы

Имя *
Код *
Телефон *
Компания *
Сообщение

На связи любым способом

Имя *
Компания *
tel *
email *
Опишите задачу
Имя
Компания
Телефон
Email