Как эффективно построить потоковый конвейер данных на базе Evolution Data Platform

Когда отчеты собираются часами, а решения принимаются по вчерашним данным, бизнес теряет скорость реагирования — а значит, и деньги. Все потому, что традиционные ETL-процессы с ежедневными запусками уже не успевают за реальным темпом рынка.

Приглашаем на практический вебинар «Как эффективно построить потоковый конвейер данных на базе Evolution Data Platform», где покажем, как создать отказоустойчивый конвейер с латентностью в минуты вместо часов — без сложной работы с инфраструктурой и лишних затрат.

Вы узнаете:

  • в чем особенность проектирования архитектуры конвейера, обрабатывающего данные в режиме, близком к реальному времени: когда использовать микробатчинг в Managed Spark Streaming, а когда — классический батч-подход;
  • зачем использовать Managed Trino для единого слоя запросов к «горячим» (в процессе обработки) и «холодным» (архивным) данным без дублирования логики;
  • как организовать хранение слоев данных в Object Storage с партиционированием по времени для ускорения запросов;
  • почему стоит использовать метаданные в реальном времени через Managed Metastore для поддержки изменяющейся структуры потоков;
  • как эффективно визуализировать данные в Managed BI и настроить автообновление дашбордов и алерты на отклонения;
  • какие способы оценки и контроля латентности конвейера существуют: от генерации события до отображения на дашборде.

Вы научитесь:

  • настраивать оконную агрегацию в Managed Spark Streaming для транзакций с пятиминутными интервалами;
  • оркестрировать микробатчи через Managed Airflow по расписанию;
  • создавать витрину в Object Storage с партиционированием по времени;
  • делать ad-hoc аналитику через Managed Trino поверх сырых и агрегированных данных без копирования;
  • строить дашборд в Managed BI с автообновлением каждые две минуты и алертами.

Присоединяйтесь, чтобы ваши данные работали на вас в реальном времени и без лишних сложностей.

Вебинар будет полезен дата-инженерам, которым нужны быстрые и надежные конвейеры, а также аналитикам и BI-специалистам, которые не хотят работать с устаревшими данными. А еще руководителям дата-отделов, архитекторам и ИТ-директорам — всем, кто хочет сократить время от события до инсайта и перейти на управляемые потоковые решения.

.

Спикеры

  • Безобразов Михаил, архитектор решений

.

Продукты, про которые расскажем

Evolution Object Storage

Evolution Object Storage

Масштабируемое хранилище S3 для всех типов данных

Evolution Managed Trino

Evolution Managed Trino

Аналитический SQL-движок Trino

Evolution Managed Metastore

Evolution Managed Metastore

Хранение метаданных с Metastore

Evolution Managed Airflow

Evolution Managed Airflow

Инструмент для оркестрации процессов

Evolution Data Platform

Evolution Data Platform

Управляемые сервисы для работы с Big Data и ML

Evolution Managed BI

Evolution Managed BI

Управляемые инстансы Business Intelligence

.

Источник: https://cloud.ru/events/kak-effektivno-postroit-potokovyi-konveier-dannykh-17271061997

Перезвоним и ответим на ваши вопросы

Имя *
Код *
Телефон *
Компания *
Сообщение

На связи любым способом

Заявка на аудит

Имя *
Компания *
tel *
email *

Скачать пример аудита

Имя *
Компания *
tel *
email *
Опишите задачу
Имя
Компания
Телефон
Email