Сервис для потоковой обработки данных
Создавайте масштабируемые решения для сбора, обработки и аналитики потоковых данных за считаные минуты
- Cloud Streams — масштабируемый сервис для потоковой обработки данных в режиме близком к реальному времени. Сервис можно развернуть в облаке в пару кликов и спроектировать приложение с помощью графического интерфейса. Потоки данных можно хранить столько, сколько нужно.
- В сервисе удобно разграничивать права доступа к записям, опубликованным в брокере. В VK Cloud можно удобно и быстро масштабировать ресурсы для обработки разных потоков данных, а также создавать отказоустойчивые кластеры в ЦОДах, расположенных в РФ и и аттестованных по требованиям 152-ФЗ, УЗ-1.
В основе сервиса для потоковой обработки данных — популярные Open-Source-инструменты
Cloud Streams построен в облаке на базе решения Arenadata Streaming. В его основе инструменты с открытым исходным кодом: Apache Kafka и Apache NiFi. Для работы с большими массивами данных пользователи VK Cloud могут подключить в личном кабинете один из сервисов Apache Kafka as a Service, Apache NiFi as a Service либо оба инструмента одновременно.
Apache Kafka as a Service
Брокер сообщений между серверными приложениями, который реализует систему публикации сообщений и подписки на них. Может применяться как основа для распределенной платформы потоковой обработки данных.
Apache NiFi as a Service
ETL-инструмент для управления потоками данных из разнообразных источников. Конвейер данных можно строить на лету, доставка сообщений гарантирована, есть динамическая приоритизация и отслеживание полного цикла жизни сообщений.
Сценарии использования Cloud Streams
- Построение корпоративного хранилища Enterprise-уровня в облаке. На базе сервисов для работы с данными в VK Cloud можно построить корпоративное хранилище данных с функциональностью ETL, оркестрацией, Сontrol plane и Data plane.
- Передача данных из источника в хранилище или целевую систему. Коннекторы позволяют собирать неструктурированные данные из разных источников, обрабатывать их на лету и передавать в базу данных и другие системы для дальнейшей обработки.
- Потоковая обработка данных. Благодаря высокой пропускной способности вы можете построить аналитические конвейеры, которые обрабатывают поступающие сырые данные, извлекают из них инсайты и складывают их в очередь инцидентов.
- Взаимодействие и оркестрация между микросервисами. Брокер сообщений Apache Kafka as a service связывает между собой компоненты высоконагруженного микросервисного приложения.
Преимущества Cloud Streams на базе Arenadata Streaming
Быстрый старт
Сервис можно развернуть в облаке парой кликов. Настроить работу системы — с помощью редактора визуального проектирования.
Универсальность
Подходит для решения практически любых задач, связанных с потоковой обработкой данных. Можно подключить Kafka и Nifi в качестве Managed-сервисов в облаке.
Масштабируемость
Добавить в облачный кластер новые ноды сервиса или убрать ненужные можно всего парой кликов. Перезапускать системы при этом не нужно.
Интеграция c Cloud Big Data
Возможность подключить API для интеграции с внешними системами, коннекторы к Elasticsearch, Couchbase, Cassandra, CouchDB и всеми DBaaS.
Отказоустойчивость
Если вы объединяете потребителей в группы, то скорость считывания растет линейно, появляется отказоустойчивость на уровне приложения.
Настраиваемый срок хранения данных
Вы сами выбираете нужный период хранения данных в зависимости от задачи. Это могут быть как минуты, так и месяцы.
Поддержка любых типов данных
Сервис одинаково эффективно работает как со структурированными, так и с неструктурированными данными — сотни тысяч сообщений в минуту.
Сохранность данных
Отправитель публикует сообщения, а получатель на них подписывается. Так можно считывать сообщения сколько угодно раз, а благодаря персистентности сообщения можно восстанавливать.
Безопасность
Доступ к потокам данных может быть организован с разграничением прав доступа. Это позволяет изолировать критически важную информацию от несанкционированного чтения и копирования.
Возможности Apache Kafka as a Service для высоконагруженных систем
Высокая пропускная способность
Apache Kafka as a Service может обрабатывать тысячи сообщений.
Режим реального времени
При обработке сообщений задержка составляет не более нескольких миллисекунд.
Отказоустойчивость
При сбое одного брокера система выбирает замену из реплик, хранящихся в других брокерах.
Распределенность
Apache Kafka является распределенной системой за счет репликации и партиционирования.
Долговечность
Сообщения постоянно хранятся на диске и реплицируются, поэтому они не теряются.
Простая масштабируемость
Новые ноды в кластере Apache Kafka добавляются на лету, перезагрузка системы не требуется. Автоматическая балансировка рабочих топиков.
Источник: https://cloud.vk.com/cloud-streams/