Сервис для распределенной обработки данных любого объема
Решайте задачи обработки больших массивов данных в несколько кликов с помощью удобного сервиса на основе инструментов с открытым исходным кодом
Cloud Spark – это гибко масштабируемый сервис на основе Kubernetes и Apache Spark. В несколько кликов вы можете подключить кластеры Spark в Kubernetes для распределенной пакетной и потоковой обработки данных, работы с ML и аналитикой.
Сервис обеспечивает быстрое выполнение аналитических запросов к данным любого объема благодаря кэшированию в памяти и оптимизированному исполнению запросов.
- Администрирование Cloud Spark на стороне VK Cloud. Вы получаете доступ к готовым кластерам на базе Kubernetes.
- Автоматическое масштабирование Kubernetes позволяет экономить до 60% стоимости вычислительных ресурсов.
- Оплата сервиса Cloud Spark по модели Pay as you go – только за потребляемые ресурсы.
- Инфраструктура VK Cloud аттестована по 152-ФЗ (УЗ-1). ЦОД расположены в РФ.
Сценарии использования Cloud Spark
- Распределенная потоковая и пакетная обработка данных из разных источников. За счет встроенных коннекторов Cloud Spark работает на чтение и запись с большими объемами данных из разных источников. Например, Clickhouse, Kafka и MongoDB.
- SQL‑аналитика. Сервис позволяет выполнять аналитические запросы ANSI SQL в режиме, близком к реальному времени.
- Машинное обучение. Поддержка масштабируемой библиотеки машинного обучения MLlib, которая включает популярные алгоритмы, средства подготовки данных к моделированию, а также алгебраические и статистические функции.
- Задачи Data Science. Выполнение разведочного анализа данных (EDA) на данных петабайтного масштаба без сокращения объема анализируемых данных.
Сервис реализован на базе Managed Kubernetes от VK Cloud и Apache Spark
Apache Spark – фреймворк с открытым исходным кодом для распределенной обработки неструктурированных и слабоструктурированных данных. Проект активно разрабатывается сообществом и Apache.
Cloud Containers – сервис VK Cloud для запуска готовых кластеров Kubernetes в облаке. Сервис соответствует стандартам Cloud Native Computing Foundation (CNCF) по Certified Kubernetes Conformance Program.
Cloud Spark упрощает и ускоряет обработку данных по сравнению с традиционной инсталляцией Spark, развернутой в Hadoop
Spark в Hadoop
Spark в Hadoop. Сложный и длительный процесс с участием дата-инженеров
Стоимость. Высокая стоимость инсталляции, развертывание — большой и трудоемкий процесс
Изолируемость. Вручную
Сloud Spark
Масштабирование. По клику, встроенные инструменты автоматического масштабирования
Стоимость. Снижение затрат за счет возможности уйти в “сон” и автоматического масштабирования в обе стороны.
Изолируемость. Доступна по клику за счет контейнеризации и Kubernetes
Cloud Spark оптимально подходит для работы с ML за счет встроенной масштабируемой библиотеки машинного обучения MLlib
Простое использование
Библиотека адаптирована для Java, Scala, Python и R. MLlib вписывается в API-интерфейсы Spark и взаимодействует с NumPy в Python и библиотеками R.
Производительность
Алгоритмы MLlib до 100 раз быстрее, чем MapReduce. Cloud Spark on Kubernetes хорошо справляется с итеративными вычислениями, позволяя MLlib работать значительно быстрее.
Большой выбор алгоритмов и утилит
Для решения таких задач как классификация, регрессия, кластеризация.
Преимущества Cloud Spark
Преднастроенный и готовый к использованию сервис. Пользователи получают возможность быстро развернуть кластер Spark внутри Kubernetes.
Docker Registry из коробки. При этом Docker Registry содержит предсобранный образ для решения типовых задач при работе со Spark.
Автомасштабирование кластера. Можно задать время, которое кластер будет “жить” при отсутствии рабочих нагрузок. Если нагрузка не появится, для экономии ресурсов кластер перейдет в спящий режим или удалится.
Администрирование, обновление версий – на стороне провайдера.
Доступен Spark History Server, интегрированный с S3 и системой авторизации облака.
Клиентская Python библиотека для работы со Spark из любого окружения, в том числе JupyterHub, одного из компонентов Cloud ML Platform.
Интеграция Spark History Server с S3 для хранения и работы с логами сервиса.
Интеграция с S3 для загрузки внешних зависимостей и дополнительных файлов, необходимых для работы Spark-приложений.
Встроенный сервис идентификации и разграничения прав доступа к Cloud Spark на основе токенов.
Источник: https://cloud.vk.com/spark