Cloud Spark

Сервис для распределенной обработки данных любого объема

Решайте задачи обработки больших массивов данных в несколько кликов с помощью удобного сервиса на основе инструментов с открытым исходным кодом

operation_outline_28.svg

Cloud Spark – это гибко масштабируемый сервис на основе Kubernetes и Apache Spark. В несколько кликов вы можете подключить кластеры Spark в Kubernetes для распределенной пакетной и потоковой обработки данных, работы с ML и аналитикой.

square_4_outline_28.svg

Сервис обеспечивает быстрое выполнение аналитических запросов к данным любого объема благодаря кэшированию в памяти и оптимизированному исполнению запросов.

  • Администрирование Cloud Spark на стороне VK Cloud. Вы получаете доступ к готовым кластерам на базе Kubernetes. 
  • Автоматическое масштабирование Kubernetes позволяет экономить до 60% стоимости вычислительных ресурсов. 
  • Оплата сервиса Cloud Spark по модели Pay as you go – только за потребляемые ресурсы.
  • Инфраструктура VK Cloud аттестована по 152-ФЗ (УЗ-1).  ЦОД расположены в РФ.

Сценарии использования Cloud Spark

  • include_outline_28.svgРаспределенная потоковая и пакетная обработка данных из разных источников. За счет встроенных коннекторов Cloud Spark работает на чтение и запись с большими объемами данных из разных источников. Например, Clickhouse, Kafka и MongoDB.
  • search_outline_28.svgSQL‑аналитика. Сервис позволяет выполнять аналитические запросы ANSI SQL в режиме, близком к реальному времени.
  • share_external_outline_28 Android.svgМашинное обучение. Поддержка масштабируемой библиотеки машинного обучения MLlib, которая включает популярные алгоритмы, средства подготовки данных к моделированию, а также алгебраические и статистические функции.
  • magnifier_plus_28.svgЗадачи Data Science. Выполнение разведочного анализа данных (EDA) на данных петабайтного масштаба без сокращения объема анализируемых данных.

Сервис реализован на базе Managed Kubernetes от VK Cloud и Apache Spark

spark_logo.svg

Apache Spark – фреймворк с открытым исходным кодом для распределенной обработки неструктурированных и слабоструктурированных данных. Проект активно разрабатывается сообществом и Apache.

kubernetes_logo.svg

Cloud Containers – сервис VK Cloud для запуска готовых кластеров Kubernetes в облаке. Сервис соответствует стандартам Cloud Native Computing Foundation (CNCF) по Certified Kubernetes Conformance Program.

Cloud Spark упрощает и ускоряет обработку данных по сравнению с традиционной инсталляцией Spark, развернутой в Hadoop

Spark в Hadoop

Spark в Hadoop. Сложный и длительный процесс с участием дата-инженеров

Стоимость. Высокая стоимость инсталляции, развертывание — большой и трудоемкий процесс

Изолируемость. Вручную

Сloud Spark

Масштабирование. По клику, встроенные инструменты автоматического масштабирования

Стоимость. Снижение затрат за счет возможности уйти в “сон” и автоматического масштабирования в обе стороны.

Изолируемость. Доступна по клику за счет контейнеризации и Kubernetes

Cloud Spark оптимально подходит для работы с ML за счет встроенной масштабируемой библиотеки машинного обучения MLlib

spark_ml_img_1.png

Простое использование

Библиотека адаптирована для Java, Scala, Python и R. MLlib вписывается в API-интерфейсы Spark и взаимодействует с NumPy в Python и библиотеками R.

spark_ml_img_2.png

Производительность

Алгоритмы MLlib до 100 раз быстрее, чем MapReduce. Cloud Spark on Kubernetes хорошо справляется с итеративными вычислениями, позволяя MLlib работать значительно быстрее.

spark_ml_img_3.png

Большой выбор алгоритмов и утилит

Для решения таких задач как классификация, регрессия, кластеризация.

Преимущества Cloud Spark

spark_adv_img_1.png

Преднастроенный и готовый к использованию сервис. Пользователи получают возможность быстро развернуть кластер Spark внутри Kubernetes.

Docker Registry из коробки. При этом Docker Registry содержит предсобранный образ для решения типовых задач при работе со Spark.

Автомасштабирование кластера. Можно задать время, которое кластер будет “жить” при отсутствии рабочих нагрузок. Если нагрузка не появится, для экономии ресурсов кластер перейдет в спящий режим или удалится.

spark_adv_img_2.png

Администрирование, обновление версий – на стороне провайдера.

Доступен Spark History Server, интегрированный с S3 и системой авторизации облака.

Клиентская Python библиотека для работы со Spark из любого окружения, в том числе JupyterHub, одного из компонентов Cloud ML Platform.

Интеграция Spark History Server с S3 для хранения и работы с логами сервиса.

Интеграция с S3 для загрузки внешних зависимостей и дополнительных файлов, необходимых для работы Spark-приложений.

spark_adv_img_3.png

Встроенный сервис идентификации и разграничения прав доступа к Cloud Spark на основе токенов.

Источник: https://cloud.vk.com/spark

Перезвоним и ответим на ваши вопросы

Имя *
Код *
Телефон *
Компания *
Сообщение

На связи любым способом

Имя *
Компания *
tel *
email *
Опишите задачу
Имя
Компания
Телефон
Email