Новый тип кластеров Hive Metastore в сервисе Data Proc

У нас отличная новость: в сервисе Data Proc теперь доступно создание управляемых кластеров Hive Metastore.

Что такое Hive Metastore

Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.

Hive Metastore даёт приложениям информацию о том, где брать данные и как их интерпретировать, а также позволяет обнаруживать в хранилище конкретные данные и обрабатывать их.

Как это работает

Кластеры Hive Metastore сохраняют метаданные таблиц между запусками короткоживущих вычислительных кластеров Yandex Data Proc. Как и для других кластеров, для них можно настроить автоматическое масштабирование и создание резервных копий.

Инструменты Apache Hive и Apache Spark, входящие в сервис управляемых баз данных Data Proc, поддерживают непосредственную работу с Hive Metastore. Это позволяет создавать полноценные хранилища, решать задачи подготовки и очистки данных, создавать предметно-ориентированные витрины данных.

Как использовать кластеры Hive Metastore в различных системах

Архитектура аналитической системы, в которую встроены кластеры Hive Metastore, выглядит так:

  • Для первичного хранения и предобработки данных используется Object Storage, а метаданные таблиц находятся в Hive Metastore.
  • Процессы доставки и подготовки данных размещают исходную информацию в виде дополнительных файлов. Данные из этих файлов доступны потребителям в таблицах Hive или Spark.

Дата-сайентисты часто применяют Apache Spark при обучении ML-моделей, когда возможностей единственного сервера или виртуальной машины оказывается недостаточно и нужна горизонтально-масштабируемая инфраструктура.

Подготовка данных для задач машинного обучения осуществляется путём построения необходимых витрин, сохраняемых в Object Storage, ClickHouse или Greenplum.

Для чего это нужно

Надёжное функционирование Hive Metastore необходимо для бесперебойной работы современных инструментов подготовки и аналитической обработки данных.

Управляемые кластеры Hive Metastore сервиса Yandex Data Proc позволяют существенно экономить время администраторов и инженеров данных, а также сократить вероятность отказов и потерь из-за недоступности метаданных.

Источник: https://cloud.yandex.ru/blog/posts/2023/06/hive-metastore-preview

Перезвоним и ответим на ваши вопросы

Имя *
Код *
Телефон *
Компания *
Сообщение

На связи любым способом

Заявка на аудит

Имя *
Компания *
tel *
email *

Скачать пример аудита

Имя *
Компания *
tel *
email *
Опишите задачу
Имя
Компания
Телефон
Email