У нас отличная новость: в сервисе Data Proc теперь доступно создание управляемых кластеров Hive Metastore.
Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.
Hive Metastore даёт приложениям информацию о том, где брать данные и как их интерпретировать, а также позволяет обнаруживать в хранилище конкретные данные и обрабатывать их.
Кластеры Hive Metastore сохраняют метаданные таблиц между запусками короткоживущих вычислительных кластеров Yandex Data Proc. Как и для других кластеров, для них можно настроить автоматическое масштабирование и создание резервных копий.
Инструменты Apache Hive и Apache Spark, входящие в сервис управляемых баз данных Data Proc, поддерживают непосредственную работу с Hive Metastore. Это позволяет создавать полноценные хранилища, решать задачи подготовки и очистки данных, создавать предметно-ориентированные витрины данных.
Архитектура аналитической системы, в которую встроены кластеры Hive Metastore, выглядит так:
Дата-сайентисты часто применяют Apache Spark при обучении ML-моделей, когда возможностей единственного сервера или виртуальной машины оказывается недостаточно и нужна горизонтально-масштабируемая инфраструктура.
Подготовка данных для задач машинного обучения осуществляется путём построения необходимых витрин, сохраняемых в Object Storage, ClickHouse или Greenplum.
Надёжное функционирование Hive Metastore необходимо для бесперебойной работы современных инструментов подготовки и аналитической обработки данных.
Управляемые кластеры Hive Metastore сервиса Yandex Data Proc позволяют существенно экономить время администраторов и инженеров данных, а также сократить вероятность отказов и потерь из-за недоступности метаданных.
Источник: https://cloud.yandex.ru/blog/posts/2023/06/hive-metastore-preview