Управление затратами в блоках данных с помощью конфигураций кластера

Как выбрать правильную конфигурацию кластера для запуска приложений Databricks без лишних затрат

Databricks становится популярной платформой для анализа больших данных в общедоступных облаках. Как и в случае с большинством аналитических платформ, управлять их стоимостью сложно и требует более глубоких знаний о его функциях. Управление затратами в Databricks в значительной степени зависит от рентабельности кластеров. Для простоты мы ориентируемся на платформу Databricks в Azure, но ее легко перевести на другие облачные платформы. Чтобы получить представление об управлении кластером в Azure Databricks, вы можете просмотреть официальную документацию: кластеры, настроить кластеры и управлять политиками кластера.

Цены на Azure Databricks

Прежде чем узнавать больше о кластерах, важно узнать больше о ценах на Azure Databricks. Databricks имеет два ценовых уровня: стандартный и премиальный. Сервис премиум-уровня предоставляет расширенные функции безопасности, которые необходимы для управления контролируемым доступом к его функциям. Этот уровень стоит дороже, чем стандартный уровень, но его ставка зависит от типа кластера. Посмотрите на рисунок 1, чтобы получить представление о ценах на различные типы кластеров. Ожидайте немного других цен для других облачных операторов.

Azure Databricks взимает плату за виртуальные машины (ВМ), подготовленные в кластерах и модулях Databricks (DBU), в зависимости от выбранного экземпляра виртуальной машины. DBU - это единица вычислительной мощности в час, которая используется для посекундной оплаты. DBU зависит от размера и типа экземпляра в Azure Databricks. Экземпляры - это типы узлов в зависимости от их вычислительных ресурсов, например ЦП и ОЗУ.

Помимо платы за виртуальную машину и DBU, вы будете платить за следующее:

Затраты на хранение BLOB-объектов для размещения файловой системы Databricks (DBFS), в которой хранятся все файлы
Затраты на виртуальные машины Azure для экземпляров, используемых в кластерах для выполнения рабочих нагрузок.
Затраты на управляемые диски Azure для дисков, подключенных к каждому рабочему узлу, включая корневой диск экземпляра объемом 30 ГБ, подключенный к каждой виртуальной машине, и диск данных объемом 150 ГБ, подключенный к контейнеру среды выполнения Databricks на каждой виртуальной машине.
Стоимость общедоступного IP-адреса, поскольку каждая виртуальная машина кластера имеет динамический общедоступный IP-адрес, если заказчик не использует функцию «Нет общедоступного IP-адреса».

Есть несколько других затрат, связанных с пропускной способностью сети и дополнительным хранилищем, в зависимости от типа приложений, поддерживаемых в Databricks.

Конфигурации кластера, влияющие на цену

Кластеры являются основной движущей силой затрат на работу платформы Databricks. На рисунке 2 показаны параметры конфигурации (отмечены красными прямоугольниками), которые сильно влияют на стоимость работы кластера.

Кластеры в Azure Databricks можно создавать двумя способами: с помощью пользовательского интерфейса кластеров / интерфейса командной строки / API и интерфейса пользовательского интерфейса / интерфейса командной строки / API заданий. Если вы создаете кластер с использованием Clusters UI / CLI / API, он называется универсальным кластером (на рисунке 2 показано создание универсального кластера с использованием Cluster UI). Этот тип кластера является постоянным, может быть перезапущен вручную и может использоваться несколькими пользователями.

Когда вы создаете задание с помощью Jobs UI / CLI / API, у вас есть возможность создать новый кластер заданий (на экране 3 показано создание кластера заданий с помощью Job UI). Обратите внимание, что вы также можете использовать существующий кластер (см. Рисунок 4). Этот тип кластера сохраняется, пока задания активно выполняются, и позволяет запускать (запланированные) автоматические задания с изоляцией. Стоимость вычислений для запуска кластера заданий значительно меньше. Затраты на вычисления для запуска кластера заданий с малым временем выполнения дешевле.

Мы кратко опишем важные параметры следующим образом.

Кластерный режим

Существует три режима кластера: одиночный узел, стандартный, высокий уровень параллелизма (см. Рисунок 5). Кластер с одним узлом имеет только узел драйвера, на котором выполняются все команды. Кластеру стандартного режима требуется по крайней мере один рабочий узел Spark в дополнение к узлу драйвера. Кластер с высоким уровнем параллелизма - это многоузловой кластер, который обеспечивает детализированное совместное использование для максимального использования ресурсов.

Версия во время выполнения

Среда выполнения - это набор основных компонентов, которые работают в ваших кластерах. Среды выполнения, которые актуальны для типичных продуктовых групп, - это среда выполнения Databricks, среда выполнения Databricks для машинного обучения и Databricks Light (на рисунке 6 показаны различные варианты среды выполнения для кластера).

Все среды выполнения Databricks включают Apache Spark. Вы можете просмотреть Возможности выпуска Databricks Runtime, чтобы выбрать подходящее время выполнения. В дополнение к Apache Spark среда выполнения Databricks предоставляет компоненты, улучшающие удобство использования, производительность и безопасность. Среда выполнения для машинного обучения расширяет обычную среду выполнения за счет включения оптимизированных библиотек машинного обучения. Облегченная среда выполнения не включает дополнительных функций и может использоваться только с заданиями.

Автомасштабирование

Автомасштабирование позволяет добавлять и удалять рабочие узлы по мере изменения рабочей нагрузки. Когда он включен, Databricks автоматически выбирает соответствующее количество рабочих, необходимых для запуска задания Spark по мере выполнения задания. Автоматическое масштабирование позволяет выполнять рабочие нагрузки быстрее по сравнению со статическим кластером с недостаточной подготовкой и снижает затраты по сравнению со статическим кластером с избыточной подготовкой. При использовании автомасштабирования необходимо указать минимальное и максимальное количество узлов в кластере. Значения по умолчанию - 2 и 8 соответственно (см. Рисунок 7). Когда задание запускается, оно начинается с минимального количества рабочих узлов, но по мере выполнения задания и увеличения числа задач количество рабочих узлов может увеличиваться до максимального значения.

Время завершения параметра применимо для универсальных стандартных или одноузловых кластеров. Когда вы создаете кластер с помощью Cluster UI / CLI / Rest API, вы указываете период бездействия в минутах, после которого вы хотите, чтобы кластер завершил работу (или выключился). Databricks автоматически завершает работу кластера, если время, прошедшее с момента последней команды, выполненной в кластере, превышает период бездействия. Команды, которые поддерживают кластер активным, - это задания Spark, структурированная потоковая передача, вызовы JDBC и т. Д. Команды Bash не учитываются. Значение по умолчанию составляет 120 минут и может быть изменено, когда кластер не работает (см. Рисунок 7).

Тип экземпляра

Databricks предоставляет набор типов экземпляров для узлов на основе выделенных им вычислительных ресурсов, ЦП, ОЗУ, хранилища и т. Д. (На рисунке 7 показан конкретный тип экземпляра). Распространенные типы экземпляров:

Универсальные, со сбалансированным соотношением ресурсов ЦП и памяти по сравнению с другими типами экземпляров.
Оптимизированный для вычислений, обеспечивающий больше ЦП по сравнению с другими типами инстансов
GPU-ускорение, обеспечивающее графические процессоры
Оптимизирован для памяти, что обеспечивает больший объем оперативной памяти по сравнению с другими типами экземпляров.
Оптимизация хранилища, обеспечивающая ускорение дельта-кеша

Подходы к снижению затрат

Мы перечисляем некоторые важные подходы к снижению затрат, связанных с кластерами.

Уровень рабочей области

Избегайте использования премиум-уровня Databricks, если вам действительно не нужен более жесткий контроль над службой. Вы можете проверить это руководство, чтобы узнать, как изменить уровень. Как правило, уровня Premium можно избежать в группе, где все пользователи сервиса происходят из одной команды и имеют одинаковый уровень доступа.

Тип кластера

Универсальные кластеры оптимальны для анализа и разовой работы. Если вы занимаетесь исследовательской работой и велика вероятность того, что работа может быть отброшена после того, как работа будет выполнена, вам следует выбрать универсальный кластер.
Кластеры заданий оптимальны для производственных и повторяющихся рабочих нагрузок. Когда вы используете стабильную записную книжку, которую не нужно запускать в интерактивном режиме или в производственном / тестовом конвейере, вам следует использовать задания с новыми кластерами заданий. Обычно выполнение рабочих нагрузок с использованием кластеров заданий обходится примерно в 3 раза дешевле, чем универсальные кластеры (см. Рисунок 1). Может возникнуть соблазн использовать малое время выполнения для снижения затрат, но избегайте этого, если вы не уверены в ресурсных требованиях рабочей нагрузки.
Если при выполнении задания ваша рабочая нагрузка не требует дополнительных функций, таких как автоматическое масштабирование, вы должны выбрать для времени выполнения задание Light Light, поскольку оно стоит в 6 раз меньше по сравнению с универсальными кластерами (см. Рисунок 1). Запуск тестовых заданий - это сценарий, в котором вы можете использовать легкую среду выполнения.