Сегодня мы рады анонсировать Pachyderm 1.5! Установите его сейчас или перенесите существующее развертывание Pachyderm.

Для новичков в проекте Pachyderm - это система с открытым исходным кодом для распределенной конвейерной обработки данных и управления версиями данных. Pachyderm позволяет создавать конвейеры данных, состоящие из любых языков / фреймворков, редактировать ввод и вывод данных на каждом этапе этих конвейеров и отслеживать полное происхождение любых результатов.

Поскольку в этом цикле выпуска у нас появилось множество новых пользователей, приятно видеть, как Pachyderm поддерживает машинное обучение, аналитику, научные исследования, распределенный ETL и многое другое.

Некоторые из основных улучшений версии Pachyderm 1.5 включают:

  • Пользовательский интерфейс Pachyderm. Совершенно новый пользовательский интерфейс Pachyderm дает вам представление о вашем DAG, репозиториях данных, вакансиях и многом другом.
  • Спецификация ресурсов, включая поддержку графического процессора. Теперь вы можете указать ресурсы, необходимые для отдельных этапов конвейера, в том числе указать определенные этапы конвейера, которые должны выполняться на узлах графического процессора.
  • Расширенные комбинации данных. Если у вас есть несколько входных данных для вашего конвейера, теперь вы можете комбинировать эти входные данные различными интересными способами.
  • Автоматическое масштабирование - рабочие конвейеры теперь могут автоматически уменьшаться, когда они неактивны.
  • Эффективное управление данными. Перемешивание и копирование данных теперь занимает гораздо меньше места, и теперь вы можете собирать мусор для удаленных файлов, данных и коммитов.
  • Расширенная инкрементная обработка - специальная функция, называемая «инкрементальной», позволяет значительно повысить производительность для определенных рабочих нагрузок.

Пользовательский интерфейс толстокожего

С пользовательским интерфейсом Pachyderm 1.5 или «приборной панелью» вы можете:

  • Изучите свои версионные данные - интерактивно исследуйте различные «репозитории данных», которые организуют и управляют версиями данных, проходящих через ваши конвейеры.
  • Визуализируйте свой DAG - автоматически визуализируйте структуру объявленного конвейера DAG и анализируйте ее в интерактивном режиме.
  • Отслеживайте свои конвейеры - исследуйте статусы конвейеров, запуски и детали (например, образы Docker и команды, связанные с конвейерами).

Пользовательский интерфейс Pachyderm - это функция, которая помогает улучшить Pachyderm для полноценного использования на предприятии. Таким образом, пользовательский интерфейс будет частью новой Pachyderm Enterprise Edition, ориентированной на производственные сценарии использования. Для получения дополнительной информации о Pachyderm Enterprise Edition напишите нам по адресу [email protected] или поговорите с нами в нашем общедоступном Slack.

Спецификация ресурсов, включая поддержку графического процессора

Pachyderm 1.5 позволяет ускорить обучение модели и / или лучше спланировать конвейеры с интенсивными вычислениями. Например, если вы разрабатываете конвейер машинного обучения, у вас может быть этап обучения, этап оценки или вывода, этап визуализации и т. Д. С Pachyderm 1.5 вы можете дополнительно разгрузить этап обучения этого конвейера ML на узел графического процессора для большой прирост производительности.

В более общем плане вы можете указать точные ресурсы ЦП, ГП и / или памяти для любого конвейера Pachyderm 1.5. Это гарантирует, что конвейеры планируются эффективно и с достаточным количеством ресурсов, что особенно важно, поскольку ваша организация, занимающаяся наукой о данных / инжинирингом, растет и должна совместно использовать ресурсы в кластере.

Расширенные комбинации данных и управление

Pachyderm 1.5 упрощает объединение источников данных и сводит к минимуму неэффективную передачу данных.

Pachyderm 1.5 позволяет комбинировать данные из различных источников с помощью гибких и привычных примитивов cross и union. Например, если вам нужно протестировать модели машинного обучения по огромному количеству параметров, вы можете скрестить данные обучения с параметрами и распределить тестирование для всех комбинаций этих параметров. Это сокращает время, необходимое для настройки распределенной обработки различных источников данных (например, для настройки параметров), и позволяет специалистам по обработке данных сосредоточить свое время на разработке модели.

Кроме того, Pachyderm 1.5 выводит эффективное управление данными на новый уровень. Для рабочих процессов, которые требуют от вас перетасовки данных (например, размещения в сегментах с временным окном) или копирования данных из одного репозитория в другой, Pachyderm 1.5 позволяет выполнять эти перемешивания или копии без создания дублирующихся данных. Это минимизирует сетевой трафик и снижает неэффективную передачу данных. Pachyderm 1.5 также дает вам явный контроль над сборкой мусора удаленных файлов, репозиториев данных, коммитов и т. Д.

Автоматическое масштабирование

Pachyderm 1.5 снижает стоимость и конкуренцию за ресурсы кластера.

Pachyderm 1.5 добавляет полную поддержку автоматического масштабирования на рабочем уровне Pachyderm, что может дополнять автоматическое масштабирование облака. Pachyderm 1.5 позволяет вам указать порог, который позволит Pachyderm уменьшить количество простаивающих рабочих через определенный период времени.

Такое уменьшение числа активных работников может значительно снизить стоимость ресурсов при обработке пакетов данных и / или при выполнении больших распределенных пакетных заданий один раз в день, один раз в месяц и т. Д. Вы можете автоматически масштабировать рабочих Pachyderm, когда вы нуждаются в них и уменьшают их, когда они простаивают.

Установите Pachyderm 1.5 сегодня

Подробнее читайте в журнале изменений. Чтобы попробовать новую версию для себя, установите ее сейчас или перенесите существующее развертывание Pachyderm. Также обязательно:

Наконец, мы хотели бы поблагодарить всех наших замечательных пользователей, которые помогли сформировать эти улучшения, составить отчеты об ошибках и обсудить рабочие процессы Pachyderm, и, конечно же, всех участников, которые помогли нам реализовать 1.5!