Автор: Ярек Вилкевич от имени команды TFX

Если ваш код работает в производственной среде, вы, вероятно, уже знакомы с управлением версиями / конфигурацией программного обеспечения (SCM), непрерывной интеграцией и непрерывным развертыванием (CI / CD), а также со многими другими передовыми методами разработки программного обеспечения. На эти ушли годы, и теперь мы часто принимаем их как должное. Подобно тому, как написание эффективной реализации алгоритма - это только начало пути инженера-программиста, код модели машинного обучения (ML) обычно составляет только 5% всей системы ¹, необходимый для ее развертывания в производственной среде. В Google мы также много лет работаем над улучшением оставшихся 95 %². Плод нашего труда, TensorFlow Extended (TFX ³), направлен на то, чтобы представить преимущества дисциплины программной инженерии быстрорастущему миру машинного обучения. В следующей серии сообщений блога мы расскажем о новых возможностях TFX и покажем, как TFX может помочь вам в создании и развертывании ваших моделей машинного обучения в производственных средах.

До недавнего времени только библиотеки, лежащие в основе TFX (Проверка данных TensorFlow, Преобразование TensorFlow, Анализ модели TensorFlow, Обслуживание TensorFlow) были доступны в открытом исходном коде, что означало, что разработчикам все еще приходилось создавать собственные компоненты конвейера машинного обучения с использованием библиотек. Теперь вы можете создать полный конвейер TFX ML, используя несколько готовых компонентов, настроить их для многих типичных случаев использования ML с высокоуровневый Python API, и выполняйте их с помощью выбранной вами системы оркестровки, такой как Apache Airflow или Kubeflow, как показано на рисунке ниже.

Когда выполняется конвейер TFX, Метаданные ML (MLMD, другой проект с открытым исходным кодом Google) отслеживает компоненты конвейера артефактов, от которых зависят (например, данные обучения) и производятся (например, словари и модели). Метаданные ML доступны как отдельная библиотека, а также для вашего удобства интегрированы с компонентами TFX. MLMD позволяет вам обнаруживать происхождение артефакта (например, на каких данных была обучена модель), находить все артефакты, созданные из артефакта (например, все модели, обученные на конкретном наборе данных), а также обеспечивает множество других вариантов использования.

Чтобы лучше понять, как все это сочетается, ознакомьтесь с презентацией Google I / O ’19: TensorFlow Extended (TFX): конвейеры машинного обучения и понимание моделей ».

В следующем посте блога о TFX мы более подробно опишем компоненты конвейера TFX. А пока, пожалуйста, попробуйте Руководство разработчика TFX. Вы будете следовать типичному процессу разработки машинного обучения, начиная с изучения набора данных и заканчивая полным рабочим конвейером машинного обучения. Если у вас есть вопросы по TFX, пожалуйста, свяжитесь с нами через Stack Overflow, отчеты об ошибках и запросы на вытягивание всегда приветствуются на GitHub, и мы приглашаем к общему обсуждению на [email protected].

[1] Скалли Д., Гэри Холт, Дэниел Головин, Юджин Давыдов, Тодд Филлипс, Дитмар Эбнер, Виней Чаудхари, Майкл Янг, Жан-Франсуа Креспо и Дэн Деннисон. « Скрытый технический долг в системах машинного обучения .» NIPS (2015).

[2] Тушар Чандра, Сивилла: система для крупномасштабного машинного обучения в Google, доклад на конференции IEEE DSN (Надежные системы и сети), Атланта, Джорджия, 25 июня 2014 г.

[3] Денис Бейлор, Эрик Брек, Хенг-Цзе Ченг, Ноа Фидель, Чуан Ю Фу, Закария Хак, Салем Хайкал, Мустафа Испир, Вихан Джайн, Левент Коч, Чиу Юэн Ку, Лукаш Лью, Клеменс Мевальд, Акшай Нареш Моди, Неоклис Полизотис, Сукрити Рамеш, Судип Рой, Стивен Юйджонг Ван, Мартин Вик, Ярек Вилкевич, Синь Чжан и Мартин Зинкевич. 2017. TFX: платформа машинного обучения производственного масштаба на основе TensorFlow. В материалах 23-й Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных (KDD ‘17). ACM, Нью-Йорк, Нью-Йорк, США, 1387–1395. DOI: https://doi.org/10.1145/3097983.3098021.