Машинное обучение и искусственный интеллект перешли из области исследований в область практических потребительских приложений. С этим шагом теперь есть много проблем, которые нужно преодолеть. Это относительно новая область, поэтому людям придется разрабатывать наборы инструментов с открытым исходным кодом, чтобы облегчить автоматизацию многих функций машинного обучения и обработки данных, как это произошло с разработкой программного обеспечения. Всего несколько десятилетий назад DevOps не была отдельной областью, и каждой компании требовались собственные решения для автоматизации сборки и развертывания. Сегодня DevOps — это растущая область с множеством готовых инструментов с открытым исходным кодом для автоматизации почти всего, что связано с созданием, тестированием и развертыванием программного обеспечения. Машинному обучению придется пройти через аналогичный этап и разработать собственные инструменты для управления и оркестровки.

Большая проблема, которую необходимо решить

Самая большая проблема сегодня заключается в том, что команды специалистов по данным не тратят большую часть своего времени на изучение данных. Они тратят это время на работу с различными фреймворками и необходимой инфраструктурой, которую MLOps надеется решить. Они также тратят значительную часть своего времени на подготовку данных для обработки. Конвейер машинного обучения необходимо будет оптимизировать с помощью инструментов автоматизации конвейера MLOps. MLOps стремится стать грандиозным решением, которое делает то же, что и DevOps для разработки программного обеспечения, но для машинного обучения и обработки данных.

Проблемы с данными

Помимо всех этих проблем, существует проблема работы с данными из моделей и в производство. Большинство специалистов по данным работают с данными, используя такие инструменты, как R и Matlab. Однако эти данные часто тщательно отбираются, и к специалисту по обработке данных не предъявляются требования в реальном времени. Работа с данными в продакшене отличается. Специалисты по обработке и анализу данных должны принимать во внимание дополнительные соображения, поскольку им необходимо эффективно и быстро обрабатывать эти данные, чтобы приложения не замедлялись. Они также не могут допускать ошибок в производстве, так как это может привести к сбою приложений или к неточным результатам. Чтобы решить эту проблему, организации изучают возможность создания собственных хранилищ функций. Это решение, которое сделали такие компании, как Twitter и Netflix.

Автомасштабирование машинного обучения с использованием бессерверной архитектуры

В производстве масштабируемость также является еще одним соображением. Компании изучают возможность использования бессерверной архитектуры для решения этой проблемы. Бессерверная архитектура предполагает абстрагирование сервера от вашего приложения. При этом приложение может легко масштабироваться от 1 до n узлов, не задумываясь о базовом оборудовании. Это также означает, что компании могут выделять меньше людей для управления процессом обработки данных и машинного обучения. Это также помогает с автоматизацией конвейера, поскольку добавляет автоматическое масштабирование к рабочим нагрузкам.

Автоматизация с помощью хранилищ функций

Хранилища функций также становятся обязательными для рабочих нагрузок машинного обучения. Однако только несколько корпораций, таких как Uber, построили свои собственные, поскольку они, как известно, сложны и трудны для создания без большого количества ресурсов. Магазины функций — это огромная проблема, которую необходимо будет решить с помощью новых инновационных платформ и инструментов с открытым исходным кодом.

Первоначально опубликовано на https://xpresso.ai 21 апреля 2021 г.