От лаборатории к производству: 3 ключевых идеи по операциям машинного обучения

Знаете ли вы, почему только 13% проектов по науке о данных, или только один из каждых 10, внедряются в производство? — Согласно исследованию 2019 года, 87% проектов машинного обучения (ML) никогда не доходят до производства. Реальность, стоящая за бумом ИИ, сильно изменилась после 2022 года, когда мы постепенно использовали концепцию, которая доказала передовой опыт в развертывании и обслуживании программного обеспечения, чтобы спасти нас! (Д-С)

Эта концепция включает в себя набор передовых методов и процессов для развертывания моделей машинного обучения и управления ими в рабочей среде под названием «Операции машинного обучения» (MLOps).

Это относительно новая область с точки зрения стандартов и процессов, но она активно исследуется, чтобы позволить моделям машинного обучения быть масштабируемыми и воспроизводимыми — две ключевые причины необходимости MLOps и 3 возникающих вопроса подробно описаны в статье :)

✅ Масштабируемые модели

Масштабируемые модели необходимы для машинного обучения, особенно в производственной среде. С увеличением объема генерируемых данных крайне важно иметь модели, которые могут обрабатывать большие наборы данных и обеспечивать точные прогнозы. Распределенное, ансамблевое и глубокое обучение — все это масштабируемые модели, которые можно использовать для повышения производительности моделей машинного обучения в производственной среде. Кроме того, несколько инструментов, баз данных и поставщиков облачных услуг обеспечивают масштабируемость и повышают эффективность моделей.

✅ Воспроизводимые модели

Воспроизводимые модели являются фундаментальными и важными в исследованиях машинного обучения, поскольку их можно использовать в разных областях для различных вариантов использования. В контексте машинного обучения воспроизводимость означает возможность воспроизвести результаты модели на разных наборах данных или с другими параметрами.

Как вы достигаете их в режиме реального времени?

В моем предыдущем сообщении в блоге рассказывается о нескольких интересных случаях использования графических данных. Давайте рассмотрим один из сценариев, где вам нужно использовать их в сценарии реального времени с различным источником входных данных.

Вы обучили модель машинного обучения, которая предлагает друзей в социальных сетях, как показано на изображении ниже.

Теперь, когда ваша модель готова для логического вывода и развернута на вашем сервере!

Но с дополнительной сложностью, т. е. рассмотреть множество факторов, чтобы сделать это предложение, в зависимости от вашего местоположения, посещенных мероприятий, общих друзей и т. д., и вам необходимо убедиться, что вывод является наилучшим, несмотря на меняющиеся факторы.

Мы делаем следующее, чтобы ваши модели были масштабируемыми и воспроизводимыми в соответствии с требованиями реального мира.

Следите за своими экспериментами
Поделитесь своими экспериментами с товарищами по команде
Храните и обслуживайте свои модели

Было бы неплохо иметь платформу, которая сделает это за вас?

Несколько замечательных платформ, таких как MLFlow [2], W&B [3] и Neptue. ai[4] и т. д. могут предоставить вам все вышеперечисленные обязательные элементы. Который я буду копать глубже в своих следующих сообщениях в блоге :)

В любом случае, зачем вам нужны эти инструменты для мониторинга ваших моделей машинного обучения?

Что ж, ваши модели машинного обучения постоянно развиваются и нуждаются в постоянном наблюдении за ними. Использование инструмента может помочь улучшить жизненный цикл машинного обучения. Это включает,

Производительность модели
Основные изменения, такие как дрейф данных
Сгладьте петли обратной связи
И как это влияет на бизнес-показатели

Почему сложно отслеживать модель машинного обучения? Разве это не часть программного обеспечения?

Ну не совсем! со временем программное обеспечение развивалось, и DevOps сыграл огромную роль в стандартизации. С другой стороны, у моделей машинного обучения есть недостатки, такие как неопределенность, объяснимость модели, необходимость версии данных и кода, а также мысль о версии разнородных данных, таких как изображения, видео, аудио и т. д. Еще одной серьезной проблемой является масштабируемость обучения этих моделей — что обычно требует высокой аппаратной конфигурации, такой как графические процессоры (графические процессоры)

В двух словах,

Широкая осведомленность и способность внедрять модели машинного обучения в производство формируют как промышленный, так и академический мир. Исследования и разработки опираются не только на совершенствование процесса MLOps, но и на повышение важности машинного обучения в системах реального времени. Я ожидаю, что к следующему десятилетию MLOps станет достаточно зрелым, чтобы обслуживать отрасли, которые еще не затронуты :)

От лаборатории к производству: 3 ключевых идеи по операциям машинного обучения

Вопросы по теме