Эффективное внедрение машинного обучения в масштабе стартапа

MLOps без особых операций

Мини-сериал с Чиро Греко и Андреа Полониоли

Жизнь в «разумном масштабе»

Если вы не работаете в Big Tech - Google, Facebook, Amazon этого мира - скорее всего, вы работаете в компании «разумного масштаба».

Компании разумного масштаба не похожи на Google. Они не могут нанять всех людей, о которых мечтают, и не обслуживают миллиарды пользователей в день с помощью облачной инфраструктуры, которой они владеют. Компании разумного масштаба обрабатывают миллионы точек данных, а не миллиарды; они могут нанять десятки специалистов по данным, а не сотни, и им необходимо оптимизировать свои вычислительные затраты.

В то же время у компаний разумного масштаба есть множество интересных бизнес-проблем, которые можно решить с помощью машинного обучения. На самом деле, имело бы смысл обратиться к ним с помощью машинного обучения, и, возможно, они уже пытаются это сделать. Просто сложно реализовать правильные процессы, когда у вас есть ограничения по талантам, бюджету и объемам данных.

По правде говоря, за исключением крупных технологий и передовых стартапов, системы машинного обучения все еще далеки от обеспечения обещанной рентабельности инвестиций: в среднем проекты ИИ переходят от пилотного проекта к производственному за 9 месяцев, и Gartner делает ставку на 2024 год (!) для предприятий перейти от пилотного проекта к вводу в эксплуатацию. По мере того, как количество проектов ИИ продолжает расти, потребность в зрелом подходе к MLOps становится все более очевидной: поскольку альтернативные издержки неправильного выбора в такой фундаментальной области могут нанести ущерб даже лучшему бизнесу, это имеет решающее значение для руководителей и менеджмента. чтобы понять последствия разумной стратегии MLOps. И теперь самое время разобраться в этом.

За последние годы мы узнали, что положительный ROI от машинного обучения может быть достигнут даже в разумных масштабах. Мы знаем это, поскольку находимся в несколько привилегированном положении, помогая цифровой трансформации сотен средних и крупных предприятий. Самое главное,

мы знаем это, потому что сами являемся компанией разумного масштаба.

Мы решили поделиться тем, что мы узнали на этом пути, в серии, состоящей из нескольких частей, посвященной тому, как создавать и масштабировать системы машинного обучения для более быстрого получения результатов перед лицом вышеуказанных ограничений: небольшие группы машинного обучения, ограниченный бюджет, терабайты данных. . Наша цель - предоставить вам набор проверенных передовых практик для успешной навигации в быстро меняющемся ландшафте MLOps при сквозном проектировании производственной системы.

Уже существует множество руководств по инструменту X или фреймворку Y (включая наши собственные!), Но (по уважительным педагогическим причинам) они фокусируются на отдельных инструментах, часто в сценарии игрушечного мира. Мы решили пойти по более длительному, но, надеюсь, более результативному пути: наши обсуждения по замыслу немного более детализированы и включают свидетельства из научных статей, открытого исходного кода и непосредственного опыта стартапов.

Наша (амбициозная) цель - предоставить вам шаблон для создания AI-компании, а не крошечную функцию.

Эффективное создание ИИ с открытым исходным кодом и SaaS

Идею, лежащую в основе этой серии, можно изложить очень кратко:

чтобы быть продуктивным ML в разумных масштабах, вы должны вкладывать свое время в решение основных проблем (какими бы они ни были) и покупать все остальное.

Хотя сформулировать главный принцип легко, жизнь в разумных масштабах включает в себя всевозможные тонкие ответвления, от борьбы за таланты до контроля прибылей и убытков. Следствием нашего принципа является то, что мы должны делать все, что в наших силах, чтобы отвлечь инфраструктуру от разработчиков машинного обучения. Поскольку мы имеем дело с разумным масштабом, не имеет большого значения выделять ресурсы на развертывание и поддержку функций, которые сегодня можно найти в виде решений PaaS / SaaS (например, Snowflake, Metaflow, SageMaker).

Жизнь в разумных масштабах включает в себя всевозможные тонкие ответвления. Но учитывая, что MLOps - это совершенно новая область, руководители и менеджмент не всегда полностью осведомлены об этом: мы разработали эту серию с учетом множества разных персонажей, что позволяет нам исследовать продуктивность ML с разных сторон. Небольшой тизер-трейлер:

  • Инструменты машинного обучения для всех: MLOps выросли из семян 20-летних усилий по внедрению технологий с открытым исходным кодом. Сегодня внедрение открытого исходного кода ускоряется на предприятиях, что позволяет небольшим командам работать с максимальной производительностью. И все же идея использования инструментов с открытым исходным кодом часто не одобряется руководителями групп и руководителями: мы объясним, как компании и бизнес-лидеры могут снизить риски своей стратегии открытого стека и получить максимальную отдачу от программного обеспечения с открытым исходным кодом.
  • Меньше - значит больше: жертвуя большим объемом вычислений при значительно меньших человеческих усилиях, мы заявляем, что небольшая счастливая команда машинного обучения значительно лучше, чем большая, менее сфокусированная группа. Другими словами, возможно, более крупный счет за AWS часто компенсируется более высоким уровнем удержания и более высокой производительностью машинного обучения. Последствия далеко идущие: например, подумайте о том, как могут потребоваться переоценки традиционных показателей, таких как численность персонала НИОКР, и могут потребоваться другие контрольные показатели. Современный подход MLOps может привести к тому, что традиционные показатели и тесты НИОКР практически устареют.
  • Наделенные полномочиями разработчики становятся лучше: набор и удержание персонала на конкурентном рынке - постоянная проблема для компаний, особенно в сфере машинного обучения. Как выясняется, одна из основных причин текучести специалистов-практиков машинного обучения заключается в том, что они посвящают значительную часть своего времени малоэффективным задачам, таким как подготовка данных и обслуживание инфраструктуры.

Хотите узнать больше?

В ближайшие месяцы мы исследуем все аспекты продуктивности машинного обучения в разумных масштабах. Следите за нами на Medium или Linkedin, чтобы получать последние обновления!

Якопо Тальябуе , Чиро Греко и Андреа Полониоли.

Часто задаваемые вопросы

  • У вас есть TL; DR версия? Не совсем, поэтому мы начинаем (небольшую) серию: мы действительно пытались уместить все в одном сообщении, но наши первые читатели казалось, согласился, что это было слишком сложно, чтобы иметь смысл. Если вы хотите что-то послушать во время бега, некоторые из этих тем ожидались на лекции MLOps в разумном масштабе в Stanford MLSys.
  • Может ли передовое машинное обучение действительно существовать за пределами крупных технологий? Да, действительно. Создание системы самообслуживания для членов команды и внешних сотрудников для развертывания графических процессоров, выполнения запросов, обмена результатами через конечные точки (не слайды!) - отличный способ быстро разрабатывать продукты и проводить исследования.
  • Обсуждение дешево, покажите код! Если вы нетерпеливы и хотите сразу перейти к инженерной стороне, мы поделились репозиторием с открытым исходным кодом, реализующим наши принципы, от анализа необработанных данных до обслуживания прогнозов (примечание: проект работает при реалистичной загрузке данных благодаря a массив данных электронной коммерции, который мы недавно выпустили ).

Благодарности

Мы хотим поблагодарить Вилле, Савина и Олега за ценные отзывы о предыдущих итерациях проекта; Пьеро Молино и Stanford MLSys group за приглашение на отличную сессию; Mike Purewal, который изящно отверг наш первый набросок и подтолкнул нас к тому, чтобы стать лучше; наконец, Лука Бигон, живущий и дышащий разумным размахом.

Конечно, создание этой серии было бы невозможно без участия наших участников открытого исходного кода: