Эффективное ведение машинного обучения в масштабе стартапа; Промышленные записки

ML и MLOps в разумных масштабах

MLOps без особых операций - эпизод 2

С Андреа Полониоли и Якопо Тальябу

Хотя количество приложений машинного обучения (ML), используемых в производственной среде, растет, не проходит и дня, чтобы мы не читали что-нибудь о том, что большинству предприятий все еще трудно добиться положительной рентабельности инвестиций (см. Здесь и здесь).

Вы могли бы заметить одну вещь: никто никогда не говорит о том, как Big Tech изо всех сил пытается воспользоваться преимуществами машинного обучения в производственной среде. Это потому, что это не так. Google, Facebook, Netflix и другие ведущие игроки неплохо справляются с внедрением машинного обучения, и последнее, что их беспокоит, - это плохая рентабельность инвестиций.

Планка всегда считается слишком высокой для компаний, которым приходится сталкиваться с ограничениями, которых нет у Big Tech. Интересно то, что таковы подавляющее большинство компаний. Большинство компаний не похожи на Google: они не могут нанять всех талантов, о которых мечтают, у них нет миллиардов точек данных в день, и они не могут рассчитывать на практически бесконечную вычислительную мощность.

Из всех самых красивых бесконечных форм, которые могут принимать компании, не связанные с большими технологиями, мы особенно заинтересованы в растущем - и, как мы полагаем, недостаточно обслуживаемом - сегменте, который особенно актуален для систем машинного обучения.

Мы называем этот сегмент компаниями разумного масштаба (в отличие от необоснованного колоссального масштаба компаний FAANG).

В этом посте мы попытаемся конкретизировать, что мы подразумеваем под компаниями разумного масштаба. Что наиболее важно, мы хотим изучить ограничения, с которыми такие организации сталкиваются ежедневно. Если некоторые (или все) из этих ограничений находят отклик у вас, примите наши поздравления: вы, вероятно, занимаетесь машинным обучением в компании разумного масштаба.

Хорошая новость заключается в том, что на самом деле сейчас отличное время для ML в разумных масштабах. Впервые в истории набор инструментов DataOps и MLOps стал богатым, компонуемым и достаточно гибким, чтобы создавать надежные, воспроизводимые и масштабируемые сквозные конвейеры: не бойтесь, как будет показано в следующих публикациях этой серии. вы именно как.

Прежде чем перейти к цветущей жужжащей неразберихе текущего ландшафта MLOps, важно разъяснить жесткие ограничения, которые определяют наше проблемное пространство, и изложить некоторые принципы проектирования.

Разумная шкала

Определение разумной шкалы (RS) многогранно. Он должен быть достаточно гибким, чтобы включать множество вариантов использования в разных отраслях. В этом спектре мы можем найти стремительно стремительно развивающиеся цифровые стартапы, стремящиеся к быстрому росту, а также крупные традиционные предприятия, развертывающие приложения машинного обучения в производственной среде для ограниченных случаев использования. В то же время это определение призвано зафиксировать определенную цель принятия большого количества инструментов с открытым исходным кодом и продуктов MLOps, которые существуют прямо сейчас.

Для определения компаний RS используются следующие параметры: ¹

1. Денежное влияние: модели машинного обучения в RS приносят денежную прибыль от сотен тысяч до десятков миллионов долларов США в год (а не сотен миллионов или миллиардов).

Интуитивно мы хотим сказать, что успешные модели в RS редко имеют такое влияние, как применение моделей BERT в поиске Google или улучшение рекомендаций Amazon. ML в компаниях RS может иметь значительное влияние, но абсолютный масштаб такого воздействия редко достигает масштабов компаний, работающих с большими данными.

Другой способ думать об этом немного более формально - это посмотреть на состояние Чистая приведенная стоимость (NPV) ² инвестирования в ML в компании RS. Как уже упоминалось, компании RS бывают разных размеров и различаются по многим параметрам, от зрелости бизнеса до операционной эффективности, от финансового рычага до ликвидности. Это могут быть быстроразвивающиеся компании, быстро растущие в доходах, но не обязательно прибыльные, такие как бренды, ориентированные на потребителей, такие как Warby Parker и Casper, или цифровые игроки, такие как Tubi или Lyst; или это могут быть более устоявшиеся игроки, которые уже достигли рентабельности, например ритейлеры Kingfisher и Marks and Spencer.

Ключевым моментом является то, что все эти организации должны следовать ключевому принципу бюджетирования капиталовложений, а именно, от них ожидается выполнение тех проектов, которые повысят их прибыльность.

Положительное значение NPV обычно указывает на необходимость инвестирования, если только у других проектов NPV не выше. Инвестиции в ML не являются исключением, и NPV коррелирует с влиянием, которое приложение ML может оказать на компанию, и с размером компании. Когда компании слишком малы, чистая приведенная стоимость инвестиций в машинное обучение может быть отрицательной или умеренной, что означает, что проект вообще не следует реализовывать или вряд ли он получит приоритет над конкурирующими инициативами с сопоставимой чистой приведенной стоимостью (например, потому что последняя может иметь меньшую стоимость). сроки окупаемости или вообще восприниматься как менее рискованные).

Понятие RS предназначено для описания ряда компаний, которые, несмотря на их различия, сталкиваются с аналогичными проблемами и всем выиграют от принятия аналогичных принципов. Если вы находитесь где-то в этом диапазоне, вполне вероятно, что прогнозируемая чистая приведенная стоимость ваших инвестиций в машинное обучение имеет верхнюю границу в 100 000 000 долларов США. ³

2. Размер команды. В компаниях RS работают десятки инженеров (а не сотни или тысячи).

У компаний FAANG нет реальных проблем с поиском и удержанием талантов (например, Netflix получает примерно 350 000 заявлений о приеме на работу ежегодно). Компании РС не могут рассчитывать на такой поток. Их команды машинного обучения состоят из десятков специалистов по данным, инженеров машинного обучения, и компаниям, занимающимся машинным обучением, необходимо организовать эти команды таким образом, чтобы обеспечить продуктивность и максимизировать их результат. Это не совсем просто. Люди, занимающиеся машинным обучением в этих компаниях, сталкиваются с множеством проблем, поскольку их работодатели часто позже переходят на инструменты машинного обучения и, как правило, становятся менее зрелыми во всем стеке.

Чтобы оптимизировать работу небольших команд, компании RS часто стремятся минимизировать операционные трудности, то есть найти способы для разработчиков машинного обучения и специалистов по обработке данных как можно меньше полагаться на другие команды при получении данных, предоставлении графических процессоров, обслуживании моделей и т. Д.

В этом есть большой смысл, поскольку разработка систем машинного обучения во многом зависит от типа решаемой проблемы, поэтому специалисты по данным должны иметь возможность выбирать инструменты, архитектуру и моделирование в зависимости от наборов данных, типов данных, алгоритмов и ограничений безопасности. . Кроме того, системы машинного обучения не развертываются в статических средах, поэтому специалисты по обработке данных должны знать об изменениях данных, изменениях в модели, атаках противника и т. Д.

В то же время важно, чтобы специалисты по обработке данных не участвовали в слишком большом количестве вспомогательных задач, поскольку это потребовало бы от них развития слишком большого количества дополнительных навыков: если теперь их работа заключается в предоставлении графических процессоров, мы просто переложили бремя, вместо увеличения скорости. Достижение правильного баланса - непростая задача.

3. Объем данных: компании RS имеют дело с терабайтами (а не петабайтами или эксабайтами).

Компании FAANG имеют данные о миллиардах пользователей для непрерывного обучения своих моделей. Например, пользователи WhatsApp обмениваются до 100 миллиардов сообщений ежедневно, а у Amazon 153 миллиона участников в программе Prime членства только в США. У Google 8 (!) Продуктов более 1 млрд пользователей каждый.

Для компаний RS, наоборот, сбор массивных обучающих наборов, как правило, неосуществим из-за таких проблем, как нехватка данных, защита конфиденциальности и соответствие нормативным требованиям или просто масштабирование.

Рассмотрим область с большим объемом данных, такую ​​как электронная коммерция. Из наших собственных данных мы знаем, что многомиллиардные розничные торговцы с веб-сайтами, которые оцениваются от 25 000 до 4 000 в рейтинге Alexa, генерируют от 1,5 до 10 миллионов уникальных посетителей в месяц. Это впечатляет: 10 миллионов человек составляют население Мехико. Но… если взять Amazon, количество уникальных посетителей в месяц составляет порядка 200 миллионов. Это примерно в шесть раз больше населения Канады. Вот вам и масштабы мегаполиса!

Добавьте к этому также, что 96% предприятий сталкиваются с проблемами качества данных и маркировки в проектах машинного обучения и что в некоторых случаях проблемы с объемом данных только усугубились из-за сбоев, таких как пандемия COVID-19.

Тот факт, что в RS имеется ограниченный объем данных, имеет последствия для того, что следует считать оптимальным. Возможно, излишнее внимание к первоклассному моделированию неуместно со стратегической точки зрения. Например, лучшие в своем классе модели могут быть неоптимальными с точки зрения соотношения затрат и выгод, а во многих случаях даже не могут быть жизнеспособным вариантом, если они слишком требовательны к данным.

Для компаний RS будет гораздо больше маржинальной выгоды от сосредоточения на чистых, стандартизованных и доступных данных, как предлагали первоначальные сторонники Data-Centric AI.

4. Вычислительные ресурсы: компании RS имеют ограниченный вычислительный бюджет.

Сложность моделей машинного обучения неуклонно растет, при этом DL является особенно требовательным с точки зрения вычислительной инфраструктуры. Расходы на вычисления обычно растут, как и затраты.

Теперь, даже если спрос на вычисления в компаниях, занимающихся большими технологиями, растет (просто пример), у этих компаний практически бесконечные вычислительные ресурсы. Давайте будем честными: Amazon и Google буквально владеют своим облачным провайдером.

Для всех остальных затраты на прирост производительности могут быть непомерно высокими. Например, Strubell et al. Недавно провели сравнительный анализ затрат на обучение и разработку моделей в долларах, а для задачи машинного перевода они подсчитали, что увеличение на 0,1 балла BLEU с использованием поиска нейронной архитектуры для перевода с английского на немецкий привело к увеличению затрат на вычисления на 150 000 долларов США.

Одним из факторов, который больше всего влияет на эффективность вычислений в компаниях RS, является неэффективный дизайн систем машинного обучения с точки зрения сквозной перспективы (включая стек данных). В RS необходимо в равной степени сосредоточить внимание на сохранении минимально возможной суммы счета и максимально эффективном масштабировании.

Парадокс заключается в том, что Google легче перейти с 1 GPU на 1000 GPU, чем для большинства компаний RS. Например, многие компании RS используют распределенные вычислительные системы, такие как Spark, которые вряд ли понадобятся. Многого можно достичь с помощью эффективного вертикального дизайна, который включает способы масштабирования вычислительных ресурсов с минимальными усилиями и только при необходимости.

Бесстыдный захватчик для следующего поста

Эти четыре измерения определяют то, что мы называем компаниями RS. Необязательно находить жесткие ограничения в отношении всех из них одновременно, и они не должны точно описывать ситуацию в вашей компании. Однако, если вы часто задавались вопросом, как оценить рентабельность инвестиций с денежной точки зрения, или как смоделировать вычислительную эффективность с учетом ваших бюджетных ограничений, или как выбрать правильную стратегию, чтобы не заставлять вашего специалиста по данным тратить большую часть своего времени на качество данных, что ж. … Вы, наверное, работаете в компании RS.

В следующем посте мы подробно рассмотрим, что вы можете с этим сделать, и обсудим четыре простых столпа, которые составляют наше духовное и практическое руководство как практикующих ML в RS:

● Данные ›Моделирование

● Журнал ≠ Преобразование

● PaaS / FaaS ›IaaS

● Вертикальный ›Распределенный

Не волнуйтесь, у вас уйдет время, чтобы тщательно изучить этот фреймворк, и вы найдете то, что вы действительно можете использовать, например, много кода с открытым исходным кодом и документации.

Примечания

¹ Обратите внимание, что размеры, которые мы собираемся ввести, сильно коррелированы, но есть некоторые исключения: например, в Adtech вы получаете огромные объемы данных и вам нужно много вычислительных ресурсов, но, возможно, не слишком много инженеров.

² А именно текущая стоимость (дисконтированных) будущих чистых денежных потоков (разница между выгодами и затратами) с учетом процентной ставки (ставки дисконтирования).

³ Важным следствием этого является то, что в начале цикла внедрения машинного обучения организации всегда должны начинать с RS, независимо от их глобального размера, потому что очень сложно оценить рентабельность инвестиций без хотя бы одного практического примера. Технологический стек и методы, которые мы описываем в этой серии, хорошо подходят и для начинающих крупных предприятий.

⁴ Примечание по B2B: некоторые RS могут быть довольно большими с точки зрения обрабатываемых данных, если рассматривать их как единое целое, но на практике данные разделяются заказчиком. Coveo - один из них, например, и мы должны уделять особое внимание этому моменту, когда занимаемся разработкой продукта.

⁵ Существуют варианты решения проблемы нехватки данных. Например, обогащение данных позволяет компаниям RS добавлять сторонние данные для повышения точности моделей. Синтетические данные - это еще один вариант (то есть данные, не полученные в результате прямых измерений) с использованием таких методов, как статистически строгая выборка из реальных данных, генеративных состязательных сетей или путем создания сценариев моделирования. Инновации в этой области в основном инициируются стартапами на ранней стадии, такими как MostlyAI или Rendered.AI, и за ними стоит внимательно следить.

Этот пост является вторым из мини-серии о MLOps в масштабе стартапа. Здесь вы можете найти Эпизод 1.

Подтверждение

Эта серия статей была бы невозможна без участия наших разработчиков открытого исходного кода: