(Часть 1) –
Для успешного развертывания модели машинного обучения требуется много рутинной работы, прежде чем мы даже начнем осознавать ее бизнес-преимущества. Более 60–70% усилий, затрачиваемых на проект ML, включают в себя то, что мы называем «склеиванием» — от EDA до подготовки функций QAed / набора аналитических данных; к перемещению окончательной модели в производство (кстати, развертывание в реальном времени — это кошмар! 😊). Эта клеевая работа обычно не является джазовой стороной машинного обучения, но именно она заставляет моделей делать то, что они должны делать —
·Обеспечение воспроизводимых и согласованных процессов обучения и обслуживания конвейеров и наборов данных
·Обеспечение контроля качества восходящего и нисходящего потоков для получения стабильных значений функций и прогнозов
·Обеспечение доступности на уровне 99,99 %
·Иногда просто перепишите всю обслуживающую часть машинного обучения в совершенно другой серверной среде.
Представьте себе, что вы выполняете описанное выше время и снова каждый раз, когда необходимо обновить модель или обучить новую модель/вариант использования. Времена, в которые мы живем, изменчивы, как и срок годности наших моделей. Традиционные подходы к построению и развертыванию моделей оказываются огромным узким местом при построении моделей в масштабе просто потому, что требуется значительный объем связующей работы.
В Affine мы внедряем изменение мышления (читай MLOps) среди наших передовых инженеров DS и ML, чтобы обеспечить более быстрое обучение и развертывание моделей ML (непрерывное обучение, непрерывная доставка/развертывание) в различных случаях использования.
Ключ к успешному внедрению MLOps начинается с изменения мышления и мотивации для внедрения новых практик, которые на первый взгляд могут показаться накладными расходами для конкретного проекта, но гарантируют огромный прирост эффективности и ценности для бизнеса в среднесрочной и долгосрочной перспективе.
Одной из таких практик является использование Корпоративного магазина функций. Для тех, кто знаком с терминологией DS/ML, это, по сути, самый полный набор аналитических данных, о котором вы только можете подумать, — он включает все возможные функции с минимально возможной детализацией (например, на уровне «пользователь-продукт-день») и обновляется с очень высокой частотой. Думайте об этом как о живом источнике данных, способном обслуживать несколько вариантов использования ML — через простой API/SDK.
МАГАЗИН ОСОБЕННОСТЕЙ
Что это значит для специалистов по данным?
› Более быстрый цикл разработки
› Отсутствие ошибок данных: Feature Store — единственный источник достоверной информации
› Использование коллективного интеллектуального лидерства нескольких DS, разработавших эти функции
Что это значит для инженеров машинного обучения?
› Согласованность данных между средой обучения и средой развертывания
› Более быстрое развертывание в производственной среде
› Отсутствие потери информации между командой DS и инженерами ML
Что это значит для бизнеса?
› Адаптивное решение означает более быструю и актуальную реакцию на динамику рынка
› Возможность повторного использования компонентов в различных сценариях использования означает стандартизацию и экономическую эффективность.
Машинное обучение, слишком часто, представляет собой сочетание науки и искусства. Однако мы искренне верим, что есть и третья составляющая — Процесс. Feature Store — это одна из таких гигиенических практик машинного обучения, и в сочетании с несколькими другими элементами это приводит к масштабируемому и устойчивому воздействию машинного обучения, которое очень нужно современному миру.
Пожалуйста, следите за обновлениями, чтобы узнать больше о ML Hygiene 😊
Этот блог написан Винитом Кумаром, соучредителем и главным архитектором решений Affine.