Модели машинного обучения сегодня могут решить множество конкретных бизнес-задач во всех отраслях. Было много примеров моделей машинного обучения, которые использовались для решения многих бизнес-задач. В этом случае мы рассмотрим способ создания моделей машинного обучения, которые можно использовать в производстве.

Производственный процесс должен быть оптимизирован с самого начала, чтобы исключить риски на ранней стадии.

При создании экосистемы машинного обучения необходимо учитывать множество факторов. К ним относятся наборы данных, технологическая платформа, внедрение, интеграция и команды, которые развертывают модели машинного обучения. Далее следует отказоустойчивое тестирование для обеспечения стабильных бизнес-результатов.

Это 5 лучших практик

1. Оценка данных
Сначала необходимо оценить осуществимость данных. Достаточно ли у нас наборов данных для запуска моделей машинного обучения? Достаточно ли быстро мы получаем данных, чтобы делать прогнозы?

Пример. Сети ресторанов (QSR) могут получить доступ к данным миллионов клиентов. Этого объема вполне достаточно для любой модели машинного обучения, которая может на нем работать.

После сведения к минимуму риска данных можно настроить среду озера данных, обеспечивающую простой и эффективный доступ из широкого спектра источников данных. Команда сможет сэкономить много времени и бюрократических издержек, используя озеро данных вместо традиционных хранилищ.

Команда сможет сэкономить много времени и бюрократических издержек, используя озеро данных вместо традиционных хранилищ. Масштабируемая вычислительная среда, способная быстро обрабатывать данные, также является основным требованием.

После того, как специалисты по данным обработают, структурируют и очистят данные, мы рекомендуем каталогизировать данные для дальнейшего использования.

Конечный результат: должна быть хорошо продуманная система управления и безопасности, позволяющая обмениваться данными между различными командами внутри организации.

2. Оценка лучшего технологического стека
После того, как модели машинного обучения выбраны, важно запустить их вручную, чтобы проверить их достоверность. В примере с персонализированным маркетингом по электронной почте, привлекает ли он новых клиентов или нам следует пересмотреть нашу стратегию?

Команды по науке о данных должны иметь возможность выбирать из множества технологических стеков, чтобы экспериментировать и находить тот, который упрощает производство машинного обучения.

Важно оценить технологию с точки зрения стабильности, вариантов использования в бизнесе, будущих сценариев, готовности к облаку и будущих сценариев. Gartner прогнозирует, что облачная IaaS будет расти на 24% в годовом исчислении до 2022 года.

Вы можете посмотреть 1-минутное видео Маюра Рустаги (технический директор и соучредитель — Sigmoid), рассказывающего о проверенных методах подхода к выбору компонентов инфраструктуры.

3. Надежный подход к развертыванию
Настоятельно рекомендуется стандартизировать процесс развертывания, чтобы упростить интеграцию и тестирование на разных этапах процесса.

Инженеры данных должны сосредоточиться на улучшении кодовой базы и интеграции модели (в виде конечных точек API или моделей массовых процессов), а также на создании автоматизации рабочих процессов, такой как плавная архитектура конвейера машинного обучения, чтобы команды могли легко интегрироваться.

Чтобы любая модель машинного обучения была успешной, у вас должен быть доступ к правильным наборам данных и моделям.

4. Поддержка и тестирование после развертывания
Если у вас есть подходящие инструменты для регистрации, мониторинга и составления отчетов о результатах, тестирование значительно упростится.

Среда машинного обучения должна оцениваться в режиме реального времени и тщательно контролироваться. Команда инженеров данных должна получить результаты тестирования, чтобы они могли обновить модели.

Инженеры по данным могут решить переоценить высокопроизводительные варианты и недооценить более слабые.

Вы должны знать о любых отрицательных или неожиданных результатах. Важно соблюдать правильные SLA. Мониторинг должен быть сделан, чтобы гарантировать, что качество данных и производительность модели сохранены.

Это привело бы к устойчивой стабилизации производственной среды.

5. Коммуникация и управление изменениями
Четкая коммуникация между межфункциональными командами имеет решающее значение для успеха моделей машинного обучения. Это гарантирует своевременное управление всеми рисками.

Инженерия данных и специалисты по данным должны сотрудничать для создания модели машинного обучения. Специалисты по данным должны иметь полный контроль над системой, чтобы видеть результаты производства и проверять код. Иногда командам может потребоваться обучение работе в новых условиях.

Прозрачность в общении сэкономит всем время и усилия.

Заключение:

В дополнение ко всем вышеперечисленным рекомендациям модель машинного обучения должна быть гибкой и адаптируемой к резким изменениям. Лучше не использовать все рекомендуемые методы, а сделать определенные области достаточно зрелыми и масштабируемыми, чтобы их можно было откалибровать в соответствии с требованиями бизнеса.