Модели машинного обучения сегодня могут решить множество конкретных бизнес-задач во всех отраслях. Было много примеров моделей машинного обучения, которые использовались для решения многих бизнес-задач. В этом случае мы рассмотрим способ создания моделей машинного обучения, которые можно использовать в производстве.
Производственный процесс должен быть оптимизирован с самого начала, чтобы исключить риски на ранней стадии.
При создании экосистемы машинного обучения необходимо учитывать множество факторов. К ним относятся наборы данных, технологическая платформа, внедрение, интеграция и команды, которые развертывают модели машинного обучения. Далее следует отказоустойчивое тестирование для обеспечения стабильных бизнес-результатов.
Это 5 лучших практик
1. Оценка данных
Сначала необходимо оценить осуществимость данных. Достаточно ли у нас наборов данных для запуска моделей машинного обучения? Достаточно ли быстро мы получаем данных, чтобы делать прогнозы?
Пример. Сети ресторанов (QSR) могут получить доступ к данным миллионов клиентов. Этого объема вполне достаточно для любой модели машинного обучения, которая может на нем работать.
После сведения к минимуму риска данных можно настроить среду озера данных, обеспечивающую простой и эффективный доступ из широкого спектра источников данных. Команда сможет сэкономить много времени и бюрократических издержек, используя озеро данных вместо традиционных хранилищ.
Команда сможет сэкономить много времени и бюрократических издержек, используя озеро данных вместо традиционных хранилищ. Масштабируемая вычислительная среда, способная быстро обрабатывать данные, также является основным требованием.
После того, как специалисты по данным обработают, структурируют и очистят данные, мы рекомендуем каталогизировать данные для дальнейшего использования.
Конечный результат: должна быть хорошо продуманная система управления и безопасности, позволяющая обмениваться данными между различными командами внутри организации.
2. Оценка лучшего технологического стека
После того, как модели машинного обучения выбраны, важно запустить их вручную, чтобы проверить их достоверность. В примере с персонализированным маркетингом по электронной почте, привлекает ли он новых клиентов или нам следует пересмотреть нашу стратегию?
Команды по науке о данных должны иметь возможность выбирать из множества технологических стеков, чтобы экспериментировать и находить тот, который упрощает производство машинного обучения.
Важно оценить технологию с точки зрения стабильности, вариантов использования в бизнесе, будущих сценариев, готовности к облаку и будущих сценариев. Gartner прогнозирует, что облачная IaaS будет расти на 24% в годовом исчислении до 2022 года.
Вы можете посмотреть 1-минутное видео Маюра Рустаги (технический директор и соучредитель — Sigmoid), рассказывающего о проверенных методах подхода к выбору компонентов инфраструктуры.
3. Надежный подход к развертыванию
Настоятельно рекомендуется стандартизировать процесс развертывания, чтобы упростить интеграцию и тестирование на разных этапах процесса.
Инженеры данных должны сосредоточиться на улучшении кодовой базы и интеграции модели (в виде конечных точек API или моделей массовых процессов), а также на создании автоматизации рабочих процессов, такой как плавная архитектура конвейера машинного обучения, чтобы команды могли легко интегрироваться.
Чтобы любая модель машинного обучения была успешной, у вас должен быть доступ к правильным наборам данных и моделям.
4. Поддержка и тестирование после развертывания
Если у вас есть подходящие инструменты для регистрации, мониторинга и составления отчетов о результатах, тестирование значительно упростится.
Среда машинного обучения должна оцениваться в режиме реального времени и тщательно контролироваться. Команда инженеров данных должна получить результаты тестирования, чтобы они могли обновить модели.
Инженеры по данным могут решить переоценить высокопроизводительные варианты и недооценить более слабые.
Вы должны знать о любых отрицательных или неожиданных результатах. Важно соблюдать правильные SLA. Мониторинг должен быть сделан, чтобы гарантировать, что качество данных и производительность модели сохранены.
Это привело бы к устойчивой стабилизации производственной среды.
5. Коммуникация и управление изменениями
Четкая коммуникация между межфункциональными командами имеет решающее значение для успеха моделей машинного обучения. Это гарантирует своевременное управление всеми рисками.
Инженерия данных и специалисты по данным должны сотрудничать для создания модели машинного обучения. Специалисты по данным должны иметь полный контроль над системой, чтобы видеть результаты производства и проверять код. Иногда командам может потребоваться обучение работе в новых условиях.
Прозрачность в общении сэкономит всем время и усилия.
Заключение:
В дополнение ко всем вышеперечисленным рекомендациям модель машинного обучения должна быть гибкой и адаптируемой к резким изменениям. Лучше не использовать все рекомендуемые методы, а сделать определенные области достаточно зрелыми и масштабируемыми, чтобы их можно было откалибровать в соответствии с требованиями бизнеса.