1. Обеспечение качества при настройке MLOps: промышленная перспектива (arXiv)

Автор: Аян Чаттерджи, Бестоун С. Ахмед, Эрик Халлин, Антон Энгман.

Аннотация: сегодня машинное обучение (ML) широко используется в промышленности для обеспечения основных функций производственных систем. Однако практически всегда он используется в производственных системах как часть более крупной сквозной программной системы, состоящей из нескольких других компонентов в дополнение к модели машинного обучения. Из-за производственного спроса и нехватки времени методы автоматизированной разработки программного обеспечения весьма применимы. Более широкое использование методов автоматизированной разработки программного обеспечения ML в таких отраслях, как производство и коммунальные услуги, требует автоматизированного подхода к обеспечению качества (QA) как неотъемлемой части программного обеспечения ML. Здесь QA помогает снизить риск, предлагая объективную точку зрения на программную задачу. Хотя традиционная разработка программного обеспечения имеет автоматизированные инструменты для анализа данных QA для управляемого данными ML, использование методов QA для ML в эксплуатации (MLOps) отсутствует. В этом документе рассматриваются проблемы обеспечения качества, возникающие в промышленных MLOps, и концептуализируются модульные стратегии для обеспечения целостности данных и качества данных (DQ). Документ сопровождается реальными примерами промышленного использования от промышленных партнеров. В документе также представлены несколько проблем, которые могут послужить основой для будущих исследований.

2. Предварительное исследование практик MLOps в GitHub (arXiv)

Автор: Фабио Калефато, Филиппо Ланубиле, Луиджи Куаранта.

Аннотация: Фон. Быстрая и растущая популярность приложений машинного обучения (ML) привела к росту интереса к MLOps, то есть практике непрерывной интеграции и развертывания (CI/CD) систем с поддержкой ML. Цели. Поскольку изменения могут повлиять не только на код, но и на параметры модели машинного обучения и сами данные, автоматизацию традиционной CI/CD необходимо расширить, чтобы управлять повторным обучением модели в производственной среде. Метод. В этой статье мы представляем начальное исследование практик MLOps, реализованных в наборе систем с поддержкой ML, полученных из GitHub, уделяя особое внимание GitHub Actions и CML, двум решениям для автоматизации рабочего процесса разработки. Полученные результаты. Наши предварительные результаты показывают, что внедрение рабочих процессов MLOps в проектах GitHub с открытым исходным кодом в настоящее время довольно ограничено. Выводы. Также определены проблемы, которые могут служить ориентиром для будущей исследовательской работы.