Непрерывная доставка для машинного обучения

Почему 87 % проектов по науке о данных никогда не реализуются в производственной среде?
«Если ваши конкуренты применяют ИИ и находят информацию, позволяющую им ускориться, они собираемся очистить…venturebeat.com

Почему многие компании → не могут начать с продукта ИИ? → и более мелкие компании → на самом деле используют больше ИИ → но многие компании терпят неудачу.

Это почему?

Данные — это еще одна проблема → очень интересно… → нужно собрать и очистить много данных → также не так много людей, которые сотрудничают с данными → это огромная проблема.

Сотрудничество является ключевой идеей.

Без этого сотрудничества и общения → даже не знаю, дает ли модель какую-то ошибку → менеджеры, использующие ИИ → заменят менеджеров, которые НЕ используют ИИ.

Кроме того, будьте проще → одна вещь → просто начните с простого.

Выберите небольшой проект, чтобы начать работу, и все → с самого начала привлеките третью сторону.

Дилемма науки о данных 80/20
Появление облачных технологий привело к резкому увеличению объемов данных, в результате чего специалисты по данным стали очень востребованы. Работа, которой не было…www.infoworld.com

Наука о данных → является новой отраслью → и потребность рынка в ней довольно велика.

Но большинство специалистов по данным → посвящают анализу данных только 20 процентов своего времени → очень круто и интересно.

Озера данных → это еще один термин → для сбора данных → но поиск не прост → также запрос должен быть в режиме реального времени.

Подготовка данных → действительно требует много работы → и требует много времени для очистки данных.

Это правда → руководство должно понимать, что наука о данных – это не волшебная пилюля → есть шанс, что что-то не получится → если что-то не получится → модель необходимо переобучить.

А если моделей несколько → все они тоже должны быть переобучены.

Непрерывная доставка для машинного обучения
bio Я работаю консультантом в ThoughtWorks в Германии, где я руковожу нашей деятельностью по работе с данными и машинным обучением. Мне нравится…martinfowler.com

Реальная система машинного обучения → многие коды предназначены для обработки или предварительной обработки данных, а не кода машинного обучения. (это то, что называется скрытым техническим долгом).

Но реальная система машинного обучения → сложна → это потому, что люди сложны → и они вносят изменения → подход к доставке → должен уметь справляться с этими изменениями.

Есть довольно много лучших практик, которым нужно следовать → со временем эта область обучения будет стандартизирована → до тех пор у нас должны быть свои собственные практики → чтобы лучшие выживали.

Как различные инструменты машинного обучения → можно использовать вместе →

Продажа → это общая область → она нужна каждой компании → попытаться предсказать, сколько каждый продукт будет продан в розницу → это очень сложная проблема → и уровень достоверности имеет решающее значение.

Есть обучающий код → и еще один код для производства и развертывания.

В крупных организациях → выше используется обычный фреймворк → мы можем видеть, что делает каждый человек → модулируется все, что хорошо.

Но с общением могут быть проблемы. (версия также может быть чертовски проблемой).

Таким образом, мы делаем выбор функций → не используем каждую функцию, которая у нас есть → скорее выбираем определенные функции из целых функций.

Конвейер данных → является КРИТИЧЕСКИМ шагом → хороший поток этого → это то, что необходимо каждому приложению ML. (поддержка упорядочения данных → гораздо более сложная задача).

Здесь самая важная часть — → выбрать один гиперпараметр → оптимизировать → один за другим?

В конце дня → мы собираемся выбрать одну модель → или пару моделей. (чтобы использовать их в производстве).

Контроль версий данных · DVC
Посмотреть видео Как это работает $ dvc run -d images -o model.p cnn.py $ dvc remote add -d myrepo s3:// mybucket DVC создан для…dvc.org

Вышеупомянутый похож на Github → но специализируется на проектах машинного обучения → он мощный, поскольку отслеживает графы зависимостей и комментарии.

https://www.mlflow.org/docs/latest/projects.html

Существует множество инструментов, которые Data Scientist может использовать → для упрощения создания проектов ML. (может быть хорошей идеей знать, какие инструменты делают что).

Есть много инструментов → неизбежно, что между этими инструментами будет дублирование → что не очень хорошо.

Написание модульного теста → даже для проектов ML → например, если данные относятся к определенному типу данных → WOW → это действительно необходимо.

Важно знать, что → мы строим непрерывный рабочий процесс! → это сильно отличается от обычного программного обеспечения → данные продолжают поступать (распределение меняется → должен быть способ использовать это → и продолжать обучение → непрерывно).

Существует также традиционный программный конвейер → еще один конвейер для рассмотрения. (этот конвейер важен, поскольку → мы можем обновлять другие аспекты)

Существует также управление версиями данных → какая версия данных используется → я не совсем уверен → нужны ли все эти термины.

Просто кажется, что это термин BS, чтобы заставить их выглядеть умными.

Это правда, что в некоторых случаях → обнаружение выбросов является более или менее правильной основой для использования → а не просто классификация → это абстрактные идеи, которые необходимо обдумать заранее.

Непрерывная доставка для машинного обучения

Вопросы по теме