Тайна науки о данных — Как перейти от «Death in Dev» к «Prove in Prod»?

Алгоритмия, которая согласно «Результатам исследования 2020 [State of Enterprise Machine Learning]» показала, что хотя зрелость машинного обучения на предприятии в целом растет, большинство компаний (50%) тратят от 8 до 90 дней на развертывание единая модель машинного обучения (при этом 18% занимают более 90 дней). Большинство возлагают вину на неудачу в масштабировании (33%), затем следуют проблемы с воспроизводимостью модели (32%) и отсутствие заинтересованности руководства (26%).

Большая часть работы, проделанной в области науки о данных, умирает в разработке, не продвигаясь в производство по следующим причинам:

Отсутствие навыков работы с данными
Отсутствие среды, отвечающей требованиям проекта Data Science.
Отсутствие объяснимости модели
Время от бизнес-требования до оценки модели
Это мир с открытым исходным кодом. Кто берет на себя ответственность за поддержку, обновление и устранение проблем?

В январе Gartner сообщила, что внедрение ИИ выросло на колоссальные 270% за последние четыре года и на 37% только за последний год. По данным Глобального института McKinsey, последующие сдвиги на рынке труда приведут к увеличению роста валового внутреннего продукта (ВВП) на 1,2% в течение следующих 10 лет и помогут получить дополнительные 20–25% чистых экономических выгод — 13 трлн долларов. глобально — в ближайшие 12 лет.

Есть определенное будущее. Следовательно, необходимо решить и сделать правильно.

Давайте посмотрим на жизненный цикл науки о данных.

Модель CRISP-DM (межотраслевой стандартный процесс интеллектуального анализа данных) традиционно определяет шесть этапов жизненного цикла интеллектуального анализа данных. Жизненный цикл Data Science включает в себя все эти шесть шагов и многое другое.

Этапы модели CRISP:
1. Понимание бизнеса
2. Понимание данных
3. Подготовка данных
4. Моделирование
5. Оценка и
6 , Развертывание

Каковы два дополнительных шага в жизненном цикле науки о данных?

Млопс:

7. Мониторинг — Обнаружение дрейфа/ смещения
8. Обратная связь — устранение смещения и настройка модели в реальном времени

Ищут ли предприятия просто платформу, которая предоставляет возможности для выполнения всех этих 8 шагов?

Да с точки зрения процессов и больше с точки зрения возможностей…

Что это за дополнительные возможности?

9. Платформа, которая устраняет разрыв между гражданскими учеными и экспертами по данным — Auto ML, рекомендации по подготовке данных и т. д.
10. Объяснимые модели — не только локально, но даже глобально (лучше, чем то, что LIME/SHAP может сделать локально )
11. Собственная среда выполнения больших данных (хорошим примером является Apache Spark)
12. Масштабируемая и доступная инфраструктура (деньги всегда имеют значение в науке о данных)
13. Переносимость модели — размещение в любом месте, отсутствие привязки к поставщику (из-за многооблачного мира, с которым мы работаем)
14. Управление и контроль доступа

Исходя из этого, можем ли мы рассматривать следующие ключевые показатели эффективности для платформы Data Science?

Облачная инфраструктура Oracle (OCI) Data Science

OCI Data Science — это совместная, масштабируемая и мощная платформа Data Science, которая предоставляет следующие возможности:

Масштабируемая инфраструктура
Мощные и разнообразные вычисления (Intel Xeon, AMD, NVIDIA Tesla Pascal/Volta GPU)
Простая настройка среды
Совместное рабочее пространство/общая среда
Лаборатория Jupyter IDE
Управление доступом на основе IAM + возможности управления OCI
Каталог моделей
Прозрачное ценообразование — плата взимается только за используемые вычислительные ресурсы и хранилище. Включение/выключение в зависимости от требований

И самое главное, собственный SDK, который предоставляется бесплатно.

6. Ускоренная наука о данных (ADS) SDK

SDK ускоренной обработки данных (ADS)

ADS SDK помогает специалистам по обработке и анализу данных быстрее внедрять инновации. Он предоставляет возможности для

а. Подключение данных (Oracle DB, Autonomous DB, MySQL, Object Storage, AWS S3, SQLLite и т. д.)

б. Манипуляции с данными (профилирование, корреляции, выбор признаков, рекомендации и т. д.)

в. Встроенная поддержка Dask (если вы заинтересованы в Dask, посетите https://towardsdatascience.com/why-every-data-scientist-should-use-dask-81b2b850e15b)

д. Поддержка ML Framework (Tensorflow, Keras, XGboost, scikit-learn и т. д.)

е. Автомл

ф. Оценка модели

г. Объяснение модели (Oracle MLX — глобальное и локальное)

Теперь мы знаем, на что способна OCI Data Science. Давайте посмотрим на путь от разработки к производству в OCI Data Science.

**OCI Functions (Oracle Functions — это полностью управляемая, многопользовательская, высокомасштабируемая платформа «Функции как услуга» по требованию. Она построена на базе Oracle Cloud Infrastructure корпоративного уровня и работает на движке Fn Project с открытым исходным кодом). Это помогает нам добиться переносимости модели, поскольку артефакты функции могут быть перенесены в любую другую функцию в качестве поставщика услуг, поддерживаемого Fn Project.

**OCI API Gateway (служба API Gateway позволяет публиковать API с частными конечными точками, которые доступны из вашей сети и которые вы можете предоставить с общедоступными IP-адресами, если хотите, чтобы они принимали интернет-трафик). )

Как OCI Data Science помогает перейти от «Death in Dev» к «Prove in Prod»?

Во-первых, давайте посмотрим, как OCI Data Science сопоставляется с KPI платформы Data Science.