Алгоритмия, которая согласно «Результатам исследования 2020 [State of Enterprise Machine Learning]» показала, что хотя зрелость машинного обучения на предприятии в целом растет, большинство компаний (50%) тратят от 8 до 90 дней на развертывание единая модель машинного обучения (при этом 18% занимают более 90 дней). Большинство возлагают вину на неудачу в масштабировании (33%), затем следуют проблемы с воспроизводимостью модели (32%) и отсутствие заинтересованности руководства (26%).

Большая часть работы, проделанной в области науки о данных, умирает в разработке, не продвигаясь в производство по следующим причинам:

  1. Отсутствие навыков работы с данными
  2. Отсутствие среды, отвечающей требованиям проекта Data Science.
  3. Отсутствие объяснимости модели
  4. Время от бизнес-требования до оценки модели
  5. Это мир с открытым исходным кодом. Кто берет на себя ответственность за поддержку, обновление и устранение проблем?

В январе Gartner сообщила, что внедрение ИИ выросло на колоссальные 270% за последние четыре года и на 37% только за последний год. По данным Глобального института McKinsey, последующие сдвиги на рынке труда приведут к увеличению роста валового внутреннего продукта (ВВП) на 1,2% в течение следующих 10 лет и помогут получить дополнительные 20–25% чистых экономических выгод — 13 трлн долларов. глобально — в ближайшие 12 лет.

Есть определенное будущее. Следовательно, необходимо решить и сделать правильно.

Давайте посмотрим на жизненный цикл науки о данных.

Модель CRISP-DM (межотраслевой стандартный процесс интеллектуального анализа данных) традиционно определяет шесть этапов жизненного цикла интеллектуального анализа данных. Жизненный цикл Data Science включает в себя все эти шесть шагов и многое другое.

Этапы модели CRISP:
1. Понимание бизнеса
2. Понимание данных
3. Подготовка данных
4. Моделирование
5. Оценка и
6 , Развертывание

Каковы два дополнительных шага в жизненном цикле науки о данных?

Млопс:

7. Мониторинг — Обнаружение дрейфа/ смещения
8. Обратная связь — устранение смещения и настройка модели в реальном времени

Ищут ли предприятия просто платформу, которая предоставляет возможности для выполнения всех этих 8 шагов?

Да с точки зрения процессов и больше с точки зрения возможностей…

Что это за дополнительные возможности?

9. Платформа, которая устраняет разрыв между гражданскими учеными и экспертами по данным — Auto ML, рекомендации по подготовке данных и т. д.
10. Объяснимые модели — не только локально, но даже глобально (лучше, чем то, что LIME/SHAP может сделать локально )
11. Собственная среда выполнения больших данных (хорошим примером является Apache Spark)
12. Масштабируемая и доступная инфраструктура (деньги всегда имеют значение в науке о данных)
13. Переносимость модели — размещение в любом месте, отсутствие привязки к поставщику (из-за многооблачного мира, с которым мы работаем)
14. Управление и контроль доступа

Исходя из этого, можем ли мы рассматривать следующие ключевые показатели эффективности для платформы Data Science?

Облачная инфраструктура Oracle (OCI) Data Science

OCI Data Science — это совместная, масштабируемая и мощная платформа Data Science, которая предоставляет следующие возможности:

  1. Масштабируемая инфраструктура
  2. Мощные и разнообразные вычисления (Intel Xeon, AMD, NVIDIA Tesla Pascal/Volta GPU)
  3. Простая настройка среды
  4. Совместное рабочее пространство/общая среда
  5. Лаборатория Jupyter IDE
  6. Управление доступом на основе IAM + возможности управления OCI
  7. Каталог моделей
  8. Прозрачное ценообразование — плата взимается только за используемые вычислительные ресурсы и хранилище. Включение/выключение в зависимости от требований

И самое главное, собственный SDK, который предоставляется бесплатно.

6. Ускоренная наука о данных (ADS) SDK

SDK ускоренной обработки данных (ADS)

ADS SDK помогает специалистам по обработке и анализу данных быстрее внедрять инновации. Он предоставляет возможности для

а. Подключение данных (Oracle DB, Autonomous DB, MySQL, Object Storage, AWS S3, SQLLite и т. д.)

б. Манипуляции с данными (профилирование, корреляции, выбор признаков, рекомендации и т. д.)

в. Встроенная поддержка Dask (если вы заинтересованы в Dask, посетите https://towardsdatascience.com/why-every-data-scientist-should-use-dask-81b2b850e15b)

д. Поддержка ML Framework (Tensorflow, Keras, XGboost, scikit-learn и т. д.)

е. Автомл

ф. Оценка модели

г. Объяснение модели (Oracle MLX — глобальное и локальное)

Теперь мы знаем, на что способна OCI Data Science. Давайте посмотрим на путь от разработки к производству в OCI Data Science.

**OCI Functions (Oracle Functions — это полностью управляемая, многопользовательская, высокомасштабируемая платформа «Функции как услуга» по требованию. Она построена на базе Oracle Cloud Infrastructure корпоративного уровня и работает на движке Fn Project с открытым исходным кодом). Это помогает нам добиться переносимости модели, поскольку артефакты функции могут быть перенесены в любую другую функцию в качестве поставщика услуг, поддерживаемого Fn Project.

**OCI API Gateway (служба API Gateway позволяет публиковать API с частными конечными точками, которые доступны из вашей сети и которые вы можете предоставить с общедоступными IP-адресами, если хотите, чтобы они принимали интернет-трафик). )

Как OCI Data Science помогает перейти от «Death in Dev» к «Prove in Prod»?

Во-первых, давайте посмотрим, как OCI Data Science сопоставляется с KPI платформы Data Science.

OCI Data Science помогает в

а. Снижение стоимости

б. Доступ к большему количеству данных

в. Сокращение времени

д. Повышенная безопасность

е. Повышенная гибкость

ф. Повышенное доверие

и тем самым помогает уменьшить «смерть в разработке» и освобождает место для «доказательства в продукте».

Добро пожаловать в мир науки о данных, сделанной правильно!

Высказанные мнения принадлежат автору и не обязательно принадлежат Oracle. Связаться с Дипак Секар

Дополнительные ресурсы



«https://www.oracle.com/a/ocom/docs/cloud/oracle-cloud-infrastructure-platform-overview-wp.pdf»