Алгоритмия, которая согласно «Результатам исследования 2020 [State of Enterprise Machine Learning]» показала, что хотя зрелость машинного обучения на предприятии в целом растет, большинство компаний (50%) тратят от 8 до 90 дней на развертывание единая модель машинного обучения (при этом 18% занимают более 90 дней). Большинство возлагают вину на неудачу в масштабировании (33%), затем следуют проблемы с воспроизводимостью модели (32%) и отсутствие заинтересованности руководства (26%).
Большая часть работы, проделанной в области науки о данных, умирает в разработке, не продвигаясь в производство по следующим причинам:
- Отсутствие навыков работы с данными
- Отсутствие среды, отвечающей требованиям проекта Data Science.
- Отсутствие объяснимости модели
- Время от бизнес-требования до оценки модели
- Это мир с открытым исходным кодом. Кто берет на себя ответственность за поддержку, обновление и устранение проблем?
В январе Gartner сообщила, что внедрение ИИ выросло на колоссальные 270% за последние четыре года и на 37% только за последний год. По данным Глобального института McKinsey, последующие сдвиги на рынке труда приведут к увеличению роста валового внутреннего продукта (ВВП) на 1,2% в течение следующих 10 лет и помогут получить дополнительные 20–25% чистых экономических выгод — 13 трлн долларов. глобально — в ближайшие 12 лет.
Есть определенное будущее. Следовательно, необходимо решить и сделать правильно.
Давайте посмотрим на жизненный цикл науки о данных.
Модель CRISP-DM (межотраслевой стандартный процесс интеллектуального анализа данных) традиционно определяет шесть этапов жизненного цикла интеллектуального анализа данных. Жизненный цикл Data Science включает в себя все эти шесть шагов и многое другое.
Этапы модели CRISP:
1. Понимание бизнеса
2. Понимание данных
3. Подготовка данных
4. Моделирование
5. Оценка и
6 , Развертывание
Каковы два дополнительных шага в жизненном цикле науки о данных?
Млопс:
7. Мониторинг — Обнаружение дрейфа/ смещения
8. Обратная связь — устранение смещения и настройка модели в реальном времени
Ищут ли предприятия просто платформу, которая предоставляет возможности для выполнения всех этих 8 шагов?
Да с точки зрения процессов и больше с точки зрения возможностей…
Что это за дополнительные возможности?
9. Платформа, которая устраняет разрыв между гражданскими учеными и экспертами по данным — Auto ML, рекомендации по подготовке данных и т. д.
10. Объяснимые модели — не только локально, но даже глобально (лучше, чем то, что LIME/SHAP может сделать локально )
11. Собственная среда выполнения больших данных (хорошим примером является Apache Spark)
12. Масштабируемая и доступная инфраструктура (деньги всегда имеют значение в науке о данных)
13. Переносимость модели — размещение в любом месте, отсутствие привязки к поставщику (из-за многооблачного мира, с которым мы работаем)
14. Управление и контроль доступа
Исходя из этого, можем ли мы рассматривать следующие ключевые показатели эффективности для платформы Data Science?
Облачная инфраструктура Oracle (OCI) Data Science
OCI Data Science — это совместная, масштабируемая и мощная платформа Data Science, которая предоставляет следующие возможности:
- Масштабируемая инфраструктура
- Мощные и разнообразные вычисления (Intel Xeon, AMD, NVIDIA Tesla Pascal/Volta GPU)
- Простая настройка среды
- Совместное рабочее пространство/общая среда
- Лаборатория Jupyter IDE
- Управление доступом на основе IAM + возможности управления OCI
- Каталог моделей
- Прозрачное ценообразование — плата взимается только за используемые вычислительные ресурсы и хранилище. Включение/выключение в зависимости от требований
И самое главное, собственный SDK, который предоставляется бесплатно.
6. Ускоренная наука о данных (ADS) SDK
SDK ускоренной обработки данных (ADS)
ADS SDK помогает специалистам по обработке и анализу данных быстрее внедрять инновации. Он предоставляет возможности для
а. Подключение данных (Oracle DB, Autonomous DB, MySQL, Object Storage, AWS S3, SQLLite и т. д.)
б. Манипуляции с данными (профилирование, корреляции, выбор признаков, рекомендации и т. д.)
в. Встроенная поддержка Dask (если вы заинтересованы в Dask, посетите https://towardsdatascience.com/why-every-data-scientist-should-use-dask-81b2b850e15b)
д. Поддержка ML Framework (Tensorflow, Keras, XGboost, scikit-learn и т. д.)
е. Автомл
ф. Оценка модели
г. Объяснение модели (Oracle MLX — глобальное и локальное)
Теперь мы знаем, на что способна OCI Data Science. Давайте посмотрим на путь от разработки к производству в OCI Data Science.
**OCI Functions (Oracle Functions — это полностью управляемая, многопользовательская, высокомасштабируемая платформа «Функции как услуга» по требованию. Она построена на базе Oracle Cloud Infrastructure корпоративного уровня и работает на движке Fn Project с открытым исходным кодом). Это помогает нам добиться переносимости модели, поскольку артефакты функции могут быть перенесены в любую другую функцию в качестве поставщика услуг, поддерживаемого Fn Project.
**OCI API Gateway (служба API Gateway позволяет публиковать API с частными конечными точками, которые доступны из вашей сети и которые вы можете предоставить с общедоступными IP-адресами, если хотите, чтобы они принимали интернет-трафик). )
Как OCI Data Science помогает перейти от «Death in Dev» к «Prove in Prod»?
Во-первых, давайте посмотрим, как OCI Data Science сопоставляется с KPI платформы Data Science.
OCI Data Science помогает в
а. Снижение стоимости
б. Доступ к большему количеству данных
в. Сокращение времени
д. Повышенная безопасность
е. Повышенная гибкость
ф. Повышенное доверие
и тем самым помогает уменьшить «смерть в разработке» и освобождает место для «доказательства в продукте».
Добро пожаловать в мир науки о данных, сделанной правильно!
Высказанные мнения принадлежат автору и не обязательно принадлежат Oracle. Связаться с Дипак Секар
Дополнительные ресурсы
«https://www.oracle.com/a/ocom/docs/cloud/oracle-cloud-infrastructure-platform-overview-wp.pdf»
Обзор функций
Oracle Functions – это полностью управляемая, многопользовательская, масштабируемая по запросу платформа «Функции как услуга. Это…docs.cloud.oracle.com»