Исследователи Google обнаружили, что «каскады данных — совокупные события, вызывающие негативные последствия из-за проблем с данными, — вызванные традиционными методами искусственного интеллекта и машинного обучения, которые недооценивают качество данных… являются всеобъемлющими (распространенность 92%), невидимыми, отсроченными, но часто их можно избежать».

Давайте обсудим тенденцию, которой широко следуют для большинства или всех вариантов использования ИИ в организациях. Просто чтобы прояснить, что термин ИИ здесь упоминается как зонтик, охватывающий наши варианты использования DataScience/Machine Learning и Deep Learning.

Двумя основными компонентами всех систем ИИ являются данные и модель, которые идут рука об руку для получения желаемых результатов. Мы понимаем, что сообщество ИИ склонно прилагать больше усилий к построению модели. Одна из вероятных причин заключается в том, что индустрия ИИ внимательно следит за академическими исследованиями в области ИИ. Благодаря культуре открытого исходного кода в ИИ большинство передовых достижений в этой области легко доступны почти всем, кто может использовать github, но работа с данными иногда считается задачей с низким уровнем квалификации, и многие инженеры вместо этого предпочитают работать с моделями, но Уравнение предполагает, что для улучшения решения мы можем либо улучшить наш код, либо улучшить наши данные, либо, конечно, сделать и то, и другое.

Модельно-ориентированный подход

ML — это итеративный процесс, который включает в себя разработку эмпирических тестов вокруг модели для повышения производительности. Это состоит в том, чтобы найти правильную архитектуру модели и процедуру обучения среди огромного пространства возможностей, чтобы прийти к лучшему решению.

По словам Нг, в доминирующем модельно-ориентированном подходе к ИИ вы собираете все данные, которые можете собрать, и разрабатываете модель, достаточно хорошую, чтобы справиться с шумом в данных. Установленный процесс требует фиксации данных и многократного улучшения модели до тех пор, пока не будут достигнуты желаемые результаты.

Подход, ориентированный на данные

Это состоит в систематическом изменении/улучшении наборов данных для повышения точности вашей системы искусственного интеллекта. На это обычно не обращают внимания, и сбор данных рассматривается как разовая задача.

В зарождающемся подходе к ИИ, ориентированном на данные, «согласованность данных имеет первостепенное значение», — говорит Нг. Чтобы получить правильные результаты, вы фиксируете модель или код и итеративно улучшаете качество данных.

Кто об этом говорит?

Научный сотрудник Мартин Зинкевич уделяет особое внимание внедрению надежных конвейеров данных и инфраструктуры для всех бизнес-показателей и телеметрии перед обучением вашей первой модели. Он также выступает за тестирование конвейеров на простой модели или эвристике, чтобы убедиться, что данные передаются должным образом до любого производственного развертывания.

Команда Tensorflow Extended (TFX) в Google цитирует Зинкевича и повторяет, что создание реальных приложений машинного обучения «требует некоторых изменений ментальной модели (или, возможно, дополнений)».

Однако в последнее время больше внимания уделяется роли данных низкого качества в том, что Нг определил как отставание от проверки концепции перед производством, или неспособности проектов ИИ и моделей машинного обучения добиться успеха, когда они развернуты в реальном мире

Сообщение от обоих этих лидеров заключается в том, что для развертывания успешных приложений машинного обучения необходимо сместить акцент. Вместо того, чтобы спрашивать Какие данные мне нужны для обучения полезной модели?, следует задать вопрос: Какие данные мне нужны для измерения и поддержания успеха моего приложения машинного обучения?

Раздел данных и искусственного интеллекта

Популярные фреймворки машинного обучения, такие как TensorFlow, PyTorch и SciKit-Learn, не занимаются обработкой данных. Поскольку эти системы данных не «делают ИИ», а эти технологии ИИ не «делают данные», предприятиям чрезвычайно сложно добиться успеха с ИИ, который, в конце концов, требует успеха обоих компонентов. Инструменты обработки данных, появившиеся на основе подхода, ориентированного на модели, предлагают расширенные функции управления моделями в программном обеспечении, которое отделено от важных конвейеров данных и производственных сред. Эта разрозненная архитектура опирается на другие службы для обработки наиболее важного компонента инфраструктуры — данных.

В результате контроль доступа, тестирование и документирование всего потока данных распределены по нескольким платформам.

Потребность в платформе машинного обучения, ориентированной на данные

На этом этапе, прежде чем продолжить, я хотел бы повторить, что больше данных не всегда эквивалентно лучшим данным. Платформа машинного обучения, ориентированная на данные, предоставляет модели и функции наряду с данными для бизнес-показателей, мониторинга и соответствия требованиям. Он объединяет их и при этом принципиально проще.

а. Данные часто разрознены в различных бизнес-приложениях, и доступ к ним затруднен и/или медленен. Точно так же организации больше не могут позволить себе ждать, пока данные будут загружены в хранилища данных, такие как хранилище данных с предопределенной схемой. С одной стороны, совокупные данные со временем становятся более ценными — по мере того, как вы собираете их больше. Агрегированные данные дают возможность оглянуться назад и увидеть полную историю аспекта вашего бизнеса, а также обнаружить тенденции. Данные в режиме реального времени наиболее ценны в момент их захвата. Напротив, вновь созданное или поступившее событие данных дает вам возможность принимать решения — в данный момент — которые могут положительно повлиять на вашу способность снижать риски, улучшать обслуживание ваших клиентов или снижать ваши операционные расходы.

б. От инфраструктуры, вложенной в сбор данных, до количества выделенных для этого человеческих ресурсов и того, насколько редким может быть их сбор в идеальных ситуациях, что делает данные одним из самых дорогих активов в наши дни. Отраслевая тенденция состоит в том, чтобы отказаться от крупных капиталовложений (капитальных затрат) для авансовой оплаты сетевых и серверных мощностей и перейти к операционным расходам «точно в срок» и «оплата за то, что вы используете» (эксплуатационные расходы). ) подход

в. Улучшение того, как вся ваша организация взаимодействует с данными. Данные должны быть легко обнаруживаемыми с доступом по умолчанию для пользователей в зависимости от их роли (ролей), расставлять приоритеты по вариантам использования, которые используют похожие или смежные данные. Если вашим инженерным командам необходимо выполнить работу, чтобы сделать данные доступными для одного варианта использования, ищите возможности, чтобы инженеры выполняли дополнительную работу, чтобы отображать данные для смежных вариантов использования.

д. MLOps (операции машинного обучения) — это активное управление производственной моделью и ее задачей, включая ее стабильность и эффективность. Другими словами, MLOps в первую очередь касается поддержания функции приложения ML за счет более качественных данных. , модель и операции разработчика. Проще говоря, MLOps = ModelOps + DataOps + DevOps.

e.Unified Analytics объединяет разрозненные миры науки о данных и инженерии с общей платформой, упрощая инженерам данных создание конвейеров данных в разрозненных системах и подготовку помеченных наборов данных для построения моделей, а также позволяя специалистам по данным исследовать и визуализировать данные и создавать моделируют совместно. Unified Analytics предоставляет единый механизм для подготовки высококачественных данных в больших масштабах и итеративного обучения моделей машинного обучения на одних и тех же данных. Unified Analytics также предоставляет возможности совместной работы для специалистов по данным и инженеров данных для эффективной работы на протяжении всего жизненного цикла ИИ.

Итак, теперь, когда мы определили проблемы/различия между двумя подходами, зачем нужна платформа, ориентированная на данные. Давайте рассмотрим возможности, необходимые для поддержки любых организаций, переходящих на подход, ориентированный на данные. Я здесь не для того, чтобы пропагандировать использование конкретного продукта или инструмента, а скорее для того, чтобы рассмотреть общие возможности, на которые следует обратить внимание, прежде чем принимать решение о сборке или покупке, и это не является жестко зафиксированным фактом, у каждого может быть своя траектория, совершенно отличная от Другая.

1. Обработка данных и управление ими

Поскольку основная часть инноваций в машинном обучении происходит в открытом исходном коде, обязательным условием является поддержка структурированных и неструктурированных типов данных с открытыми форматами и API. Система также должна обрабатывать и управлять конвейерами для KPI, обучения/вывода модели, дрейфа цели, тестирования и регистрации. Не все конвейеры обрабатывают данные одинаково или с одинаковым соглашением об уровне обслуживания. В зависимости от варианта использования для конвейера обучения могут потребоваться графические процессоры, для конвейера мониторинга может потребоваться потоковая передача, а для конвейера логического вывода может потребоваться онлайн-обслуживание с малой задержкой.

2.Безопасная совместная работа

Разработка машинного обучения в реальном мире — это кросс-функциональная работа — тщательное управление проектом и постоянное сотрудничество между группой обработки данных и заинтересованными сторонами в бизнесе имеют решающее значение для успеха. Контроль доступа играет здесь большую роль, позволяя нужным группам работать вместе над данными, кодом и моделями в одном месте, ограничивая при этом риск человеческой ошибки или неправомерных действий.

3.Тестирование

В идеале автоматизированные тесты снижают вероятность человеческой ошибки и помогают обеспечить соответствие требованиям. . Данные должны быть проверены на наличие конфиденциальных данных PII или HIPAA и перекоса обучения/обслуживания, а также порогов проверки для отклонений функций и целей. Модели должны быть проверены на базовую точность по демографическим и географическим сегментам, важность характеристик, предвзятость, конфликты входных схем и вычислительную эффективность.

4.Мониторинг

Регулярный надзор за системой помогает выявлять и реагировать на события, представляющие риск для ее стабильности и эффективности. Как быстро можно обнаружить сбой ключевого конвейера, устаревание модели или появление новой версии, вызывающей утечку памяти в рабочей среде? Когда в последний раз обновлялись все таблицы входных объектов или кто-то пытался получить доступ к данным с ограниченным доступом?

5.Воспроизводимость

Мы знаем, что режимы ИИ недетерминированы, поэтому важно проверять выходные данные модели, воссоздавая ее определение (код), входные данные (данные) и системную среду (зависимости). Если новая модель показывает неожиданно низкую производительность или содержит предвзятость в отношении сегмента населения, организации должны иметь возможность проверять код и данные, используемые для разработки функций и обучения, воспроизводить альтернативную версию и повторно развертывать.

6.Документация-

Документирование приложения машинного обучения расширяет операционные знания, снижает риск технического долга и выступает в качестве защиты от нарушений нормативных требований.