Современные инструменты разработки данных и влияние качества данных на результаты машинного обучения

ML нас окружает! От здравоохранения до образования, он применяется во многих областях, влияющих на нашу повседневную деятельность, и может принести множество преимуществ.

Качество данных играет очень важную и значительную роль в разработке решений искусственного интеллекта - точно так же, как старый «мусор на входе, мусор на выходе» - мы можем легко понять важность качества данных и его потенциальное влияние на такие решения, как обнаружение рака или системы автономного вождения. .

Но, как это ни парадоксально, данные, вероятно, самый недооцененный и менее разрекламированный из ИИ. К счастью, после нескольких серьезных ошибок мирового масштаба, гламур возвращается к данным с появлением инструментов разработки данных.

Разработка данных

Много говорят обо всех преимуществах и великих вещах, которые может дать машинное обучение. Тем не менее, цифры, с которыми сталкиваются многие организации, чтобы получить отдачу от инвестиций в ИИ, продолжают появляться.

Это ложь? Или в потоке машинного обучения есть недостающий элемент, который гораздо важнее, чем мы думали?

Ответ прост и однозначен: качество данных.

Качество данных имеет много разных аспектов, в частности, данные для разработки машинного обучения имеют свои собственные требования к качеству. В области разработки машинного обучения появляется множество новых инструментов, которые вызывают большой интерес к MLOps и способам решения существующих организационных проблем для успешного внедрения ИИ в производственную среду. Но как насчет качества данных?

Качество данных можно увидеть и измерить по-разному на разных этапах потока - качество данных в потоке машинного обучения начинается с определения данных, необходимых для измерения дрейфа данных, который может повлиять на модели в производстве, как показано на рисунке ниже.

В сегодняшнем сообщении блога мы сосредоточимся на одном из этих шагов: подготовке данных.

Подготовка данных

Хотя это не так привлекательно, как построение модели, подготовка данных является одним из самых важных, но также и одним из наиболее трудоемких процессов разработки науки о данных. Время, затрачиваемое на этот шаг командам специалистов по анализу данных, может варьироваться в зависимости от размера компании и вертикали, но, согласно последнему отчету Anaconda, это все еще один из этапов науки о данных, который

«(…) Отнимает драгоценное время от реальной работы по науке о данных и отрицательно сказывается на общей удовлетворенности работой. (…) »

Подготовка данных включает в себя множество различных шагов, начиная от доступа к данным и заканчивая выбором функций:

  • Доступ к данным: начало каждого проекта в области науки о данных начинается со сбора данных для ответа на ряд бизнес-вопросов (или, по крайней мере, должен!), но иногда этот процесс может занять немного больше времени, чем ожидалось. - либо данные не существуют и требуется настроить процессы инженерии данных, либо слишком много уровней безопасности блокируют прозрачный доступ к данным. Такие решения, как дифференциальная конфиденциальность, синтетические данные и федеративное обучение, являются жизнеспособными вариантами для смягчения проблем, связанных с доступом к данным.
  • Пополнение данных: в некоторых случаях доступные наборы данных слишком малы для использования в моделях машинного обучения. Могут помочь такие решения, как обрезка данных, поворот, обработка окон или синтетические данные.
  • Очистка данных: от вменения отсутствующих значений до несоответствий, данные полны ошибок, которые необходимо соответствующим образом очистить и предварительно обработать. В зависимости от типа данных этот процесс может быть не только длительным, но и очень сложным.
  • Маркировка данных. Чаще всего в наборах данных отсутствуют метки или доступное количество слишком мало для использования контролируемых методов обучения. От решений на основе правил до синтетических данных есть несколько новых опций, которые могут помочь командам по анализу данных разобраться в этом.
  • Проверка данных: как мы можем гарантировать качество данных, с которыми мы работаем? Как после всей подготовки измерить пользу от примененных преобразований? Постоянная оценка качества данных на протяжении всего процесса разработки имеет решающее значение для оптимизации принимаемых решений - от одномерного понимания распределений до проверки полезности и влияния данных для разработки модели.
  • Разработка функций: последний этап процесса подготовки данных. Здесь бизнес-знания также пригодятся для процесса извлечения функций, где команды по анализу данных могут определенно проявить себя. В конце концов, более актуальные и эффективные функции для бизнеса также повлияют на объяснимость последующих моделей.

Тем не менее, на этом этапе процесса машинного обучения предстоит еще многое сделать, и, как указано в последнем отчете Workbench, венчурной компании, специализирующейся на данных для предприятий, подготовка данных, без сомнения, является недостающей частью множества различных инструменты, доступные в сфере машинного обучения, и их новое название - DataPrepOps.

DataPrepOps - это культура и практика в области науки о данных и машинного обучения, которая включает в себя набор шагов, направленных на создание набора обучающих данных (DataPrep) для операций системы машинного обучения (Ops).

Заключение

Теперь, когда мы уверены и уже испытали влияние качества данных на модели машинного обучения (пример здесь), может появиться новая парадигма - разработка данных - все потому, что низкое качество данных может иметь огромные последствия во многих различных контекстах.

Цена низкого качества данных не только напрямую влияет на бизнес, особенно на более позднем этапе (модели, разработанные с использованием неверных данных, уже находятся в разработке), но также сильно влияет на продуктивность и эффективность групп по анализу данных.

DataPrepOps или инструменты разработки данных - это недостающие части процесса разработки машинного обучения. В сочетании с подходящими инструментами из стека инфраструктуры ИИ, такими как хранилища функций и платформы развертывания моделей, инструменты разработки данных могут помочь организациям использовать ИИ в качестве конкурентного преимущества, используя свой истинный ценный актив - свои данные.

Фабиана Клементе - директор по развитию YData.

Ускорение ИИ с помощью улучшенных данных.

YData предоставляет первую платформу разработки данных для групп специалистов по анализу данных.