Из литературы хорошо известно, что производительность модели машинного обучения (ML) ограничена сверху качеством данных. В то время как исследователи и практики сосредоточились на повышении качества моделей (таких как поиск нейронной архитектуры и автоматический выбор функций), усилия по улучшению качества данных ограничены. Одним из важнейших требований перед использованием наборов данных для любого приложения является понимание имеющегося набора данных, и невыполнение этого требования может привести к неточной аналитике и ненадежным решениям. Оценка качества данных с помощью интеллектуально разработанных показателей и разработка соответствующих операций преобразования для устранения пробелов в качестве помогает уменьшить усилия специалиста по обработке и анализу данных для итеративной отладки конвейера машинного обучения для повышения производительности модели. Пожалуйста, смотрите блог здесь для более подробной информации по этой теме https://medium.com/@hima.m.patel/data-assessment-and-readiness-for-ai-1622a8e66b9e

Мы представим учебное пособие по этой теме на ACM KDD 2020 в воскресенье, 23 августа, с 20:30 до 12:30 (IST). В этом руководстве будет подчеркнута важность анализа качества данных с точки зрения их ценности для приложений машинного обучения. В этом учебном пособии рассматриваются все важные подходы, связанные с качеством данных, обсуждаемые в литературе, с упором на интуицию, стоящую за ними, подчеркивая их сильные стороны и сходства, а также иллюстрируя их применимость к реальным проблемам.

Мы разделили это руководство на три основные части. В частях (a) и (b), т. е. Качество данных для структурированных и неструктурированных данных, мы сначала обсудим важность и необходимость конвейера качества данных. Затем мы опишем современные методы, а также выделим их ограничения на ряде иллюстративных примеров. В части (c) о человеке в цикле (HIL) будет обсуждаться, как МСП могут легко проверить рекомендации, предоставленные различными показателями качества данных, и как мы можем учесть отзывы МСП, чтобы сделать конвейер качества данных более сильным.

Качество данных для структурированных данных

Стандартные решения, работающие со структурированными наборами данных, такие как AutoML, ориентированные на автоматизацию этапов разработки признаков и построения моделей, не учитывают качество входных данных для анализа. Следовательно, специалисты по данным тратят около 80% времени на подготовку данных или конвейер машинного обучения, поскольку проблемы с качеством данных неизвестны заранее, что приводит к итеративной отладке. Возникает естественный вопрос: можем ли мы определить стандартные метрики, которые позволят пользователю оценить качество данных. Определение таких показателей качества не только поможет оценить качество данных, которое напрямую влияет на результат модели, но также поможет пользователю доверять данным и обеспечит объяснимость различных аспектов качества данных, где оно нуждается в улучшении. В этом руководстве мы рассмотрим следующие 5 метрик в пространстве структурированных данных:

  1. Очистка данных. В рамках этой темы мы планируем ознакомить аудиторию с таксономиями очистки данных, упомянутыми в литературе, в которых обсуждаются проблемы качества данных с разной степенью детализации.
  2. Дисбаланс классов. В этом разделе мы по отдельности обсудим различные факторы, влияющие на несбалансированную классификацию входных данных.
  3. Шум меток. В этом разделе мы сосредоточимся на ответе на вопрос «Как мы можем определить эти ошибки меток и исправить их, чтобы лучше моделировать данные?».
  4. Оценка данных. В этой теме мы расскажем, как область оценки точек данных развивалась за период и как ее можно рассчитать различными способами.
  5. Однородность данных. В этой теме мы обсудим влияние неоднородности данных.
  6. Дисбаланс данных. В этом разделе мы обсудим различные факторы по отдельности, которые влияют на несбалансированную классификацию входных данных.

Качество данных для неструктурированных данных

Неструктурированные текстовые данные включают текст в произвольной форме, который можно увидеть в электронных письмах, эссе, письмах и т. д., или текст, извлеченный из форматированных или частично структурированных данных, таких как документы, сообщения/твиты в социальных сетях, обзоры продуктов, веб-страницы и т. д. Такое текстовое содержимое, хотя и наличие важных информационных подсказок, полезных для любого бизнеса, обычно не имеет структуры и не может быть легко использовано большинством моделей ИИ. Чтобы решить эту проблему, в последние годы большое распространение получил неструктурированный анализ текста. Стандартные методы автоматического извлечения и индексирования содержимого документов, задачи обработки естественного языка (NLP), такие как распознавание именованных сущностей, анализ настроений и т. д., широко применяются в отрасли для использования неструктурированного текста. Однако в связи с растущим объемом неструктурированного текста, который сегодня собирают организации, становится необходимым оценивать его качество, чтобы выполнять осмысленные задачи анализа текста, а также полезные модели искусственного интеллекта.

Человек в цикле (HIL)

В этом мы дадим обзор важности вмешательства человека в анализ качества данных и необходимости формализовать экспертный вклад наиболее эффективным по времени и затратам способом. Мы рассмотрим некоторые существующие инструменты очистки данных и определим способы их расширения и улучшения для поддержки HIL в жизненном цикле данных.

Подробности руководства https://researcher.watson.ibm.com/researcher/view_group.php?id=10456

Докладчики

Хима Патель

Нитин Гупта

Шашанк Муджумдар

Шазия Афзал

Соавторы

Абхинав Джайн, Локеш Нагалапатти, Самип Мехта, Шанмуха Гуттула, Рухи Шарма Миттал и Витобха Мунигала.

Если у вас есть новые идеи и вы хотите сотрудничать с нами, пожалуйста, свяжитесь с нами.