Взгляд на подготовку данных и маркировку для ИИ

В сегодняшнем посте мы хотим поговорить о подготовке данных и маркировке для ИИ. Одна из вещей, о которой те, кто знаком с искусственным интеллектом и машинным обучением, точно знают, что мусор на входе — это мусор на выходе, и что в алгоритме искусственного интеллекта нет никакой магии — ИИ не может понять или понять, что происходит. Вы должны рассказать это, вы должны обучить это; вы должны научить его, особенно для определенных видов машинного обучения, таких как контролируемое машинное обучение, когда вы специально обучаете систему распознавать изображения или делать все, что вы хотите, чтобы ИИ делал, приводя примеры этих изображений или что-то еще, что вы хотите делать.

Со временем система будет учиться на этих примерах. Так что, если вы скармливаете системе машинного обучения плохие примеры, плохо отформатированные примеры, дубликаты, система выдаст очень неудовлетворительные результаты. Поэтому мы хотим провести некоторое исследование, чтобы выяснить, что происходит на рынке вокруг двух аспектов решения этой проблемы с мусором: один из них — подготовка данных — сбор и обработка всех вещей из разных источников и их очистка. А затем другой — маркировка — собственно работа, которую необходимо выполнить для подготовки. Это специально для контролируемых форм машинного обучения. Но есть и другие применения для этого.

Данные — это основа проектов искусственного интеллекта и машинного обучения.

Данные имеют решающее значение для обучения, тестирования, проверки и поддержки алгоритмов машинного обучения, которые, как вы знаете, лежат в основе систем искусственного интеллекта. Частично причина популярности ИИ связана с сочетанием практически безграничных облачных вычислений, почти безграничной доступности больших данных, позволяющих обучать эти модели машинного обучения, и эволюции алгоритмов глубокого обучения. Большие данные также подпитывают эти почти безграничные вычисления. Последние 2 из этих 3 причин зависят от данных, то есть это большие данные для их обучения моделям машинного обучения и эволюции алгоритмов глубокого обучения. На самом деле, чем больше данных вы можете предоставить своим алгоритмам ИИ, тем лучше они работают и тем значительнее результаты машинного обучения.

Большинство людей осознали, что недостаточно просто иметь много данных. Идея состоит в том, чтобы иметь много чистых данных. Но есть проблема со сбором чистых данных…

Организация данных из нескольких источников данных, которые находятся в нескольких форматах, которые не обязательно согласованы. Слышали ли вы когда-нибудь о 4 V больших данных — их скорости, достоверности, объеме и разнообразии (вы могли бы подумать о 5 V — ценности). Таким образом, в основном нужно убедиться, что у вас достаточно данных — их объем, вам нужно убедиться, что скорость — убедиться, что ваша информация меняется с разной скоростью — у вас есть потоковые данные. Проблема достоверности, которая заключается в том, что вы не знаете, верны ли некоторые данные, они могут быть устаревшими. Другая проблема заключается в попытке передать все эти данные из озера данных.

Основная причина неудач проектов машинного обучения не имеет ничего общего с алгоритмами, которые, честно говоря, довольно хороши. Исследователи работают над ними, вы получаете такие компании, как Google, Microsoft, Facebook, Amazon, и вы можете быть уверены, что их алгоритмы хороши. Таким образом, неудачи машинного обучения имеют мало общего с алгоритмами или кодом, который их поддерживает, или даже с вашим выбором поставщика технологий. Я имею в виду, они все великолепны, верно?

Так что проблема и неудачи искусственного интеллекта почти всегда возвращаются к вопросам качества данных. Итак, было упомянуто ранее о мусоре на входе и выходе мусора. И это действительно большая часть. И компании ищут помощь и поддержку, чтобы справиться со всеми этими аспектами объединения данных и их подготовки, что называется подготовкой данных для использования в системах машинного обучения ИИ.

В нашем исследовании мы обнаружили, что более 80% времени, затрачиваемого на проекты ИИ, тратится на обработку данных. Еще более важно, и это может удивить некоторых читателей, насколько трудоемкой на самом деле является большая часть этой работы по подготовке данных.

Чтобы контролируемые формы машинного обучения работали, особенно подходы многоуровневой нейронной сети глубокого обучения, они должны быть снабжены большими объемами примеров правильных данных, которые должным образом аннотированы или помечены, как мы любим это называть, с желаемыми результатами. .

Так, например, если вы пытаетесь заставить свой алгоритм машинного обучения правильно идентифицировать изображение, которое мы чаще всего называем изображением кошки, мы будем использовать эти примеры. Если вы пытаетесь заставить свой алгоритм машинного обучения идентифицировать кошку, нам нужно передать этому алгоритму тысячи изображений кошек, которые должным образом помечены как кошки, и на изображениях не должно быть посторонних или неверных данных. В противном случае он отбросит модель, потому что все, что она смотрит только на пиксели изображений, которых она не знает, потому что вы ее не обучили. Таким образом, чтобы привести данные в правильную форму и сделать так, чтобы вы действительно могли с ними работать, на самом деле требуется много шагов. Это не 1 или 2, а 10 или 12 вещей, которые вам нужно сделать.

Итак, мы рассмотрим некоторые из этих шагов, и они являются обязательными, чтобы убедиться, что ваши данные машинного обучения имеют правильный формат. Итак, одна из вещей, которые вам нужно сделать, это удалить или исправить неверные данные или устранить дубликаты. Данные, особенно в корпоративной среде, собранные из многих источников, действительно чрезвычайно грязны, очень грязны. Я имею в виду, что у него плохие имена и неправильная адресная информация с ошибками, всевозможные дубликаты данных, особенно если вы собираете данные из нескольких источников. Это большая проблема с CRM-системами — системами управления взаимоотношениями с клиентами — может происходить утечка информации с мероприятия, информация о лидах с веб-сайта, информация о загрузке, различное написание вашего имени, разные заказы и капитализация. Поэтому вам нужно решить все это, если вы собираетесь использовать это в модели машинного обучения. Вы должны действительно сосредоточиться на плохих данных!

Вам также необходимо стандартизировать и отформатировать данные. Данные могут поступать разными путями. Изображения — они могут быть самых разных размеров, форм, форматов, цветов, глубины цвета, просто разных форматов. Таким образом, чтобы использовать что-либо из этого для проектов машинного обучения, данные должны быть представлены точно таким же образом, иначе вы получите непредсказуемые результаты. Я имею в виду, что вы не можете просто передать изображения кошек — у вас должно быть именно такое количество пикселей. Каждое изображение должно иметь именно это; в противном случае система просто обрежет его. Так что, если нужно накормить его тысячами изображений, это много работы в том же формате, чтобы работать.

И, конечно же, у нас есть вторая проблема, которая заключается в достоверности, которая обновляет устаревшую информацию, поэтому мы не хотим сосредотачиваться на таких проблемах, как обучающие данные, которые не актуальны. Потому что тогда, конечно, у нас будут модели машинного обучения, которые также устарели. И поэтому мы не хотим смешивать данные, особенно если вы пытаетесь запустить предиктивную аналитику. Это как, знаете, иметь фотографию кота 1972 года, и я не думаю, что кошки сильно изменились с тех пор, но если вы делаете модели прогнозной аналитики для таких вещей, как цены на жилье, данные 1970-х годов, они полностью устарели.

Данные могут устареть, если люди переезжают, женятся и меняют фамилию, если у них есть дети. Я имею в виду, многое может произойти всего за несколько лет. Следующее, что вам нужно сделать, это улучшить и дополнить ваши данные. Поэтому иногда вам нужны дополнительные данные, чтобы заставить модель машинного обучения работать, например, для расчета полей или дополнительных исходных данных, чтобы получить больше от существующих наборов данных, которые у вас есть в настоящее время. И если у вас недостаточно данных изображения, например, вы можете умножить, перевернув изображение или повернув изображение, чтобы вы могли обмануть систему, заставив ее думать, что это новое изображение, когда это просто то же самое изображение, перевернутое определенное способ. Так что это также помогает улучшить набор данных.

И другое дело - шум. Люди особенно думают о шуме изображения как о плохих пикселях. Некоторые из вещей, которые вы хотите сделать, это удалить это, потому что вы тренируете свою систему. Или же он будет тренироваться на каждом пикселе изображения. Итак, одна из важных вещей — шумоподавление. Но фактическое шумоподавление применимо ко всем формам данных, а не только к данным изображения, оно применимо и к аудиоданным. Так что, если вы собираетесь тренироваться на голосовых вещах, вы должны удалить все посторонние нерелевантные фоновые шумы, такие как даже статические звуки, иначе вы будете тренировать их на статических звуках. Когда вы записываете, кто-то с особым акцентом, и он смог распознать акцент этого человека, но на самом деле это было просто распознавание шума в микрофоне. И поэтому в следующий раз, когда кто-то заговорит в тот же микрофон с тем же гулом, он может подумать, что это тот же акцент, или тот язык, или что-то в этом роде. Так что вы должны быть осторожны. Да, системы не знают, верно? Также присутствует шум в текстовых данных или данных базы данных, просто посторонние вещи, которые просто бесполезны. Это большая проблема. Если вы пытаетесь заполнить множество полей, например, у вас есть большая электронная таблица Excel с 1000 строками, возможно, 20 из 100 являются важными. Те старые 980 рядов — это шум, и вы тренируете его на шуме, так что вам нужно быть осторожным.

Еще одна вещь, которую вы хотите сделать, это анонимизировать и устранить предвзятость ваших данных. Итак, вы хотите удалить всю ненужную личную информацию, PII из наборов данных машинного обучения, а также удалить ненужные данные, которые могут повлиять на алгоритмы. Мы не совсем знаем, как работают некоторые из этих систем глубокого обучения.

Еще одна вещь, которую вам нужно сделать, это нормализовать данные, что означает, что вам нужно, если у вас есть данные, выходящие за диапазоны, как вы знаете, например, диапазоны заработной платы, вам нужно как бы стандартизировать их, особенно при большом количестве входных данных. для разных алгоритмов потребуется, чтобы вы находились между 0 и 1 или -1 или немного разделены на диапазон. Таким образом, вы должны найти какой-то способ, чтобы получить их в свой диапазон. Некоторые алгоритмы гораздо более чувствительны к этому.

В противном случае вы захотите сделать выборку данных, особенно если у вас очень большие наборы данных, вам нужно будет выбрать те данные, которые используются для этапов обучения, тестирования и проверки. И вы также захотите извлечь несколько образцов, чтобы убедиться, что данные представлены в соответствии с тем, что вы знаете о сценарии реального мира.

И еще одна вещь связана с улучшением функций, то есть с выбором функций. Обычно это одна из задач алгоритмов машинного обучения, заключающаяся в том, что они выясняют, какие функции изображения являются соответствующими, будь то распознавание границ или что-то в этом роде. Вы можете улучшить определенные аспекты текста, чтобы в основном сделать его более чувствительным к определенным вещам, даже если это немного человеческая работа — улучшить его, чтобы сделать его более надежным. Так или иначе, задач много разных и все это относится к области подготовки данных. Вы можете себе представить, что выполнение всех этих шагов с банками данных, гигабайтами, терабайтами данных требует много времени, энергии, много человеческого труда, если вы используете для этого людей, и это особенно верно, если у вас есть делать это снова и снова, потому что много раз в первый раз, когда мы обучаем модели, это не сработает. Или иногда вы хотите обновить эту модель, особенно если вы занимаетесь прогнозной аналитикой данных о жилье. Вы должны делать это постоянно, пока ситуация не стабилизируется, чего никогда не произойдет.

Существует большое движение к использованию сторонних инструментов, которые действительно помогают упростить это. У сторонних поставщиков, включая Melissa Data, Paxata и Trifacta, есть продукты, которые могут выполнять вышеуказанную подготовку данных для больших объемов данных в масштабе. Мы не проверяем их или что-то в этом роде. Мы только что говорили о том, какими были решения для тех, кто ищет примеры поставщиков, предоставляющих решения в космосе, чтобы системы машинного обучения могли учиться, их необходимо обучать с данными, которые представляют то, что система должна знать. .

Итак, мы говорили об этом ранее, если вы хотите обучить его на изображениях кошек, ему нужно передать данные о кошках. И, очевидно, как подробно описано в шагах выше, данные должны быть не только хорошего качества, они также должны быть помечены правильной информацией, о которой мы говорили, простое наличие кучи фотографий кошек не тренирует системе, если только вы не скажете системе, что на картинках изображены кошки. Так вот как вы это называете. Или, если вы хотите получить более конкретную информацию, вы можете знать, скажем, это определенная порода кошек, а не просто животное или не просто кошка, например, вы говорите, что это определенный тип кошек, какой бы ни была эта кошка, может быть. это может быть тигр. Таким образом, компьютеры не могут сами ставить эти ярлыки на изображения. Так что это проблема курицы и яйца. Как вы можете пометить изображение, если вы не передали системе помеченные изображения для ее обучения?

Ответ заключается в том, что нам нужен какой-то метод для надежной маркировки этих изображений. Ахиллесова пята ИИ — это, по сути, маркировка данных о силе человека. Таким образом, маркировка данных вашей человеческой силой является действительно необходимым компонентом для любой модели машинного обучения, которую необходимо обучать на данных, которые еще не были помечены. Растет число поставщиков, которые предоставляют рабочую силу по запросу, чтобы помочь с этой маркировкой, поэтому компаниям не нужно создавать собственный персонал или опыт, особенно когда вы начинаете с нуля.

Мы обнаружили, что в 2018 году компании тратили на это как минимум 750 миллионов долларов. Внутренняя маркировка показывает, сколько они выделяют и закладывают в бюджет для внутренней маркировки данных в соответствии с исследованиями. Ожидается, что к 2030 году эта цифра вырастет до более чем 2 миллиардов долларов. Таким образом, за последние несколько лет мы стали свидетелями того, как в ландшафте появляются поставщики, предоставляющие сторонние этикетки, чтобы компаниям не приходилось выполнять для этого внутреннюю работу. .

В конце концов, появится большое количество уже обученных нейронных сетей, которые организации смогут использовать в своих собственных модельных целях или расширить путем переноса обучения в новые приложения. Но до этого времени организациям приходится сталкиваться с работой, в которой доминируют люди, связанной с маркировкой данных, которая занимает до 25% общего времени и мощности проекта машинного обучения.

Даже при всей этой активности по подготовке и маркировке данных ИИ будет влиять на этот процесс. Все чаще фирмы, занимающиеся подготовкой данных, используют ИИ для автоматического определения шаблонов данных, автономной очистки данных, применения нормализации и дополнения на основе ранее изученных шаблонов и, при необходимости, агрегирования данных на основе предыдущих проектов машинного обучения. Точно так же машинное обучение применяется к маркировке данных, чтобы ускорить процесс, предлагая потенциальные метки, применяя ограничивающие рамки и иным образом ускоряя процесс маркировки. Таким образом, ИИ применяется, чтобы помочь сделать будущие системы ИИ еще лучше.

Данные лежат в основе искусственного интеллекта и машинного обучения. Таким образом, ожидается, что в ближайшие годы потребность компаний в хороших, чистых, хорошо размеченных данных только возрастет. Это не исчезнет в ближайшее время. В какой-то момент в ближайшем будущем для организаций будут доступны предварительно обученные нейронные сети, как я уже говорил ранее, но пока этого нет. Так что до тех пор компаниям придется инвестировать в программное обеспечение для подготовки данных и маркировки данных. Мы подумали, что важно иметь этот пост, потому что подготовка данных и маркировка находятся на нижнем уровне, то есть на уровне инфраструктуры искусственного интеллекта и машинного обучения. А на нижнем уровне есть технологии, которые являются широкими и общими и помогают разрабатывать и внедрять машинное обучение ИИ и широкий спектр когнитивных технологий. Решения не обязательно специально созданы для ИИ, но они предоставляют необходимые базовые инфраструктурные технологии от поставщиков, специализирующихся на этой инфраструктуре.

Так как данные лежат в основе ИИ, если у вас есть мусорные данные, вы получите мусорные результаты. Так что это действительно фундаментальный слой, на котором все строится. И именно поэтому для нас так важно иметь этот пост, потому что я думаю, что самый большой вывод из него заключается в том, что данные лежат в основе ИИ, и вам нужны хорошие чистые, хорошо помеченные данные, чтобы получить любую информацию. типа точный результат.