Важность наборов данных в машинном обучении и исследованиях ИИ

Большинство из нас в настоящее время сосредоточены на построении моделей машинного обучения и решении проблем с существующими наборами данных. Но сначала нам нужно понять, что такое набор данных, его важность и роль в создании надежных решений для машинного обучения. Сегодня у нас есть множество наборов данных с открытым исходным кодом, чтобы проводить исследования или создавать приложения для решения реальных проблем во многих областях.

Однако отсутствие качественных и количественных наборов данных вызывает озабоченность. Данные значительно выросли и будут продолжать расти более высокими темпами в будущем. Итак, как мы используем огромные объемы данных в исследованиях ИИ? Здесь мы обсудим способы разумного использования существующего набора данных или создания правильных наборов данных для заданных требований.

Что такое набор данных в машинном обучении?

Набор данных представляет собой набор различных типов данных, хранящихся в цифровом формате. Данные являются ключевым компонентом любого проекта машинного обучения. Наборы данных в основном состоят из изображений, текстов, аудио, видео, точек числовых данных и т. д. для решения различных задач искусственного интеллекта, таких как

Классификация изображений или видео
Обнаружение объекта
Распознавание лица
Классификация эмоций
Речевая аналитика
Анализ настроений
Прогноз фондового рынка и т. д.

Почему набор данных важен?

У нас не может быть системы искусственного интеллекта с данными. Модели глубокого обучения требовательны к данным и требуют большого количества данных для создания лучшей модели или системы с высокой точностью. Качество данных так же важно, как и их количество, даже если вы реализовали отличные алгоритмы для моделей машинного обучения. Следующая цитата лучше всего объясняет работу модели машинного обучения.

Мусор в мусоре на выходе (GIGO): если мы отправим некачественные данные в модель машинного обучения, она даст аналогичный результат.

Согласно отчету The State of Data Science 2020, подготовка и понимание данных — одна из самых важных и трудоемких задач жизненного цикла проекта машинного обучения. Опрос показывает, что большинство специалистов по данным и разработчиков искусственного интеллекта тратят почти 70% своего времени на анализ наборов данных. Остальное время тратится на другие процессы, такие как выбор модели, обучение, тестирование и развертывание.

Ограничение наборов данных

Поиск качественного набора данных является фундаментальным требованием для создания основы любого реального приложения ИИ. Однако наборы данных реального мира сложны, беспорядочны и неструктурированы. Производительность любой модели машинного обучения или глубокого обучения зависит от количества, качества и актуальности набора данных. Непростая задача найти правильный баланс.

Для нас большая честь иметь большой массив наборов данных с открытым исходным кодом за последнее десятилетие, что побудило сообщество и исследователей ИИ проводить современные исследования и работать над продуктами с поддержкой ИИ. Несмотря на обилие наборов данных, всегда сложно решить новую постановку задачи. Ниже приведены основные проблемы наборов данных, которые ограничивают специалистов по данным в создании более качественных приложений ИИ.

Недостаточно данных — отсутствие больших выборок точек данных, необходимых для алгоритмов машинного обучения.
Предвзятость и человеческая ошибка. Большинство инструментов, используемых для сбора данных, приводят либо к человеческой ошибке, либо к предвзятости в отношении одного аспекта.
Качество. Реальные наборы данных неорганизованы и сложны. Они низкого качества практически по умолчанию.
Конфиденциальность и соответствие. Большинство источников не делятся своими данными из-за некоторых правил конфиденциальности и соответствия. Например, медицина, национальная безопасность и т. д.
Процесс аннотаций данных. Обычно вмешательство человека используется для ручной маркировки наборов данных по качеству, что приводит к ошибке. Это долго и дорого.

Как создавать наборы данных для ваших проектов машинного обучения?

Поток приложения искусственного интеллекта изображен на диаграмме ниже. Первые два компонента — это раздел получения наборов данных и аннотации данных, которые имеют решающее значение для понимания создания хорошего приложения машинного обучения.

В настоящее время у нас есть достаточно ресурсов, где мы можем получить наборы данных в Интернете как с открытым исходным кодом, так и за плату. Как вы знаете, сбор и подготовка данных — это суть любого проекта по машинному обучению, и на этот этап уходит большая часть нашего драгоценного времени.

Для решения постановки задачи с помощью Машинного обучения у нас есть два варианта. Либо мы используем существующие наборы данных, либо создаем новый. Для очень конкретной постановки задачи вы должны создать набор данных для предметной области, очистить его, визуализировать и понять актуальность для получения результата. Однако, если формулировка проблемы является общей, вы можете использовать следующие платформы наборов данных для исследования и сбора данных, которые лучше всего соответствуют вашим требованиям.

Лучшие платформы поисковых систем для наборов данных для задач машинного обучения

Ниже приведен список нескольких платформ наборов данных, которые позволяют нам искать и загружать данные для проектов и экспериментов машинного обучения. Большинство наборов данных уже очищены и разделены для конвейера проектов машинного обучения и искусственного интеллекта. Однако мы должны фильтровать и использовать их в соответствии с нашими спецификациями.

Пользовательский набор данных может быть создан путем сбора нескольких наборов данных. Например, если мы хотим создать приложение для обнаружения кухонного оборудования, нам нужно собрать и пометить изображения соответствующего кухонного оборудования. Для маркировки изображений мы можем запустить кампанию по сбору данных, поощряя пользователей отправлять или маркировать изображения на платформе. Они могут быть оплачены или вознаграждены за задание. Вот несколько вариантов, которые можно использовать для быстрого получения данных в соответствии с вашими требованиями.

Создавайте наборы реальных данных, создав мобильное приложение для захвата изображений или используя существующее приложение.
Создайте веб-приложение и одну страницу и подключите ее к своему веб-сайту. Попросите пользователей аннотировать данные для вознаграждения. (платформы с открытым исходным кодом, например, коллекция аудио для ссылки/кода приложения ASR.)
Создайте внутреннюю команду для составления набора данных.
Amazon Mechanical Turk также является отличным вариантом для краудсорсинговых задач с минимальными затратами.
Нанимайте студентов или добровольцев из исследовательского сообщества для участия в сборе данных.
Подпишите соглашение с поставщиками данных для получения конфиденциальных наборов данных, таких как медицинские записи (наборы данных EHR), рентгеновские снимки или МРТ и т. д. Как правило, больницы связываются с исследовательскими институтами для таких проектов.

Синтетический набор данных создается с использованием компьютерных алгоритмов, которые имитируют наборы данных реального мира. Этот тип набора данных показал многообещающие результаты в экспериментах, проведенных для создания моделей глубокого обучения для создания более обобщенных систем ИИ. Для создания набора данных можно использовать различные методы.

В настоящее время исследователи и разработчики используют игровые технологии для воспроизведения реалистичных сценариев. Единство игровой платформы используется для создания наборов данных, представляющих особый интерес, а затем используется для производства реальных данных. Отчет Unity показывает, что синтезированный набор данных можно использовать для повышения производительности моделей. Например, модели компьютерного зрения используют синтетические изображения для быстрого повторения экспериментов и повышения точности.

Генеративно-состязательные сети (GAN) также используются для создания синтетических наборов данных. Это архитектуры моделей на основе нейронных сетей, используемые для создания реалистичных наборов данных. В большинстве случаев использования требуется конфиденциальность и конфиденциальность данных. Следовательно, эти сети используются для создания конфиденциального набора данных, который трудно получить или собрать из общедоступных источников.

Расширение данных широко используется путем изменения существующего набора данных с небольшими изменениями его пикселей или ориентации. Это полезно, когда у нас заканчиваются данные для нашей нейронной сети. Тем не менее, мы не можем применять метод аугментации к каждому варианту использования, так как это может изменить реальный результат. Например, в наборе данных медицинского домена мы не можем добавить больше данных из необработанного источника, поскольку он чувствителен к регистру и может в конечном итоге генерировать нерелевантные данные. Это затруднит нашу модель и вызовет больше проблем. Некоторые широко используемые методы увеличения:

Прокладка
Случайное вращение
Изменение масштаба
Вертикальное и горизонтальное перелистывание перевода
Обрезка
Масштабирование
Затемнение и осветление/цвет и т. д.

Заключение

За последние несколько лет данные прошли долгий путь от исчисляемых чисел до бесчисленных точек данных. Данные генерируются быстрее, чем когда-либо. Но мы можем контролировать качество точек данных, что приведет к успеху наших моделей ИИ.

В конце концов, наборы данных — это основная часть любого проекта машинного обучения. Понимание и выбор правильного набора данных имеет основополагающее значение для успеха проекта ИИ.