Методы успешного машинного обучения / искусственного интеллекта

Секретный соус машинного обучения: курирование

Ваши успехи в машинном обучении и, в более широком смысле, искусственном интеллекте - это не приложения Sexy… Успех зависит от работы, которую никто никогда не увидит!

Широко заявлено, что данные - это новая нефть, и, как и нефть, данные нуждаются в правильной обработке, чтобы они могли развиваться и использоваться идеально. Мощность моделей машинного обучения будет в значительной степени зависеть от качества данных; Я здесь ничего нового не говорю.

По мере того как разработка ИИ и его последующих приложений становится все более распространенной, инженеры машинного обучения повсюду сталкиваются с мрачной реальностью. Как только заинтересованные стороны преодолевают предубеждения или скептицизм и, наконец, принимают участие, идентифицируют вариант использования с доказанной рентабельностью инвестиций и теперь готовы перейти на корабль ИИ, курированием данных обычно пренебрегают и страдают от того, что оно не привлекает должное значение - часто из-за быстрого победный менталитет и то, что это не сексуально!

Даже внутри технологических групп существует множество предположений, что ИИ нужно только снабжать данными, собранными и объединенными в больших количествах; в большинстве случаев это имеет серьезные неприятные последствия. Неточные наборы данных могут иметь разные формы, начиная от фактически неверной информации и заканчивая пробелами в знаниях и неверными рекомендациями. Среди многих других проблем неупорядоченный набор данных может быть:

  • Пристрастие: недавно несколько популярных ИИ, используемых для распознавания изображений, продемонстрировали тревожные гендерные и расовые предубеждения.
  • Неточные, ненадежные или неверно представленные
  • Ошибочные или неоднозначные

Общеизвестно, что отсутствие использования уточненных или тщательно отобранных необработанных наборов данных снижает качество функций и ограничивает оценку и применение задач передачи. Итак, как следует обращаться с наборами данных таким образом, чтобы они точно служили той цели, которая необходима для работы машинного обучения, это во многом зависит от вариантов использования, которые пытаются решить инженеры машинного обучения.

Типы наборов данных для машинного обучения

Инженеры машинного обучения полагаются на данные на каждом этапе своего пути к ИИ - от выбора модели, обучения и тестирования. Эти наборы данных обычно подпадают под три классификации:

  • Учебные наборы
  • Проверочные наборы
  • Наборы для тестирования.

Каждый проект машинного обучения начинается с двух категорий наборов данных; набор обучающих данных и набор данных тестирования.

  • Набор обучающих данных используется для обучения алгоритма, реализации концепций, обнаружения и получения результатов.
  • Данные тестирования используются для проверки достоверности набора обучающих данных. Данные обучения не используются для тестирования, потому что они дадут ожидаемые результаты.

Потребность в данных для машинного обучения

Специалисты по обработке данных собирают данные из различных источников, объединяют их в одну форму, проверяют, обрабатывают, архивируют, сохраняют, извлекают и выражают их.

Процесс кураторства наборов данных для машинного обучения начинается задолго до их использования.

Мое предложение:

  • Определите цель ИИ
  • Определите, какой набор данных вам понадобится для решения проблемы
  • Создайте запись своих гипотез при выборе данных
  • Стремиться к сбору разнообразных и значимых данных как из внешних, так и из внутренних источников
  • Создавайте наборы данных, которые сложно скопировать вашим конкурентам (защищенность)

Если у вас небольшой набор данных, применение модели, предварительно обученной на больших наборах данных, может быть отличным подходом и использовать ваш небольшой набор данных для точной настройки.

После того, как вы накопили правильные данные, вы можете продолжить создание обучающего набора. Этот шаг приведения данных в оптимальный формат называется преобразованием признаков и включает четыре этапа:

Форматирование. Обнаружение данных бывает в разных форматах. Форматирование сведет все на один лист. Например, данные потребителя могут иметь разные валюты, семантику и так далее. Они должны быть скомпилированы в одном формате для единообразия фундамента.

Маркировка: маркировка гарантирует, что набор данных работает для выбранной конкретной модели. Например, автономному автомобилю требуются данные, помеченные как изображения автомобилей, пешеходов, дорожных знаков, пешеходных дорожек.

Очистка. Неоптимальные символы необходимо удалить, а отсутствующие значения обрабатываются в зависимости от необходимости.

Извлечение: несколько функций проверены и оптимизированы - функции, которые необходимы для прогнозирования и более быстрых вычислений и меньшего потребления памяти.

Итог

Только набор данных может гарантировать успех или неудачу модели машинного обучения. Курирование данных - один из фундаментальных аспектов машинного обучения, и при правильном применении он может раскрыть огромный потенциал. Методы и последующие процессы могут потребовать много времени; однако это будет гарантировать калибровку вашего набора данных с целями вашего машинного обучения на каждом этапе.

Внедрение процессов курирования данных в вашу группу данных, и следующие процедуры покажутся трудоемкими и дорогостоящими в краткосрочной перспективе; Следовательно, организации должны тщательно проанализировать текущие цели и разработать стратегию для поддержки актуальности курирования как функции. Управляемые услуги и неконтролируемые методы, обученные на основе тщательно отобранных данных, доступны и продаются консалтинговыми и технологическими фирмами, будьте осторожны и внимательно выбирайте; это сыграет ключевую роль в вашем будущем искусственного интеллекта.