Разработка признаков — это ресурсоемкий процесс машинного обучения. Исследователи данных тратят много времени на этот шаг. Это важная часть конвейера машинного обучения. В процессе разработки функций специалисты по данным используют свои знания в предметной области для создания независимых переменных или функций. С помощью этих функций алгоритмы машинного обучения могут лучше интерпретировать данные и создавать более точные модели.

До сих пор проектирование признаков было ручным процессом. Однако такие инструменты, как Featuretools, библиотека Python с открытым исходным кодом для разработки функций, позволяют автоматизировать этот процесс. Это меняет способ обучения машинному обучению. Это приведет к более быстрым и эффективным процессам машинного обучения.

Разработка функций: от ручного к автоматическому

Специалисты по данным используют собранные данные для обучения алгоритмов машинного обучения. Входные данные с известными выходными данными подаются в систему для создания моделей. Но входные данные должны быть разумными.

Если входные данные случайны и разбросаны, то модели машинного обучения будут давать ошибочные или некачественные результаты. Поэтому специалисты по данным создают новые функции из необработанных данных, чтобы помочь алгоритмам машинного обучения. Этот процесс создания функций из наборов данных называется проектированием функций.

Однако ручное объединение миллионов точек данных из нескольких таблиц базы данных в единую таблицу признаков — утомительная работа. Это также отнимает много времени и подвержено ошибкам. Поэтому автоматизация кажется естественным следующим шагом.

Преимущества автоматизированного проектирования признаков

Автоматизированная разработка функций создает несколько функций-кандидатов из необработанного набора данных. Специалисты по данным могут использовать лучших кандидатов для обучения моделей машинного обучения.

Вот некоторые из основных преимуществ автоматизированного проектирования функций:

Сокращает время моделирования. Большинство задач по разработке функций повторяются. Таким образом, автоматизация может ускорить процесс моделирования. В некоторых случаях это может привести к увеличению скорости в 10 раз.

Исключает ошибки. Человеческие ошибки могут привести к неисправным функциям. В результате специалистам по данным приходится тратить время на переработку функций. Автоматизация избавляет от возможности человеческих ошибок.

Высокое качество. При ручном производстве скорость обычно связана с потерей качества. Но в автоматизированной разработке признаков нет необходимости идти на компромисс между скоростью и качеством. Благодаря устранению человеческих ошибок конечные результаты, как правило, лучше. Это приводит к более высокой производительности в прогностических моделях.

Будущее

В настоящее время автоматизированная разработка признаков дает слишком много вариантов. Специалисты по данным должны выбирать правильных специалистов для обучения своих моделей. Но инструменты совершенствуются с каждым днем. В будущем автоматизированные инструменты разработки функций будут создавать более целенаправленные варианты. Это еще больше улучшит скорость и производительность процессов разработки признаков и облегчит специалистам по обработке и анализу данных обучение моделей машинного обучения.

Первоначально опубликовано на сайте premhirubalan.com 29 августа 2018 г.