Ни для кого не секрет, что методы машинного обучения сильно зависят от качества данных, которые они получают на входе. Если вы думаете о машинном обучении как о производственном процессе, то чем выше качество входных данных, тем выше вероятность того, что конечный продукт также будет высокого качества. Эти отношения представляют собой большую проблему для аналитических команд, когда дело доходит до выяснения правильных данных для решения бизнес-задач. Этим командам необходимо подготовить все наборы данных, чтобы в процессе машинного обучения не было ошибок. Это включает в себя установку стандартов качества и исправление таких проблем с данными, как пропущенные значения или столбцы с низкой статистической дисперсией, а также выбор правильных типов данных, удаление повторяющихся данных и многое другое. В этом может помочь автоматическое машинное обучение.

[Статья по теме: Что менеджеры и лица, принимающие решения, должны знать об автоматизированном машинном обучении?]

Согласно исследованию CrowdFlower, подготовка и очистка данных занимают примерно 60% времени специалистов по обработке данных и аналитиков. При этом не учитывается время, необходимое для первого сбора и агрегирования данных, необходимых для решения данной проблемы. Однако подготовка данных имеет решающее значение, поскольку эффективность алгоритмов машинного обучения напрямую зависит от качества входных данных, а также их соответствия варианту использования. Поэтому неудивительно, что специалисты по данным и другие профессионалы в области данных тратят бесчисленные часы на сбор данных и устранение проблем в них, чтобы алгоритмы давали наилучшие результаты.

Чтобы удовлетворить эту потребность, SparkCognition ™ разработала платформу Darwin ™, продукт для автоматизированного машинного обучения, который позволяет пользователям быстро создавать прототипы сценариев использования и достигать результатов быстрее, чем традиционные методы науки о данных. Дарвин ускоряет науку о данных в масштабе, позволяя вам оценить качество вашего набора данных и посоветовать вам, как исправить проблемы, чтобы сделать его пригодным для процесса построения модели. Затем Дарвин автоматизирует трудоемкие задачи, которые варьируются от создания и оптимизации модели до развертывания модели и непрерывного обслуживания. Таким образом, Дарвин стремится ускорить цикл обработки данных за счет продуктивных рабочих процессов автоматизации.

Подготовка данных для машинного обучения

Как только данные поступают, Darwin предлагает рабочий процесс управляемой подготовки данных, который поможет вам заранее обнаружить потенциальные проблемы в вашем наборе данных. Эти проблемы могут включать столбцы с отсутствующими данными, столбцы с низкой дисперсией или столбцы со слишком большим количеством категорий. Дарвин также предлагает предложения по более подходящим типам данных для решения данной проблемы. Во время этого процесса Дарвин дает ряд рекомендаций о том, как решать эти проблемы, чтобы убедиться, что данные полезны для процесса автоматического построения модели.

Оценка общего качества ваших данных

Когда набор данных принимается, Дарвин автоматически запускает анализ данных, чтобы иметь возможность дать качественную оценку в отношении его полезности для процесса науки о данных. Эта оценка строится на основе столбцов, которые можно использовать напрямую, отмеченных зеленым; столбцы, требующие предварительной обработки, отмечены желтым цветом; и столбцы, которые будут отброшены, отмечены красным.

Столбцы, отмеченные желтым цветом, обычно содержат такие проблемы, как отсутствие данных или предложения по различным типам данных, которые могут лучше работать для решения данной проблемы. Дарвин автоматически выберет лучший метод решения этих проблем. В случае отсутствия данных Дарвин предложит лучший метод вменения на основе типа данных столбца. Эти методы также могут быть изменены пользователем, чтобы эффективно создавать различные профили очистки данных и, в конечном итоге, влиять на процесс построения модели.

Столбцы, отмеченные красным, обычно содержат большое количество отсутствующих данных, большое количество уникальных категориальных значений или низкую статистическую дисперсию. Дарвин автоматически удалит эти столбцы из попыток построения модели, чтобы убедиться, что они не мешают работе алгоритмов машинного обучения. Таким образом, Дарвин направляет пользователей во время начальных задач подготовки данных, чтобы создать профиль очистки данных и убедиться, что набор данных будет полезен на следующих этапах процесса анализа данных.

Данные о качестве = модели качества

Когда набор данных готов к работе, Дарвин начинает автоматизированный процесс построения модели с запатентованным сочетанием эволюционных алгоритмов и методов глубокого обучения. Этот метод специализируется на обнаружении новых элегантных сетевых архитектур, а также поддерживает гиперпараметрический поиск распространенных алгоритмов, таких как Random Forest и XGBoost. Дарвин сначала берет результат этапа подготовки данных, чтобы автоматизировать следующие основные шаги:

  • Выполнение профиля очистки данных
  • Генерация функций для обогащения набора данных
  • Построение контролируемой или неконтролируемой модели

[Статья по теме: Прошлое, настоящее и будущее автоматизированного машинного обучения]

Для построения модели, вместо того, чтобы просто выбирать лучшего участника в турнире предопределенных алгоритмов или чертежей, Дарвин использует итеративный генетический процесс, чтобы отредактировать топологии построения моделей, которые оптимизируются с каждым проходящим поколением. Такой подход к автоматизированному машинному обучению позволяет эффективно создавать уникальные решения, которые правильно и точно отражают ваши данные, переводя их в более качественные прогнозы.

Качественные модели = более быстрая эксплуатация

Начиная с высококачественных наборов данных, вы получаете лучшие модели, но также ускоряете циклы развертывания. Автоматизированные рабочие процессы Дарвина, связанные с качеством данных и созданием моделей, позволяют быстрее обрабатывать варианты использования, позволяя организациям быстрее вводить в действие результаты работы групп науки о данных и инноваций. Эти рабочие процессы также служат основой для последующих задач в жизненном цикле моделей, включая мониторинг их работоспособности, переобучение с использованием новых данных и непрерывное обслуживание. Такой подход эффективно превращает организации в фабрики вариантов использования, которые эффективно работают со своими данными, чтобы положительно повлиять на то, что имеет значение: на чистую прибыль.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.