Мое интервью с тремя специалистами по обработке данных и ведущими экспертами по автоматизации

Сейчас много говорят об автоматизированном машинном обучении. Также существует высокий уровень скептицизма.

Я здесь с аналитиками данных Паоло Таманьини, Саймоном Шмидом и Кристианом Дитцем, чтобы задать несколько вопросов по этой теме с их точки зрения, и я нашел эту концепцию управляемой автоматизации также весьма интересной, поскольку он принимает непосредственное участие в практике автоматизированного машинного обучения.

Розария Силипо: Что такое автоматизированное машинное обучение?

Кристиан Дитц: Автоматизированное машинное обучение - это создание системы, процесса или приложения, способных автоматически создавать, обучать и тестировать модели машинного обучения с минимальным участием человека. Цикл CRISP-DM был введен почти 20 лет назад и теперь представляет собой устоявшийся процесс со стандартными шагами, такими как подготовка данных, разработка функций и оптимизация функций, обучение модели, оптимизация модели, тестирование модели и развертывание, которые являются общими для большинство проектов в области науки о данных. Цель автоматизации - как можно больше исключить человеческое взаимодействие на этих этапах.

Для этого существуют разные алгоритмы и стратегии, которые различаются по сложности и производительности, но основная идея состоит в том, чтобы дать бизнес-аналитикам возможность обучить большое количество моделей и предоставить лучшую с помощью небольшого количества настроек.

Обычно мы говорим только об автоматизации машинного обучения, но на самом деле речь идет о том, чтобы автоматизировать как можно больше этапов цикла, а не только обучение / выбор моделей. Например, также начинают появляться приложения для автоматизации обработки данных или визуализации данных.

Розария: Может ли автоматическое машинное обучение действительно полностью автоматизировать цикл науки о данных без вмешательства экспертов?

Саймон Шмид: Это сложный вопрос! Некоторые говорят, что это возможно, некоторые говорят, что нет.

На мой взгляд, автоматизированное машинное обучение может полностью автоматизировать цикл Data Science для стандартных задач Data Science. Вы знаете сценарий: у вас есть некоторые данные, данные довольно общие и хорошо описывают проблему, никаких несбалансированных классов. Вы выбираете модель, обучаете ее на обучающем наборе и оцениваете на тестовом наборе. Если производительность приемлемая, вы ее развертываете. Никаких серьезных сюрпризов. В этом случае можно автоматизировать весь цикл, даже введя несколько дополнительных шагов оптимизации.

Однако более сложные проблемы Data Science, вероятно, потребуют некоторой доли участия человека или экспертов.

Например, эксперт в предметной области может добавить некоторые уникальные знания об обработке и фильтрации данных, прежде чем продолжить процесс машинного обучения. Кроме того, когда область данных становится более сложной, чем простые табличные данные, например, включая текст, изображения или временные ряды, эксперт в области данных может внести свой вклад, используя специальные методы для подготовки данных, разделения данных и проектирования функций.

По сути, ответ на ваш вопрос - иногда. Именно по этой причине наша команда работает с фреймворком, который допускает оба варианта. Вы можете запустить полностью автоматизированный цикл или принять решение вмешиваться в определенные моменты по пути. Эта функция предлагается с помощью функции, называемой Управляемая аналитика. Управляемая аналитика позволяет вам перемежать рабочий процесс точками взаимодействия и, таким образом, направлять приложение для обработки данных в разных направлениях, если это необходимо.

Розария: вы уже описали это, но я думаю, что нашим читателям будет полезно узнать несколько дополнительных деталей. Не могли бы вы рассказать нам больше о управляемой аналитике?

Паоло Таманьини: управляемая аналитика - это гибкое добавление точек взаимодействия в конвейер данных, то есть между последовательностью шагов, которые данные проходят во время анализа. Когда вы разрабатываете приложение для обработки или анализа данных, вы разрабатываете его не только для себя, но и для других людей. Итак, чтобы дать кому-либо возможность настроить процесс анализа, вы должны добавить несколько точек взаимодействия в стратегических точках на всем протяжении конвейера.

Конвейер данных также называется рабочим процессом, а точки взаимодействия - это веб-страницы, которые легко создаются без каких-либо сценариев с помощью обернутых метанодов. Например, в приложении для создания отчетов вы можете попросить пользователя выбрать временное окно или KPI для отображения; в приложении обработки данных вы можете спросить, какие источники данных следует объединить вместе и какие функции следует создать; в приложении с машинным обучением вы можете попросить пользователя указать целевую переменную, а также входные переменные, модель (модели), которую следует обучить, и необходимость выполнения проектирования функций.

Розария: Итак, Guided Automation - это ваша интерпретация приложения для автоматизированного машинного обучения. Вы можете вкратце описать, как это работает?

Кристиан: Управляемая автоматизация - это то, что получается, когда вы объединяете управляемую аналитику с автоматическим машинным обучением. Вы можете гибко попросить бизнес-аналитика добавить свой опыт, когда это необходимо, и, следовательно, автоматизировать стандартные части анализа. Правильный объем автоматизации и взаимодействия зависит от проблемы. Иногда вы можете продолжить работу с вариантами по умолчанию, а иногда вам нужны дополнительные данные, чтобы уточнить и направить процесс.

Общие точки взаимодействия в управляемой аналитике для приложений автоматизированного машинного обучения - это когда данные загружаются и выбирается цель с указанием, какие функции должны использоваться в качестве входных и какие модели обучаются, в то время как автоматизация включает в основном оптимизацию гиперпараметров и выбор функций. Вы также можете добавить дополнительные точки взаимодействия, например, чтобы настроить разработку функций или выбрать среду выполнения для настраиваемой масштабируемости.

Процесс, охватывающий точки автоматизации и взаимодействия, показан на диаграмме ниже. Мы следовали общему рецепту на этой диаграмме при реализации рабочего процесса проекта для управляемой автоматизации.

Розария: Этот план управляемой автоматизации ... это программное решение, которое я могу купить?

Паоло: Купить? Нет, это бесплатно! Как и все рабочие процессы с примерами и схемами, с которыми мы работаем. Все, что вам нужно сделать, это загрузить копию с открытым исходным кодом, запустить ее, открыть EXAMPLES Server, найти схему в 50_Applications / 36_Guided_Analytics_for_ML_Automation, перетащить ее в свою ЛОКАЛЬНУЮ рабочую область, а затем вы можете автоматизировать процесс машинного обучения на своем собственные данные. Пожалуйста, не стесняйтесь настраивать его. В конце концов, это план, и вы можете улучшить его и адаптировать к своей задаче в области науки о данных, чтобы добиться максимальной производительности.

Розария: Прекрасно! Нужно ли мне специальное программное обеспечение для правильной работы с планом управляемой автоматизации?

Паоло: Абсолютно нет. На сервере KNIME вы можете получить доступ к точкам взаимодействия удаленно из любого веб-браузера, что весьма полезно. Но используя бесплатную платформу аналитики с открытым исходным кодом, вы также можете запускать схему, получать доступ к точкам взаимодействия и взаимодействовать с рабочим процессом через встроенный клиентский веб-браузер.

Розария: Где я могу узнать, как настроить план для управляемой автоматизации?

Паоло: Как правило, вы можете начать с бесплатного электронного курса. Там вы можете узнать больше о том, как получить доступ к данным, как выполнять операции ETL и как отображать графики и диаграммы.

Спасибо Кристиану, Паоло и Саймону за ваше время и четкие ответы! Теперь я знаю больше об общей концепции автоматизированного машинного обучения, управляемой аналитики, и созданном вами проекте, управляемой автоматизации.

Впервые опубликовано в Dataversity.