Может ли AutoML (автоматическое машинное обучение) стать ответом, позволяющим любому желающему (энтузиасту данных) создавать модели машинного обучения?

Кто такой энтузиаст данных?

  • разработчик программного обеспечения, который хочет попробовать машинное обучение
  • студент колледжа, мечтающий стать Data Scientist
  • корпоративный менеджер среднего звена, стремящийся улучшить свою игру
  • Аналитик, стремящийся дифференцировать свой набор навыков
  • многие другие…

AutoML экономит массу времени Data Scientist, автоматизируя подготовку данных, извлечение признаков, выбор модели и ее настройку. Но делает ли это машинное обучение легкодоступным для энтузиастов данных?

Ответ заключается в том, что это действительно зависит от инструмента AutoML, в котором есть широкий набор удобных для пользователя и не очень удобных для пользователя инструментов.

Вызов

Если вы не Data Scientist и просто хотите попробовать машинное обучение (и, эй, вы можете даже не писать код), я называю вас Data Enthusiast. Глядя на диаграмму ниже, энтузиастов данных намного больше, чем настоящих специалистов по данным (соотношение 20 к 1).

Реальность такова, что из 4 миллионов энтузиастов данных некоторые также обладают потрясающими знаниями в предметной области, и, если они оснащены правильными инструментами, они могут ускорить усилия по машинному обучению в организации.

Возможное решение

Инструменты AutoML обычно предназначены для одного из следующих (эта статья посвящена № 2):

  1. помочь существующим специалистам по данным стать более продуктивными, автоматизировав часть процесса построения модели
  2. дать энтузиастам данных возможность создавать модели машинного обучения

Не каждый инструмент AutoML является ответом, так как большинство инструментов ориентированы на № 1 или № 2. Глядя на сравнение 8 инструментов AutoML ниже, вы видите, что половина из них имеет «красный» рейтинг с точки зрения простоты использования, что не является хорошим кандидатом для энтузиастов данных.

Сравнение инструментов AutoML для энтузиастов данных

Есть много способов разделить множество инструментов пакетов AutoML (включая службы MLaaS), но я хотел сосредоточиться на трех важных соображениях для энтузиастов данных.

  • Простота использования (можно ли создавать без написания кода)
  • Бюджет (есть бесплатная и премиум версии). Пробная версия ‹› Бесплатно.
  • Настройка (например, интерактивные инструменты обработки данных, варианты доставки модели)

Это сравнение восьми инструментов AutoML на самом деле является сочетанием растущего списка решений AutoML и MLaaS, доступных сегодня. Включены некоторые крупные корпоративные игроки, такие как AWS ML, H2O и DataRobot. Также включены ваши электростанции с открытым исходным кодом, такие как Auto-Weka, Auto-Sklearn и TPOT. Группа была завершена многообещающими инструментами, созданными для энтузиастов данных с PredictiveData и MLJar.

При сравнении производительности 4 из 8 оцениваемых инструментов AutoML, вот как они складываются в титаническом наборе данных.

Сводка

AutoML демонстрирует огромные успехи в упрощении машинного обучения, и инструменты быстро совершенствуются. Это должно приблизить нас к использованию возможностей 4 миллионов энтузиастов данных, если вы сможете найти правильный баланс между простотой использования, бюджетом и настройкой.