Может ли AutoML (автоматическое машинное обучение) стать ответом, позволяющим любому желающему (энтузиасту данных) создавать модели машинного обучения?
Кто такой энтузиаст данных?
- разработчик программного обеспечения, который хочет попробовать машинное обучение
- студент колледжа, мечтающий стать Data Scientist
- корпоративный менеджер среднего звена, стремящийся улучшить свою игру
- Аналитик, стремящийся дифференцировать свой набор навыков
- многие другие…
AutoML экономит массу времени Data Scientist, автоматизируя подготовку данных, извлечение признаков, выбор модели и ее настройку. Но делает ли это машинное обучение легкодоступным для энтузиастов данных?
Ответ заключается в том, что это действительно зависит от инструмента AutoML, в котором есть широкий набор удобных для пользователя и не очень удобных для пользователя инструментов.
Вызов
Если вы не Data Scientist и просто хотите попробовать машинное обучение (и, эй, вы можете даже не писать код), я называю вас Data Enthusiast. Глядя на диаграмму ниже, энтузиастов данных намного больше, чем настоящих специалистов по данным (соотношение 20 к 1).
Реальность такова, что из 4 миллионов энтузиастов данных некоторые также обладают потрясающими знаниями в предметной области, и, если они оснащены правильными инструментами, они могут ускорить усилия по машинному обучению в организации.
Возможное решение
Инструменты AutoML обычно предназначены для одного из следующих (эта статья посвящена № 2):
- помочь существующим специалистам по данным стать более продуктивными, автоматизировав часть процесса построения модели
- дать энтузиастам данных возможность создавать модели машинного обучения
Не каждый инструмент AutoML является ответом, так как большинство инструментов ориентированы на № 1 или № 2. Глядя на сравнение 8 инструментов AutoML ниже, вы видите, что половина из них имеет «красный» рейтинг с точки зрения простоты использования, что не является хорошим кандидатом для энтузиастов данных.
Сравнение инструментов AutoML для энтузиастов данных
Есть много способов разделить множество инструментов пакетов AutoML (включая службы MLaaS), но я хотел сосредоточиться на трех важных соображениях для энтузиастов данных.
- Простота использования (можно ли создавать без написания кода)
- Бюджет (есть бесплатная и премиум версии). Пробная версия ‹› Бесплатно.
- Настройка (например, интерактивные инструменты обработки данных, варианты доставки модели)
Это сравнение восьми инструментов AutoML на самом деле является сочетанием растущего списка решений AutoML и MLaaS, доступных сегодня. Включены некоторые крупные корпоративные игроки, такие как AWS ML, H2O и DataRobot. Также включены ваши электростанции с открытым исходным кодом, такие как Auto-Weka, Auto-Sklearn и TPOT. Группа была завершена многообещающими инструментами, созданными для энтузиастов данных с PredictiveData и MLJar.
При сравнении производительности 4 из 8 оцениваемых инструментов AutoML, вот как они складываются в титаническом наборе данных.
Сводка
AutoML демонстрирует огромные успехи в упрощении машинного обучения, и инструменты быстро совершенствуются. Это должно приблизить нас к использованию возможностей 4 миллионов энтузиастов данных, если вы сможете найти правильный баланс между простотой использования, бюджетом и настройкой.