Введение в автоматизированное машинное обучение с помощью Auto-Sklearn ⚙️

Согласно книге Практическое автоматизированное машинное обучение (AutoML), AutoML призван упростить процесс построения моделей машинного обучения путем автоматизации часто используемых шагов, таких как предварительная обработка признаков, выбор модели и настройка гиперпараметров. `. Естественно, высокий уровень автоматизации AutoML позволяет неспециалистам использовать модели и подходы машинного обучения, не имея предварительного глубокого знакомства с машинным обучением. Что касается тенденций, AutoML был ведущей тенденцией в индустрии машинного обучения и исследовательском сообществе в 2019 году. См. график ниже; AutoML находится в разделе «Пик завышенных ожиданий, что указывает на то, что раннее знакомство с ним приводит к ряду историй успеха. Некоторые предприятия действуют немедленно, в то время как другие ждут, пока технология принесет значительную пользу. Тем не менее, тенденция очевидна, и сообщество возлагает большие надежды на эту технологию.

Независимо от причин, по которым люди так увлечены AutoML, по моему скромному мнению, AutoML в ближайшие годы значительно изменит то, как люди работают в области научных исследований и промышленности. Как специалист по данным в LittleBigCode, я бы с удовольствием ежедневно использовал AutoML по двум конкретным причинам: (1) это позволяет мне сосредоточиться на более сложных аспектах моего проекта машинного обучения, в то время как AutoML часами работает в фоновом режиме, чтобы найти оптимальную комбинацию. ; (2) позволяя мне преодолеть мои текущие знания, открывая новые алгоритмы, с которыми я не знаком, если анализ AutoML заключает, что он является наиболее точным. Таким образом, повышая доверие к вашему проекту, демонстрируя, что в наборе данных были оценены многочисленные комбинации.

В следующей статье мы представим AutoML как с Auto-Sklearn, так и без него. Его определение с последующей иллюстрацией и кратким изложением темы. Auto-Sklearn был выбран среди многих других, таких как MLBox, TPOT, H2O AutoML, Auto-KERAS (поиск нейронной архитектуры), TransmogrifAI, Auto-WEKA, JAD-BIO, Auto-PYTORCH (поиск нейронной архитектуры) и т. д., потому что он был признан мощным фреймворком в сообществе среди многочисленных ML-конкурсов. Это не означает, что одна структура лучше другой, но сообщество, окружающее Auto-Sklearn, сравнимо с сообществом Scikit-learn, и поэтому имеет смысл предложить новичкам AutoML такой доступный инструмент, как Scikit-Learn. Тем не менее, каждый из вышеупомянутых инструментов, а также оставшиеся на рынке инструменты заслуживают изучения, чтобы определить их применимость к вашему варианту использования. Auto-Sklearn в основном используется для классификации и регрессии и не использует глубокое обучение, дополнительную информацию см. ниже.

Что определяет автоматизированное машинное обучение?

Понятие автоматизированного машинного обучения обсуждалось в литературе; тем не менее, для новых и опытных исследователей предмета достаточно следующего определения с точки зрения его описания и долгосрочной цели:

AutoML предназначен для автоматического составления и параметризации алгоритмов машинного обучения в конвейеры машинного обучения с целью оптимизации некоторой заданной метрики. Как правило, подконвейеры базовой системы Auto-ML связаны с двумя компонентами: первый — это предварительная обработка (выбор признаков, преобразование, вменение и т. д.), а второй — алгоритм. выбор (классификация, регрессия и т. д.). Современные технологии включают две самые популярные контролируемые автоматизированные системы машинного обучения: Auto-Sklearn (на основе Scikit Learn [1]) и Auto -Weka (на основе WEKA [2]) [3, 4]. Контролируемая система AutoML математически описывается следующим образом:

Где f — лучшее обобщение задачи. f также идентичен тому, что мы называем полной моделью или конвейером [5, 6]. Конвейер создается с помощью 𝜐, который обозначает алгоритм обучения с учителем (например, XGBoost, Random Forest и т. д.) и θ𝜐, который обозначает гиперпараметры алгоритма обучения с учителем. . Φобозначает метод предварительной обработки (например, передискретизация/импутирование признаков и т. д.) и, если применимо, θΦ(X) гиперпараметры, связанные с выбранным методом предварительной обработки. Наконец, система AutoML попытается определить оптимальное сочетание метода предварительной обработки и алгоритма обучения, а также их соответствующие гиперпараметры с учетом набора данных, обозначенного D.

В двух словах, система оптимизации поиска AutoML предназначена для выполнения (1) оптимизации оценок и предикторов (т. е. выбора алгоритма) [7]; (2) оптимизация алгоритмов обучения и их гиперпараметров (т. е. оптимизация гиперпараметров) [8, 9, 6, 4]; и (3) оптимизация алгоритмов метаобучения [10, 3].Методы предварительной обработки подлежат тому же процессу оптимизации, но основаны на подмножестве методов, разработанных специально для предварительной обработки.

Каковы дополнительные проблемы AutoML? (НАЛИЧНЫЕ/HPO/SMAC/NAS/АО)

Теперь, когда AutoML объяснен, давайте кратко рассмотрим подзадачи, которые он решает для достижения своей основной цели — оптимизации моделирования выбора и его гиперпараметров:

Комбинированный алгоритм и выбор гиперпараметров (CASH) и оптимизация гиперпараметров (HPO)

Проблема CASH [11] связана с автоматическим и одновременным выбором алгоритма обучения и его параметров, тогда как проблема HPO связана с предоставлением наилучшего возможного экземпляра модели из вектора выбранных алгоритмов. Таким образом, комбинация этих двух несколько неоспорима. Вкратце процедуру CASH можно объяснить тем, что она рассматривает каждый алгоритм как гиперпараметр, оптимизируя эти гиперпараметры, предоставляя набор лучших алгоритмов для данного набора данных. С другой стороны, HPO учитывает наилучшие выходные данные CASH, предоставляя конвейер алгоритмов и их гиперпараметров, и пытается настроить каждый набор гиперпараметров в его наилучшем возможном экземпляре.

Задачи CASH и HPO требуют проверки большого количества гипотез и выбора наиболее точной из них как наилучшей прогностической модели для данной обучающей выборки. Учтите, например, что все алгоритмы на основе леса (Decision Tree, Random Forest, XGBoost, Deep Forest и т. д.) имеют как минимум десять гиперпараметров, каждый из которых может принимать десять различных значений; таким образом, проверка пространств конфигурации CASH и HPO для одного алгоритма требует 1010 перестановок. Следовательно, настройка n алгоритмов с j гиперпараметрами может быть весьма дорогостоящей.

Последовательная конфигурация алгоритма на основе модели (SMAC)

SMAC [18, 19, 20] — универсальный инструмент HPO, который помогает создателям алгоритмов оптимизировать гиперпараметры. Эта многообещающая стратегия строит многообещающую конфигурацию с использованием древовидного/локального поиска, сравнивает все возможные конфигурации с помощью метода Random Online Adaptive Racing (ROAR) [12], а затем выявляет наиболее точную комбинацию гиперпараметров, обнаруженную для алгоритма и данного набора данных.

Поиск нейронной архитектуры (NAS) и оптимизация архитектуры (AO)

Задача NAS состоит в том, чтобы спроектировать высокопроизводительную нейронную архитектуру путем выбора и комбинирования основных операций [13, 14, 15, 16]. Задачи классификации направлены на выбор лучшего алгоритма и гиперпараметров, в то время как задачи NAS оценивают лучшую архитектуру нейронной сети для конкретного набора данных. АО, с другой стороны, является подкомпонентом NAS и также рассматривается как метод оптимизации поиска нейронной архитектуры. Впервые он был представлен в приложении Баррета Зофа и Куока Ле [27], в котором использовалось обучение с подкреплением для обучения рекуррентной нейронной сети автоматическому поиску наиболее эффективной архитектуры. АО состоит из обучения с подкреплением, алгоритмов на основе эволюции, градиентного спуска, оптимизации на основе суррогатной модели и гибридных подходов АО [17]. Он определяет идеальный дизайн NAS, оптимизируя заданную архитектуру (т. е. количество слоев, скорость обучения и т. д.). Примерно его можно рассматривать как HPO для проблемы CASH (т. е. метод оптимизации). В результате одной из многообещающих сред, сочетающих NAS и AO, является Auto-KERAS или Auto-Pytorch.

Хотя мы определили жаргон, Auto-Sklearn основан на проблемах CASH/HPO и SMAC, поэтому в оставшейся части статьи мы сосредоточимся в первую очередь на них:

Что такое Auto-Sklearn?

Первоначальный выпуск пакета auto-Sklearn в 2015 году лабораторией искусственного интеллекта Фрайбургского университета был направлен на улучшение байесовской оптимизации посредством метаобучения. Фреймворк использует 15 классификаторов, 14 методов обработки признаков и 3 метода предварительной обработки данных, всего 132 гиперпараметра. Существует две версии этого фреймворка: 1.0 [18] и 2.0 [19]. Основными улучшениями первой версии AutoML были его производительность CASH и HPO, тогда как основным улучшением второй версии было включение более простого и эффективного подхода к метаобучению.

Присуждены призы

Auto-Sklearn получил свою первую награду на первом всемирном конкурсе AutoML Challenge, где он превзошел конкурирующие фреймворки в некоторых подзадачах, но не во всех; тем не менее, он по-прежнему занимал первое место в конкурсе, проводившемся с 2015 по 2016 год [20, 21, 22, 23]. У них было несколько месяцев, чтобы улучшить свою структуру, чтобы они могли вернуться в следующем году и по-прежнему преуспевать, и они это сделали. В 2017–2018 гг. они стали победителями второго международного конкурса AutoML [24, 25, 26].

Предварительно настройте алгоритмы для поиска

Ниже приведен список предварительно настроенных алгоритмов, доступных в Auto-Sklearn:

AdaBoost ; Bernoulli naive Bayes ; decision tree ; extreml. rand. trees ; Gaussian naive Bayes ; gradient boosting ; k-Nearest Neighbour ; LDA ; linear SVM ; kernel SVM ; multinomial naive Bayes ; passive aggressive ; QDA ; random forest ; Linear Classification.

Его архитектура

Прежде чем углубиться в архитектуру, Auto-Sklearn требует ряда параметров, включая два отдельных пороговых значения. Один относится к порогу, при достижении которого останавливается процесс настройки данного алгоритма (т.е. HPO), а другой, который можно считать глобальным порогом, представляет собой процесс поиска алгоритмов (т.е. CASH). Теперь, говоря об архитектуре. В двух словах, (1) пользователь предоставляет конвейеру необработанные данные, которые должны быть разделены на наборы для обучения и тестирования. (2)Затем выполняется этап метаобучения, который является одним из самых больших достижений этой платформы в области AutoML, поскольку он, грубо говоря, использует сходство вашего набора данных с некоторыми уже известными из литературу/интернет, и, если есть совпадение, список методов, которые хорошо зарекомендовали себя в таком наборе данных, передается в качестве приоритета для их изучения в конвейере. Затем, независимо от того, будут ли результаты шага метаобучения. (3)Мы входим в цикл оптимизации: (a)случайно выбираем препроцессор данных, (b)случайно выбираем функцию препроцессор, и (c) мы случайным образом выбираем классификатор, а затем используем байесовский оптимизатор для оптимизации их гиперпараметров, пока не будет достигнут порог субконвейера. Этот цикл повторяется для каждого доступного классификатора до тех пор, пока не будет достигнут общий порог, после чего конвейер останавливается и (4) создает ансамбль всех комбинаций подконвейеров, ранжируя их от наиболее точных до наименее точных. на основе заданной пользователем метрики. В результате пользователю предоставляется наилучшая модель и/или вероятность предсказания набора тестов для классов.

Простая классификация рака молочной железы с использованием Auto-Sklearn

В настоящее время Auto-Sklearn доступен только через Python, поэтому мы предполагаем, что он у вас уже установлен. По поводу установки и совместимости с ОС смотрите здесь. Кроме того, мы загружаем данные из баз данных sklearn, поэтому в этой статье мы не используем данные на основе RGPD.

Рассмотрим пример, чтобы проиллюстрировать, насколько просто использовать эту структуру. Здесь мы предскажем набор данных рака молочной железы, который является классическим и чрезвычайно простым набором данных бинарной классификации (см. больше):

Сначала мы загружаем наши данные в разделы, по умолчанию 75 процентов для обучающего набора и 25 процентов для тестового набора. После этого мы создаем экземпляр классификатора Auto-Sklearn (версия 1.0 здесь) и используем три различных параметра, но в документации можно увидеть больше:

Время, оставшееся до выполнения этой задачи: максимальное количество секунд, разрешенное для поиска во всей воронке. Увеличивая это значение, auto-sklearn имеет больше шансов обнаружить более совершенные модели. Кроме того, это глобальный порог, поэтому если ввести 54 000 секунд, процедура будет искать оптимальную модель в течение следующих пятнадцати часов. Однако вам следует тщательно обдумать это значение, потому что если вы будете искать слишком много, вы можете переопределить свои данные(дополнительную информацию о переобучении и automl см. в [28]).
Ограничение времени выполнения. Ограничение времени одного вызова модели машинного обучения. Подгонка модели будет прекращена, если алгоритм машинного обучения превысит лимит времени. Установите это значение достаточно высоким, чтобы типичные алгоритмы машинного обучения могли быть приспособлены к обучающим данным. Кроме того, если для этого параметра задано слишком высокое значение, теоретически общий конвейер может попытаться использовать меньшее количество классификаторов, поскольку предыдущий параметр также может сработать. Как пользователь, вы должны найти хороший баланс.
Ограничение памяти: ограничение памяти в МБ для алгоритма машинного обучения. Auto-sklearn перестанет соответствовать алгоритму машинного обучения, если попытается выделить более memory_limit МБ.
Обратите внимание, что документация содержит множество других аргументов, таких как метрика для оптимизации в конвейере и т. д.

Наконец, вы готовы получить оптимальный результат поиска воронки; обратите внимание, что в демонстрационных целях мы просто выводим здесь точность модели-чемпиона. Тем не менее, документация содержит множество более конкретных и разнообразных результатов, которые вы можете получить:

Обсуждение и вывод

AutoML сыграет свою роль в будущем машинного обучения, но он не лишен недостатков. Вот несколько вещей, которые я наблюдаю в отношении AutoML:

AutoML заменит data-scientist. Многие практикующие считают, что AutoML заменит их в ближайшем будущем, из-за чего некоторые отвергают эту дисциплину. Однако у меня есть сомнения в том, что это так. Я считаю, что мы, как люди, в конечном итоге решаем, какие результаты достаточно жизнеспособны для производства и развертывания, поэтому нас не заменит автоматизированное машинное обучение, а скорее мы будем использовать его как инструмент в нашей повседневной деятельности и развивать новые способы концентрации внимания в наших соответствующих профессиях.
Данные по-прежнему являются самой важной вещью. Вы можете вводить любые необработанные данные в конвейер, но без какой-либо предварительной обработки или дополнительного понимания данных не будет хороших результатов. Это может быть крайне неудобно для неспециалистов, таких как практикующие врачи. Даже если у них может быть обучение предварительной обработке данных, оно может быть не таким обширным, как у специалистов по машинному обучению. Как следствие, с этой точки зрения AutoML несколько сложен для неспециалистов.
Метрика прогнозирования — единственная цель. В профессии специалиста по данным модель прогнозирования не всегда является единственным желаемым. Как правило, если вы хотите определить, какие функции вашего набора данных являются наиболее важными, AutoML в настоящее время не может создать такой список, поэтому есть доступные приемы, но не очень простые для неспециалистов. Еще один последний пример: если вам нужна объяснимая модель чемпиона, она еще не достижима по умолчанию, хотя она необходима для неспециалистов, таких как практикующие врачи. Тем не менее, имейте в виду, что недавно был разработан и опубликован конвейерный профилировщик для Auto-Sklearn [29].
Замена моего старого доброго случайного леса. Возможно, не обязательно. Однако рекомендуется всегда запускать случайный лес с 1000 деревьев и остальными параметрами по умолчанию, чтобы установить базовый уровень, с которым можно сравнить выходные данные конвейера AutoML. Он может заменить его, а может и не заменить, если используемая вами система AutoML не может точно прогнозировать ваши события.

Несмотря на ограничения, применение этой ветви машинного обучения в вашей миссии и проекте может быть чрезвычайно полезным. В качестве заключительного замечания я надеюсь, что теперь вы понимаете терминологию AutoML и функционирование auto-sklearn, важного фреймворка среди многих других. Я также надеюсь, что вы продолжите изучение AutoML. Тем не менее, я хотел бы отметить, что в области AutoML еще предстоит проделать дальнейшую работу, особенно с несбалансированными данными, которые распространены в области медицины, но еще не в области AutoML, а также метод прогнозирования множественных -меточное обучение в отличие от бинарного, что представляет собой еще более сложную задачу. Следовательно, в AutoML все еще есть ряд неизведанных подобластей, и это только начало надежной подобласти машинного обучения.

Если у вас есть какие-либо вопросы или вы хотите поделиться своим опытом, не стесняйтесь оставлять комментарии 🥳

Саймон 🔬