Согласно книге Практическое автоматизированное машинное обучение (AutoML), AutoML призван упростить процесс построения моделей машинного обучения путем автоматизации часто используемых шагов, таких как предварительная обработка признаков, выбор модели и настройка гиперпараметров. `. Естественно, высокий уровень автоматизации AutoML позволяет неспециалистам использовать модели и подходы машинного обучения, не имея предварительного глубокого знакомства с машинным обучением. Что касается тенденций, AutoML был ведущей тенденцией в индустрии машинного обучения и исследовательском сообществе в 2019 году. См. график ниже; AutoML находится в разделе «Пик завышенных ожиданий, что указывает на то, что раннее знакомство с ним приводит к ряду историй успеха. Некоторые предприятия действуют немедленно, в то время как другие ждут, пока технология принесет значительную пользу. Тем не менее, тенденция очевидна, и сообщество возлагает большие надежды на эту технологию.

Независимо от причин, по которым люди так увлечены AutoML, по моему скромному мнению, AutoML в ближайшие годы значительно изменит то, как люди работают в области научных исследований и промышленности. Как специалист по данным в LittleBigCode, я бы с удовольствием ежедневно использовал AutoML по двум конкретным причинам: (1) это позволяет мне сосредоточиться на более сложных аспектах моего проекта машинного обучения, в то время как AutoML часами работает в фоновом режиме, чтобы найти оптимальную комбинацию. ; (2) позволяя мне преодолеть мои текущие знания, открывая новые алгоритмы, с которыми я не знаком, если анализ AutoML заключает, что он является наиболее точным. Таким образом, повышая доверие к вашему проекту, демонстрируя, что в наборе данных были оценены многочисленные комбинации.

В следующей статье мы представим AutoML как с Auto-Sklearn, так и без него. Его определение с последующей иллюстрацией и кратким изложением темы. Auto-Sklearn был выбран среди многих других, таких как MLBox, TPOT, H2O AutoML, Auto-KERAS (поиск нейронной архитектуры), TransmogrifAI, Auto-WEKA, JAD-BIO, Auto-PYTORCH (поиск нейронной архитектуры) и т. д., потому что он был признан мощным фреймворком в сообществе среди многочисленных ML-конкурсов. Это не означает, что одна структура лучше другой, но сообщество, окружающее Auto-Sklearn, сравнимо с сообществом Scikit-learn, и поэтому имеет смысл предложить новичкам AutoML такой доступный инструмент, как Scikit-Learn. Тем не менее, каждый из вышеупомянутых инструментов, а также оставшиеся на рынке инструменты заслуживают изучения, чтобы определить их применимость к вашему варианту использования. Auto-Sklearn в основном используется для классификации и регрессии и не использует глубокое обучение, дополнительную информацию см. ниже.

Что определяет автоматизированное машинное обучение?

Понятие автоматизированного машинного обучения обсуждалось в литературе; тем не менее, для новых и опытных исследователей предмета достаточно следующего определения с точки зрения его описания и долгосрочной цели:

AutoML предназначен для автоматического составления и параметризации алгоритмов машинного обучения в конвейеры машинного обучения с целью оптимизации некоторой заданной метрики. Как правило, подконвейеры базовой системы Auto-ML связаны с двумя компонентами: первый — это предварительная обработка (выбор признаков, преобразование, вменение и т. д.), а второй — алгоритм. выбор (классификация, регрессия и т. д.). Современные технологии включают две самые популярные контролируемые автоматизированные системы машинного обучения: Auto-Sklearn (на основе Scikit Learn [1]) и Auto -Weka (на основе WEKA [2]) [3, 4]. Контролируемая система AutoML математически описывается следующим образом:

Где f — лучшее обобщение задачи. f также идентичен тому, что мы называем полной моделью или конвейером [5, 6]. Конвейер создается с помощью 𝜐, который обозначает алгоритм обучения с учителем (например, XGBoost, Random Forest и т. д.) и θ𝜐, который обозначает гиперпараметры алгоритма обучения с учителем. . Φобозначает метод предварительной обработки (например, передискретизация/импутирование признаков и т. д.) и, если применимо, θΦ(X) гиперпараметры, связанные с выбранным методом предварительной обработки. Наконец, система AutoML попытается определить оптимальное сочетание метода предварительной обработки и алгоритма обучения, а также их соответствующие гиперпараметры с учетом набора данных, обозначенного D.

В двух словах, система оптимизации поиска AutoML предназначена для выполнения (1) оптимизации оценок и предикторов (т. е. выбора алгоритма) [7]; (2) оптимизация алгоритмов обучения и их гиперпараметров (т. е. оптимизация гиперпараметров) [8, 9, 6, 4]; и (3) оптимизация алгоритмов метаобучения [10, 3].Методы предварительной обработки подлежат тому же процессу оптимизации, но основаны на подмножестве методов, разработанных специально для предварительной обработки.

Каковы дополнительные проблемы AutoML? (НАЛИЧНЫЕ/HPO/SMAC/NAS/АО)

Теперь, когда AutoML объяснен, давайте кратко рассмотрим подзадачи, которые он решает для достижения своей основной цели — оптимизации моделирования выбора и его гиперпараметров:

Комбинированный алгоритм и выбор гиперпараметров (CASH) и оптимизация гиперпараметров (HPO)

Проблема CASH [11] связана с автоматическим и одновременным выбором алгоритма обучения и его параметров, тогда как проблема HPO связана с предоставлением наилучшего возможного экземпляра модели из вектора выбранных алгоритмов. Таким образом, комбинация этих двух несколько неоспорима. Вкратце процедуру CASH можно объяснить тем, что она рассматривает каждый алгоритм как гиперпараметр, оптимизируя эти гиперпараметры, предоставляя набор лучших алгоритмов для данного набора данных. С другой стороны, HPO учитывает наилучшие выходные данные CASH, предоставляя конвейер алгоритмов и их гиперпараметров, и пытается настроить каждый набор гиперпараметров в его наилучшем возможном экземпляре.

Задачи CASH и HPO требуют проверки большого количества гипотез и выбора наиболее точной из них как наилучшей прогностической модели для данной обучающей выборки. Учтите, например, что все алгоритмы на основе леса (Decision Tree, Random Forest, XGBoost, Deep Forest и т. д.) имеют как минимум десять гиперпараметров, каждый из которых может принимать десять различных значений; таким образом, проверка пространств конфигурации CASH и HPO для одного алгоритма требует 1010 перестановок. Следовательно, настройка n алгоритмов с j гиперпараметрами может быть весьма дорогостоящей.

Последовательная конфигурация алгоритма на основе модели (SMAC)

SMAC [18, 19, 20] — универсальный инструмент HPO, который помогает создателям алгоритмов оптимизировать гиперпараметры. Эта многообещающая стратегия строит многообещающую конфигурацию с использованием древовидного/локального поиска, сравнивает все возможные конфигурации с помощью метода Random Online Adaptive Racing (ROAR) [12], а затем выявляет наиболее точную комбинацию гиперпараметров, обнаруженную для алгоритма и данного набора данных.

Поиск нейронной архитектуры (NAS) и оптимизация архитектуры (AO)

Задача NAS состоит в том, чтобы спроектировать высокопроизводительную нейронную архитектуру путем выбора и комбинирования основных операций [13, 14, 15, 16]. Задачи классификации направлены на выбор лучшего алгоритма и гиперпараметров, в то время как задачи NAS оценивают лучшую архитектуру нейронной сети для конкретного набора данных. АО, с другой стороны, является подкомпонентом NAS и также рассматривается как метод оптимизации поиска нейронной архитектуры. Впервые он был представлен в приложении Баррета Зофа и Куока Ле [27], в котором использовалось обучение с подкреплением для обучения рекуррентной нейронной сети автоматическому поиску наиболее эффективной архитектуры. АО состоит из обучения с подкреплением, алгоритмов на основе эволюции, градиентного спуска, оптимизации на основе суррогатной модели и гибридных подходов АО [17]. Он определяет идеальный дизайн NAS, оптимизируя заданную архитектуру (т. е. количество слоев, скорость обучения и т. д.). Примерно его можно рассматривать как HPO для проблемы CASH (т. е. метод оптимизации). В результате одной из многообещающих сред, сочетающих NAS и AO, является Auto-KERAS или Auto-Pytorch.

Хотя мы определили жаргон, Auto-Sklearn основан на проблемах CASH/HPO и SMAC, поэтому в оставшейся части статьи мы сосредоточимся в первую очередь на них:

Что такое Auto-Sklearn?

Первоначальный выпуск пакета auto-Sklearn в 2015 году лабораторией искусственного интеллекта Фрайбургского университета был направлен на улучшение байесовской оптимизации посредством метаобучения. Фреймворк использует 15 классификаторов, 14 методов обработки признаков и 3 метода предварительной обработки данных, всего 132 гиперпараметра. Существует две версии этого фреймворка: 1.0 [18] и 2.0 [19]. Основными улучшениями первой версии AutoML были его производительность CASH и HPO, тогда как основным улучшением второй версии было включение более простого и эффективного подхода к метаобучению.

Присуждены призы

Auto-Sklearn получил свою первую награду на первом всемирном конкурсе AutoML Challenge, где он превзошел конкурирующие фреймворки в некоторых подзадачах, но не во всех; тем не менее, он по-прежнему занимал первое место в конкурсе, проводившемся с 2015 по 2016 год [20, 21, 22, 23]. У них было несколько месяцев, чтобы улучшить свою структуру, чтобы они могли вернуться в следующем году и по-прежнему преуспевать, и они это сделали. В 2017–2018 гг. они стали победителями второго международного конкурса AutoML [24, 25, 26].

Предварительно настройте алгоритмы для поиска

Ниже приведен список предварительно настроенных алгоритмов, доступных в Auto-Sklearn:

AdaBoost ; Bernoulli naive Bayes ; decision tree ; extreml. rand. trees ; Gaussian naive Bayes ; gradient boosting ; k-Nearest Neighbour ; LDA ; linear SVM ; kernel SVM ; multinomial naive Bayes ; passive aggressive ; QDA ; random forest ; Linear Classification.

Его архитектура

Прежде чем углубиться в архитектуру, Auto-Sklearn требует ряда параметров, включая два отдельных пороговых значения. Один относится к порогу, при достижении которого останавливается процесс настройки данного алгоритма (т.е. HPO), а другой, который можно считать глобальным порогом, представляет собой процесс поиска алгоритмов (т.е. CASH). Теперь, говоря об архитектуре. В двух словах, (1) пользователь предоставляет конвейеру необработанные данные, которые должны быть разделены на наборы для обучения и тестирования. (2)Затем выполняется этап метаобучения, который является одним из самых больших достижений этой платформы в области AutoML, поскольку он, грубо говоря, использует сходство вашего набора данных с некоторыми уже известными из литературу/интернет, и, если есть совпадение, список методов, которые хорошо зарекомендовали себя в таком наборе данных, передается в качестве приоритета для их изучения в конвейере. Затем, независимо от того, будут ли результаты шага метаобучения. (3)Мы входим в цикл оптимизации: (a)случайно выбираем препроцессор данных, (b)случайно выбираем функцию препроцессор, и (c) мы случайным образом выбираем классификатор, а затем используем байесовский оптимизатор для оптимизации их гиперпараметров, пока не будет достигнут порог субконвейера. Этот цикл повторяется для каждого доступного классификатора до тех пор, пока не будет достигнут общий порог, после чего конвейер останавливается и (4) создает ансамбль всех комбинаций подконвейеров, ранжируя их от наиболее точных до наименее точных. на основе заданной пользователем метрики. В результате пользователю предоставляется наилучшая модель и/или вероятность предсказания набора тестов для классов.

Простая классификация рака молочной железы с использованием Auto-Sklearn

В настоящее время Auto-Sklearn доступен только через Python, поэтому мы предполагаем, что он у вас уже установлен. По поводу установки и совместимости с ОС смотрите здесь. Кроме того, мы загружаем данные из баз данных sklearn, поэтому в этой статье мы не используем данные на основе RGPD.

Рассмотрим пример, чтобы проиллюстрировать, насколько просто использовать эту структуру. Здесь мы предскажем набор данных рака молочной железы, который является классическим и чрезвычайно простым набором данных бинарной классификации (см. больше):

Сначала мы загружаем наши данные в разделы, по умолчанию 75 процентов для обучающего набора и 25 процентов для тестового набора. После этого мы создаем экземпляр классификатора Auto-Sklearn (версия 1.0 здесь) и используем три различных параметра, но в документации можно увидеть больше:

  • Время, оставшееся до выполнения этой задачи: максимальное количество секунд, разрешенное для поиска во всей воронке. Увеличивая это значение, auto-sklearn имеет больше шансов обнаружить более совершенные модели. Кроме того, это глобальный порог, поэтому если ввести 54 000 секунд, процедура будет искать оптимальную модель в течение следующих пятнадцати часов. Однако вам следует тщательно обдумать это значение, потому что если вы будете искать слишком много, вы можете переопределить свои данные(дополнительную информацию о переобучении и automl см. в [28]).
  • Ограничение времени выполнения. Ограничение времени одного вызова модели машинного обучения. Подгонка модели будет прекращена, если алгоритм машинного обучения превысит лимит времени. Установите это значение достаточно высоким, чтобы типичные алгоритмы машинного обучения могли быть приспособлены к обучающим данным. Кроме того, если для этого параметра задано слишком высокое значение, теоретически общий конвейер может попытаться использовать меньшее количество классификаторов, поскольку предыдущий параметр также может сработать. Как пользователь, вы должны найти хороший баланс.
  • Ограничение памяти: ограничение памяти в МБ для алгоритма машинного обучения. Auto-sklearn перестанет соответствовать алгоритму машинного обучения, если попытается выделить более memory_limit МБ.
  • Обратите внимание, что документация содержит множество других аргументов, таких как метрика для оптимизации в конвейере и т. д.

Наконец, вы готовы получить оптимальный результат поиска воронки; обратите внимание, что в демонстрационных целях мы просто выводим здесь точность модели-чемпиона. Тем не менее, документация содержит множество более конкретных и разнообразных результатов, которые вы можете получить:

Обсуждение и вывод

AutoML сыграет свою роль в будущем машинного обучения, но он не лишен недостатков. Вот несколько вещей, которые я наблюдаю в отношении AutoML:

  • AutoML заменит data-scientist. Многие практикующие считают, что AutoML заменит их в ближайшем будущем, из-за чего некоторые отвергают эту дисциплину. Однако у меня есть сомнения в том, что это так. Я считаю, что мы, как люди, в конечном итоге решаем, какие результаты достаточно жизнеспособны для производства и развертывания, поэтому нас не заменит автоматизированное машинное обучение, а скорее мы будем использовать его как инструмент в нашей повседневной деятельности и развивать новые способы концентрации внимания в наших соответствующих профессиях.
  • Данные по-прежнему являются самой важной вещью. Вы можете вводить любые необработанные данные в конвейер, но без какой-либо предварительной обработки или дополнительного понимания данных не будет хороших результатов. Это может быть крайне неудобно для неспециалистов, таких как практикующие врачи. Даже если у них может быть обучение предварительной обработке данных, оно может быть не таким обширным, как у специалистов по машинному обучению. Как следствие, с этой точки зрения AutoML несколько сложен для неспециалистов.
  • Метрика прогнозирования — единственная цель. В профессии специалиста по данным модель прогнозирования не всегда является единственным желаемым. Как правило, если вы хотите определить, какие функции вашего набора данных являются наиболее важными, AutoML в настоящее время не может создать такой список, поэтому есть доступные приемы, но не очень простые для неспециалистов. Еще один последний пример: если вам нужна объяснимая модель чемпиона, она еще не достижима по умолчанию, хотя она необходима для неспециалистов, таких как практикующие врачи. Тем не менее, имейте в виду, что недавно был разработан и опубликован конвейерный профилировщик для Auto-Sklearn [29].
  • Замена моего старого доброго случайного леса. Возможно, не обязательно. Однако рекомендуется всегда запускать случайный лес с 1000 деревьев и остальными параметрами по умолчанию, чтобы установить базовый уровень, с которым можно сравнить выходные данные конвейера AutoML. Он может заменить его, а может и не заменить, если используемая вами система AutoML не может точно прогнозировать ваши события.

Несмотря на ограничения, применение этой ветви машинного обучения в вашей миссии и проекте может быть чрезвычайно полезным. В качестве заключительного замечания я надеюсь, что теперь вы понимаете терминологию AutoML и функционирование auto-sklearn, важного фреймворка среди многих других. Я также надеюсь, что вы продолжите изучение AutoML. Тем не менее, я хотел бы отметить, что в области AutoML еще предстоит проделать дальнейшую работу, особенно с несбалансированными данными, которые распространены в области медицины, но еще не в области AutoML, а также метод прогнозирования множественных -меточное обучение в отличие от бинарного, что представляет собой еще более сложную задачу. Следовательно, в AutoML все еще есть ряд неизведанных подобластей, и это только начало надежной подобласти машинного обучения.

Если у вас есть какие-либо вопросы или вы хотите поделиться своим опытом, не стесняйтесь оставлять комментарии 🥳

Саймон 🔬

Рекомендации

[1] Ф. Педрегоса, Г. Вароко, А. Грамфор, В. Мишель, Б. Тирион, О. Гризель, М. Блондель, П. Преттенхофер, Р. Вайс, В. Дюбур, Ж. Вандерплас, А. , Passos, D. Cournapeau, M. Brucher, M. Perrot и E. Duchesnay, «Scikit-learn: Machine Learning in Python», Journal of Machine Learning Research, vol. 12, стр. 2825–2830, 2011.

[2] М. Холл, Э. Франк, Г. Холмс, Б. Пфарингер, П. Ройтеманн и И. Х. Виттен, «Программное обеспечение для интеллектуального анализа данных weka: обновление», информационный бюллетень исследований ACM SIGKDD, том. 11, нет. 1, стр. 10–18, 2009 г.

[3] М. Фойрер, А. Клейн, К. Эггенспергер, Дж. Т. Спрингенберг, М. Блюм и Ф. Хаттер, «Auto-sklearn: эффективное и надежное автоматизированное машинное обучение», в «Автоматизированное машинное обучение». Спрингер, Чам, 2019 г., стр. 113–134.

[4] К. Торнтон, Ф. Хаттер, Х. Х. Хус и К. Лейтон-Браун, «Auto-weka: комбинированный выбор и гиперпараметрическая оптимизация алгоритмов классификации», в материалах 19-й международной конференции ACM SIGKDD по открытию знаний и данным. горное дело, 2013. С. 847–855.

[5] Дж. Эскаланте, «На пути к алгоритму выбора модели роя частиц», в многоуровневом семинаре и модели логического вывода • Х. Дж. Эскаланте. На пути к алгоритму выбора модели роя частиц. Многоуровневый семинар по выводу и игра по выбору модели, NIPS, Уистлер, Вирджиния, Британская Колумбия, Канада, 2006 г.

[6] Х. Дж. Эскаланте, М. Монтес и Л. Э. Сукар, «Выбор модели роя частиц». Журнал исследований машинного обучения, том. 10, нет. 2, 2009.

[7] Дж. Р. Райс, «Проблема выбора алгоритма», Достижения в области компьютеров. Эльзевир, 1976, вып. 15, стр. 65–118.

[8] Д. Гориссен, Т. Даэн и Ф. Де Турк, «Выбор типа эволюционной модели для глобального суррогатного моделирования», Журнал исследований машинного обучения, том. 10, стр. 2039–2078, 2009.

[9] К. Сан, Б. Пфарингер и М. Мэйо, «Полный выбор модели в пространстве операторов интеллектуального анализа данных», в материалах 14-й ежегодной конференции, посвященной генетическим и эволюционным вычислениям, 2012 г., стр. 1503. –1504.

[10] К. А. Смит-Майлз, «Междисциплинарные взгляды на метаобучение для выбора алгоритма», ACM Computing Surveys (CSUR), vol. 41, нет. 1, стр. 1–25, 2009 г.

[11] К. Торнтон, Ф. Хаттер, Х. Х. Хус и К. Лейтон-Браун, «Auto-weka: комбинированный выбор и гиперпараметрическая оптимизация алгоритмов классификации», в Материалы 19-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальный анализ данных, 2013 г., стр. 847–855.

[12] Ф. Хаттер, Х. Хоос, К. Лейтон-Браун, Т. Штютцле Paramils: структура автоматической конфигурации алгоритма. Дж. Артиф. Интел. Рез. (36) (2009), стр. 267–306.

[13] М.Ф. Тенорио и В.-Т. Ли, Самоорганизующиеся нейронные сети для решения проблемы идентификации, 1988, стр. 57–64. [В сети]. Доступно: https://papers.nips.cc/paper/149-self-organization-neural-networks-for-the-identification-problem

[14] Х. Китано, Проектирование нейронных сетей с использованием генетических алгоритмов с системой генерации графов, том. 4, нет. 4, 1990. [Онлайн]. Доступно: http://www.complex-systems.com/ abstracts/v04_i04_a06/

[15] П. Дж. Анджелин, Г. М. Сондерс и Дж. Б. Поллак, Эволюционный алгоритм, который строит рекуррентные нейронные сети, том. 5, нет. 1, стр. 54–65, 1994. [Онлайн]. Доступно: https://ieeexplore.ieee.org/document/265960/

[16] С. Р. Янг, Д. К. Роуз, Т. П. Карновски, С.-Х. Лим и Р. М. Паттон, Оптимизация гиперпараметров глубокого обучения с помощью эволюционного алгоритма, 2015 г., стр. 4: 1–4: 5. [В сети]. Доступно: https://dl.acm.org/citation.cfm?id=2834896

[17] X. He, K. Zhao и X. Chu, AutoML: обзор современного состояния, Knowledge-Based Systems, vol. 212, с. 106622, январь 2021 г. [Онлайн]. Доступно: https://linkinghub.elsevier.com/retrieve/pii/S0950705120307516

[18] М. Фойрер, А. Клейн, К. Эггенспергер, Дж. Спрингенберг, М. Блюм и Ф. Хаттер, Эффективное и надежное автоматизированное машинное обучение, в Advanced in Neural Information Processing Systems, C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, and R. Garnett, Eds., vol. 28. Curran Associates, Inc., 2015. [Онлайн]. Доступно: https://proceedings.neurips.cc/paper/2015/file/11d0e6287202fced83f79975ec59a3a6-Paper.pdf

[19] М. Фойрер, К. Эггеншпергер, С. Фолкнер, М. Линдауэр и Ф. Хаттер, «Auto-sklearn 2.0: следующее поколение», препринт arXiv arXiv:2007.04074, 2020.

[20] И. Гийон, Л. Сун-Хосоя, М. Булле, Х. Дж. Эскаланте, С. Эскалера, З. Лю, Д. Джаджетич, Б. Рэй, М. Саид, М. Себаг, А. Статников, В. Ту и Э. Вьегас, «Анализ серии испытаний automl 2015–2018», в AutoML, сер. Серия Springer о проблемах машинного обучения, 2019 г.

[21] И. Гийон, К. Беннетт, Г. Коули, Х. Дж. Эскаланте, С. Эскалера, Т. К. Хо, Н. Масиа, Б. Рэй, М. Саид, А. Статников и Э. Вьегас, «Дизайн ChaLearn AutoML Challenge 2015», in Proc. IJCNN, 2015. [Онлайн]. Доступно: http://www.causality.inf.ethz.ch/AutoML/automl_ijcnn15.pdf

[22] — — , Вызов AutoML 2015: дизайн и первые результаты, в Proc. AutoML 2015@ICML, 2015. [Онлайн]. Доступно: https://drive.google.com/file/d/0BzRGLkqgrI-qWkpzcGw4bFpBMUk/view

[23] И. Гийон, И. Чаабане, Х. Дж. Эскаланте, С. Эскалера, Д. Джаджетич, Дж. Р. Ллойд, Н. Масия, Б. Рэй, Л. Ромашко, М. Себаг, А. Статников, С. Трегер и E. Viegas, «Краткий обзор испытания chalearn automl», в Proc. AutoML 2016@ICML, 2016. [Онлайн].

[24] Вызов Automl 2018 :: Pakdd2018», март 2020 г. [Онлайн]. Доступно: https://competitions.codalab.org/competitions/17767

[25] И. Гийон, Л. Сун-Хосоя, М. Булле, Х. Эскаланте, С. Эскалера, З. Лю, Д. Джаджетич, Б. Рэй, М. Саид, М. Себаг и др. ., Анализ серии AutoML Challenge 2015–2018, 2017. [Онлайн]. Доступно: https://www.automl.org/book/

[26] В.Ту и Э.Вьегас, «Анализ серии автовызовов 2015–2018 гг.».

[27] Зоф, Б. и Ле, К.В., 2016. Поиск нейронной архитектуры с обучением с подкреплением. препринт arXiv arXiv:1611.01578.

[28] Фабрис Ф. и Фрейтас А.А., 2019 г., сентябрь. Анализ переобучения автоматического инструмента машинного обучения auto-sklearn. В Международной конференции по машинному обучению, оптимизации и науке о данных (стр. 508–520). Спрингер, Чам.

[29] Оно, Дж. П., Каштело, С., Лопес, Р., Бертини, Э., Фрейре, Дж. и Сильва, К., 2020. Pipelineprofiler: инструмент визуальной аналитики для исследования автоматических конвейеров. Транзакции IEEE по визуализации и компьютерной графике, 27(2), стр. 390–400.