В новой статье исследуются три ключевые загадочные характеристики ансамблей глубокого обучения и некоторые возможные объяснения.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 65 000 человек. TheSequence - это информационный бюллетень, ориентированный на машинное обучение (то есть без рекламы, новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Ансамблевое обучение - один из старейших и менее понятных методов, используемых для повышения производительности моделей глубокого обучения. Теория, лежащая в основе ансамблевого обучения, очень проста: производительность группы независимо обученных нейронных сетей должна превосходить лучшие в группе в долгосрочной перспективе. Кроме того, мы также знаем, что характеристики ансамбля моделей можно передать одной модели с помощью метода, известного как дистилляция знаний. Мир ансамблевого обучения невероятно увлекателен, за исключением того, что мы не совсем понимаем его. Недавно Microsoft Research опубликовала новаторский документ, в котором делается попытка пролить свет на магию ансамблей путем понимания трех фундаментальных загадок космоса.

Microsoft Research пытается понять следующие два теоретических вопроса об ансамблевом обучении:

1) Как ансамбль улучшает производительность во время тестирования при глубоком обучении, когда мы просто усредняем несколько независимо обученных нейронных сетей?

2) Каким образом такие превосходные характеристики ансамбля во время тестирования могут быть позже преобразованы в единую нейронную сеть той же архитектуры, просто путем обучения единственной модели для соответствия выходным данным ансамбля? на одном и том же наборе обучающих данных?

Ответ на эти теоретические вопросы приводит к тому, что Microsoft Research в некоторой театральной форме любит называть тремя загадками ансамблевого обучения:

Тайна 1: Ансамбль

Первая загадка ансамблевого обучения связана с повышением успеваемости. Учитывая набор нейронных сетей N1, N2… NM, ансамбль, который просто берет среднее значение выходных данных, вероятно, приведет к значительному увеличению производительности. Однако эта производительность не достигается при тренировке (N1 + N2 +… Nm) / M. Непонятно….

Тайна 2: Квинтэссенция знаний

Ансамблевые модели обладают высокими характеристиками, но смехотворно дороги и медленны в эксплуатации. Кистилляция знаний - это метод, с помощью которого можно обучить одну модель, чтобы она соответствовала характеристикам ансамбля. Успех методов дистилляции знаний приводит еще ко второй загадке ансамблей. Почему сопоставление выходных данных ансамбля обеспечивает более высокую точность тестирования по сравнению с сопоставлением истинных меток?

Тайна 3: Самодистилляция

Третья загадка ансамбля очень близка ко второй, но еще более загадочна. Обобщение знаний показывает, что меньшая модель может соответствовать характеристикам более крупного ансамбля. Параллельное явление, известное как самодистилляция, вызывает еще большее недоумение. Самостоятельная дистилляция основана на выполнении дистилляции знаний по отдельным моделям, что также увеличивает производительность! По сути, самодистилляция основана на обучении той же модели с использованием себя в качестве учителя. Почему такой подход приводит к увеличению производительности, остается загадкой.

Некоторые ответы

Microsoft Research провела всевозможные эксперименты, чтобы понять некоторые из вышеупомянутых загадок ансамблевого обучения. Первоначальная работа дала интересные результаты.

1) Ансамбли глубокого обучения против сопоставления функций

Самая известная форма ансамблевого обучения - это так называемое отображение случайных признаков, при котором модели обучаются случайному количеству признаков. Этот тип техники хорошо работает в линейных моделях и очень хорошо изучен, поэтому его можно использовать в качестве основы для анализа производительности ансамблей глубокого обучения. Первые результаты экспериментов Microsoft Research показали, что ансамбли глубокого обучения очень похожи на сопоставления функций. Однако дистилляция знаний работает иначе.

2) Для работы ансамблей необходимы наборы данных с несколькими представлениями

Один из наиболее показательных результатов исследования Microsoft Research основан на характере данных. Набор данных с несколькими представлениями основан на структуре, в которой каждый класс данных имеет несколько функций представления. Например, изображение автомобиля можно классифицировать как автомобиль, глядя на фары, колеса или окна. Исследования Microsoft показывают, что наборы данных с многовидовыми структурами могут повысить производительность ансамблевых моделей, тогда как наборы данных без этой структуры не имеют такого же влияния.

Статья Microsoft Research - одна из самых продвинутых работ в ансамблях глубокого обучения за последние несколько лет. В документе рассматриваются многие другие результаты, но это резюме должно дать вам очень конкретное представление об основных вкладах.