Машинное обучение набирает обороты в транспортном гиганте.

Обычная аналогия в кругах искусственного интеллекта (ИИ) заключается в том, что данные обучения - это новое масло для моделей машинного обучения. Как и в случае с драгоценным товаром, данных для обучения мало, и их трудно масштабировать. В современной экосистеме машинного обучения доминируют модели контролируемого обучения. Хотя модели такого типа относительно легко создать по сравнению с другими альтернативами, они сильно зависят от данных обучения, результаты которых запрещены для большинства организаций. Эта проблема усугубляется масштабом моделей машинного обучения. Недавно инженеры Uber опубликовали документ, в котором предлагается новый метод под названием Generative Teaching Networks (GTN), который создает алгоритмы обучения, которые автоматически генерируют обучающие данные.

Идея создания обучающих данных с помощью машинного обучения не совсем нова. Такие методы, как полу-контролируемое и омни-контролируемое обучение, основываются на этом принципе для работы в средах с дефицитом данных. Однако проблемы зависимости данных в моделях машинного обучения растут быстрее, чем возможные решения. Отчасти эти проблемы уходят корнями в самые большие заблуждения в современном машинном обучении.

Заблуждения о тренировочных данных

Традиционный подход к обучению модели машинного обучения говорит нам, что модели следует обучать с использованием больших наборов данных, и они должны использовать весь набор данных в процессе. Хотя эта идея хорошо известна, она кажется нелогичной, поскольку предполагает, что все записи в наборе обучающих данных имеют одинаковый вес, что, безусловно, бывает редко. Новые подходы, такие как изучение учебной программы и активное обучение, были сосредоточены на извлечении распределения из набора обучающих данных на основе примеров, которые генерируют лучшую версию моделей. Некоторые из этих методов оказались весьма полезными с появлением методов поиска нейронной архитектуры (NAS).

NAS становятся одним из самых популярных трендов современного машинного обучения. Концептуально NAS помогает найти наиболее эффективные архитектуры нейронных сетей для решения заданных задач, выполняя оценки тысяч моделей. Для оценок, выполняемых методами NAS, требуются обучающие данные, и они могут привести к запрету затрат, если они используют полные наборы обучающих данных на каждой итерации. Вместо этого методы NAS стали чрезвычайно эффективными в оценке возможных архитектур путем обучения предсказателей того, насколько хорошо обученный ученик будет работать, путем экстраполяции ранее обученных архитектур.

Эти две идеи: выбор лучших примеров из обучающего набора и понимание того, как обучается нейронная сеть, были основой творческого метода Uber для обучения моделей машинного обучения.

Войдите в сети генеративного обучения

Основной принцип сетей GTN Uber основан на простой, но радикальной идее: позволить машинному обучению создавать обучающие данные самостоятельно. GTN используют генеративные модели и модели метаобучения, а также черпают вдохновение в таких методах, как генеративные состязательные нейронные сети (GAN).

Основная идея в GTN состоит в том, чтобы обучить сеть, генерирующую данные, так, чтобы обучающаяся сеть, обученная на данных, быстро обеспечивала высокую точность в целевой задаче. GTN заимствуют идеи из GAN, но есть и заметные различия. В моделях GTN две сети взаимодействуют, а не конкурируют. У сетей в модели GTN есть свои интересы, направленные на повышение производительности учащегося на основе полученных данных обучения. Генераторная сеть в модели GTN регулярно производит совершенно новые искусственные данные, которые невиданная ранее обучающаяся нейронная сеть обучается на небольшом количестве шагов обучения. После этого шага обучающаяся сеть оценивается на реальных данных, и ее производительность оптимизируется.

Основываясь на исходной исследовательской работе, архитектуру GTN можно объяснить за пять простых шагов:

1) Шум подается на входной генератор, который используется для создания новых синтетических данных.

2) Обучаемый обучается хорошо работать с сгенерированными данными.

3) Затем обученный учащийся оценивается на реальных обучающих данных во внешнем цикле, чтобы вычислить мета-потери внешнего цикла.

4) Градиенты параметров генератора вычисляются до мета-потерь для обновления генератора.

5) Как усвоенная учебная программа, так и нормализация веса существенно улучшают производительность GTN.

GTN в действии

Uber оценил GTN в разных архитектурах нейронных сетей. Одним из таких сценариев была модель классификации изображений, обученная с использованием известного набора данных MNIST. После нескольких итераций новые учащиеся, обученные с использованием GTN, смогли учиться быстрее, чем те же модели с использованием реальных данных. В этом конкретном сценарии модели, обученные GTN, достигли замечательной точности 98,9 и сделали это всего за 32 шага SGD (~ 0,5 секунды), увидев каждое из 4096 синтетических изображений в учебной программе один раз, что составляет менее 10 процентов изображений. в наборе обучающих данных MNIST.

Одним из удивительных открытий использования GTN для классификации изображений является то, что синтетический набор данных кажется нереалистичным для человеческого глаза (см. Изображение ниже). Еще более интересным является тот факт, что узнаваемость изображений улучшается к концу учебной программы. Несмотря на свой чужеродный вид, синтетические данные доказали свою эффективность при обучении нейронных сетей. Интуитивно мы могли бы подумать, что если бы архитектура нейронных сетей была функционально более похожа на человеческий мозг, синтетические данные GTN могли бы больше походить на реальные данные. Однако альтернативная (спекулятивная) гипотеза состоит в том, что человеческий мозг также может быть в состоянии быстро освоить произвольный навык, показывая неестественные, нераспознаваемые данные. Насколько это безумно?

GTN - это новый подход к улучшению обучения моделей машинного обучения с использованием синтетических данных. Теоретически у GTN могут быть приложения, выходящие за рамки традиционного контролируемого обучения, в таких областях, как методы NAS. Несомненно, применение GTN в масштабной инфраструктуре машинного обучения Uber должно дать замечательные уроки, которые помогут улучшить эту технику.