Иногда более крупные модели машинного обучения и большие наборы данных могут снизить производительность

"Машинное обучение"

Иногда более крупные модели машинного обучения и большие наборы данных могут снизить производительность

Исследование гипотезы двойного спуска OpenAI показывает феномен, бросающий вызов как традиционной теории статистического обучения, так и общепринятым взглядам практиков машинного обучения.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 100 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
Подпишитесь, чтобы быть в курсе самых актуальных проектов и исследовательских работ в мире искусственного интеллекта. Нам доверяют 102 000 +… thesequence.substack.com

Чем больше, тем лучше, безусловно, применимо к современным парадигмам глубокого обучения. Большие нейронные сети с миллионами параметров регулярно превосходят по производительности небольшие сети, специализирующиеся на конкретной задаче. Некоторые из самых известных моделей последних нескольких лет, такие как Google BERT, Microsoft T-NLG или OpenAI GPT-2, настолько велики, что результаты их вычислений по стоимости запрещены для большинства организаций. Однако производительность модели не увеличивается линейно с ее размером. Двойной спуск - это явление, при котором по мере увеличения размера модели производительность сначала ухудшается, а затем становится лучше. Недавно исследователи OpenAI изучили, сколько современных моделей глубокого обучения уязвимо для феномена двойного спуска.

Взаимосвязь между производительностью модели и ее размером определенно озадачивала исследователей глубокого обучения в течение многих лет. В традиционном статистическом обучении компромисс смещения и дисперсии утверждает, что модели более высокой сложности имеют меньшее смещение, но более высокую дисперсию. Согласно этой теории, как только сложность модели превышает определенный порог, модели «переоснащаются», когда дисперсионный член доминирует над ошибкой теста, и, следовательно, с этого момента увеличение сложности модели будет только снижать производительность. С этой точки зрения статистическое обучение говорит нам, что «большие модели хуже». Однако современные модели глубокого обучения бросают вызов этой расхожей точке зрения.

В отличие от компромисса смещения и дисперсии, глубокие нейронные сети с миллионами параметров доказали свою эффективность по сравнению с более мелкими моделями. Кроме того, многие из этих моделей улучшаются линейно с увеличением количества обучающих данных. Поэтому среди практиков глубокого обучения распространено мнение, что «большие модели и больше данных всегда лучше».

Какая теория верна? Статистическое обучение или эмпирические доказательства моделей глубокого обучения? Феномен двойного спуска показывает нам, что обе теории можно согласовать, но также и то, что некоторые из их предположений ошибочны.

Глубокий двойной спуск

Легко представить себе феномен двойного спуска:

«При обучении модели глубокого обучения вещи становятся хуже, чем они улучшаются».

Во многих традиционных моделях глубокого обучения, таких как CNN, RNN или трансформаторы, мы можем заметить, что пик производительности предсказуемо происходит в «критическом режиме», когда модели едва подходят для обучающей выборки. По мере того, как количество параметров в нейронной сети увеличивается, ошибка теста сначала уменьшается, увеличивается и, так же, как модель может соответствовать набору поездов, подвергается второму снижению.

Суть теории глубокого двойного спуска заключается в том, что ни общепринятое мнение классических статистиков о том, что «слишком большие модели хуже», ни современная парадигма глубокого обучения о том, что «большие модели лучше» отстаивать. Все зависит от состояния модели. OpenAI описывает эту концепцию в очень простой математической модели, известной как гипотеза двойного спуска.

Гипотеза двойного спуска

Давайте введем понятие эффективной сложности модели (EMC) для процедуры обучения T. EMC of T или EMC (T) будет максимальное количество выборок n, на которых T достигает в среднем приблизительно 0 ошибок обучения. Используя это определение, мы можем классифицировать модель глубокого обучения по трем критическим состояниям:

· Недостаточно параметризовано: Если EMC (T) значительно меньше n, любое возмущение T, которое увеличивает его эффективную сложность, уменьшит ошибку теста.

· Излишне параметризованный: Если EMCD (T) достаточно больше, чем n, любое возмущение T, которое увеличивает его эффективную сложность, уменьшит ошибку теста.

· Критически параметризованный: если EMCD (T) ≈ n, то возмущение T, которое увеличивает его эффективную сложность, может уменьшить или увеличить ошибку теста.

Уточняя состояние модели, глубокая двойная достойная гипотеза проливает свет на взаимодействие между алгоритмами оптимизации, размером модели и производительностью тестирования и помогает согласовать некоторые конкурирующие интуитивные представления о них. В недостаточно параметризованном режиме, когда сложность модели мала по сравнению с количеством выборок, ошибка теста как функция сложности модели следует U-подобному поведению, предсказанному классическим компромиссом смещения / дисперсии. Однако, как только сложность модели становится достаточно большой для интерполяции, то есть для достижения (близкой к) нулевой ошибки обучения, увеличение сложности только уменьшает ошибку теста, следуя современной интуиции «большие модели - лучше».

Следуя гипотезе глубокого двойного спуска, OpenAI наблюдал три ключевых состояния в течение жизненного цикла обучения модели.

1) Модель-мудрый двойной спуск: описывает состояние, когда большие модели хуже.

2) Эпохальный двойной спуск: описывает состояние, в котором длительная тренировка сводит на нет переобучение.

3) Немонотонность по образцу: описывает состояние, когда большее количество образцов ухудшает производительность модели.

Модель-Мудрый Двойной спуск

Модельный двойной спуск описывает явление, когда модель недостаточно параметризована. В этом состоянии пик ошибки теста возникает около порога интерполяции, когда модели едва достаточно велики, чтобы соответствовать набору поездов. Феномен двойного спуска на основе модели также показывает, что изменения, влияющие на порог интерполяции (такие как изменение алгоритма оптимизации, количества выборок последовательности или количества шума метки), также влияют на местоположение пика ошибки теста соответственно.

Двойной спуск эпохальной мудрости

Эпохальный двойной спуск описывает состояние, когда достаточно большая модель переходит от недостаточно параметризованной к избыточно параметризованной в ходе обучения. В этом состоянии достаточно большие модели могут подвергаться поведению «двойного спуска», когда ошибка теста сначала уменьшается, затем увеличивается около порога интерполяции, а затем снова уменьшается. Напротив, для моделей «среднего размера», для которых обучение до завершения едва достигнет уровня ошибки, близкого к 0, ошибка теста как функция времени обучения будет следовать классической U-образной кривой, где лучше остановиться. рано. Модели, которые слишком малы для достижения порога аппроксимации, останутся в «недостаточно параметризованном» режиме, когда увеличение времени поезда монотонно снижает ошибку теста.

Немонотонность по образцу

Немонотонность по выборке относится к состоянию, в котором добавление дополнительных обучающих выборок ухудшает производительность модели. В частности, увеличение количества выборок оказывает два разных эффекта на график зависимости ошибки теста от сложности модели. С одной стороны, (как и ожидалось) увеличение количества образцов сокращает площадь под кривой. С другой стороны, увеличение количества выборок также приводит к «сдвигу кривой вправо» и увеличению сложности модели, при которой ошибка теста достигает максимума.

Гипотеза двойного спуска добавляет интересный контекст, помогающий понять эффективность модели глубокого обучения с течением времени. Практические эксперименты показывают, что ни теория статистического обучения, ни расхожее мнение классических статистиков о том, что «слишком большие модели хуже», ни современная парадигма глубокого обучения, что «большие модели лучше» Совершенно верно. Учет феномена глубокого двойного спуска может быть важным инструментом для практиков глубокого обучения, поскольку он подчеркивает важность выбора правильного набора данных, архитектуры и процедур обучения для оптимизации производительности модели.

Иногда более крупные модели машинного обучения и большие наборы данных могут снизить производительность

"Машинное обучение"