TL; DR. Современные модели глубокого обучения масштабируют свои вычислительные потребности намного быстрее, чем темпы роста вычислительных ресурсов. Они полагаются на огромный набор параметров, что делает их гораздо более эффективными инструментами по сравнению со старыми методами. Чтобы справиться с этой задачей, нам может потребоваться новый взгляд на наши архитектуры, возможно, на фундаментальном уровне, чтобы сделать их менее масштабными, но все же более производительными. С другой стороны, мы можем разработать новые типы оборудования, которые будут соответствовать требованиям архитектур DL.

Зависимость от моделей глубокого обучения за последнее десятилетие чрезвычайно возросла из-за их революционной эффективности в решении различных проблем в разных областях. Разрыв в производительности между алгоритмами DL и более старыми алгоритмами машинного обучения очень заметен в таких областях, как классификация изображений, обнаружение объектов и обработка естественного языка. В качестве примера, одним из общепринятых поворотных моментов в «революции глубокого обучения» является соревнование ImageNet 2012 года. В соревновании 2012 года AlexNet была единственной архитектурой, которая имела коэффициент ошибок ниже 25%, и это была единственная архитектура глубокой нейронной сети в соревновании! Последующие соревнования, проведенные в последующие годы, показали, что все высокопроизводительные конкуренты предпочитают архитектуры глубокого обучения. Кроме того, в последующие годы количество ошибок также значительно снизилось, до 2%.

Этим значительным повышением производительности мы обязаны отличительным особенностям глубокого обучения:

1- Производительность моделей DL увеличивается с размером данных.

2- Модели DL требуют большой вычислительной мощности.

Одним из основных преимуществ моделей глубокого обучения является то, что их можно использовать для изучения огромных объемов данных. Это составляет отличительный аспект глубокого обучения, который отличает его от других алгоритмов машинного обучения, которые мы использовали до появления глубоких нейронных сетей.

Мы видим, что производительность моделей глубокого обучения прекрасно масштабируется с увеличением размера наборов данных, которые мы используем для их обучения. Однако мы знаем, что производительность других алгоритмов машинного обучения не выигрывает от этого увеличения размера данных в такой степени, как модели глубокого обучения. Можно сказать, что это распространенное мнение, приписываемое Эндрю Нг.

Еще одна причина, объясняющая лучшую производительность моделей глубокого обучения по сравнению со старыми моделями машинного обучения, заключается в том, что модели DL полагаются на огромные наборы вычислений, состоящих из весов и параметров модели. В искусственной нейронной сети входные значения, которые мы передаем на входные слои, умножаются на веса и суммируются со смещениями в каждом нейроне. Эти значения для каждого нейрона в ИНС изначально получают случайные значения и корректируются в сторону правильных выходных значений, определенных из наших пар ввода-вывода, которые мы используем в нашем наборе обучающих данных.

В исследовательском документе «Пределы вычислений глубокого обучения» от 2020 года утверждается, что «было доказано, что наличие значительных преимуществ в том, что нейронная сеть содержит больше параметров, чем имеется точек данных, доступных для ее обучения, то есть , завышая его параметры ". Хорошим примером может служить NoisyStudent. Говорят, что он имеет 480 миллионов параметров с высочайшей точностью в ImageNet, в то время как ImageNet имеет 1,2 миллиона точек данных. Чрезмерная параметризация - это дорогостоящий метод для достижения высокой производительности в архитектурах глубокого обучения. Основная проблема заключается в том, что у нас должно быть больше параметров, чем у нас есть точки данных, и поскольку количество вычислений растет на произведение параметров и точек данных, мы можем сделать вывод, что вычислительная сложность сверхпараризованных моделей DL возрастает, по крайней мере, на квадрат точек данных. Согласно статистической теории обучения, в документе говорится, что для повышения производительности в отношении частоты ошибок мы должны иметь квадратичное улучшение количества точек данных. Таким образом, мы можем сказать, что сложность вычислительной мощности, необходимой для линейного роста производительности, увеличивает как минимум производительность⁴, то есть O (производительность⁴).

Соответственно, бремя вычисления весов и смещений глубокой нейронной сети оказывается основной причиной, по которой модели глубокого обучения могут приближаться к своим пределам. Очень давно было известно, что нейронные сети требуют больших вычислительных ресурсов. Тем не менее, развитие оборудования позволило нам использовать такие энергоемкие архитектуры. Развитие процессоров было достаточно хорошим, чтобы наши модели оставались более мелкими. Наши модели DL стали более масштабными с появлением графических процессоров. Вычисления ускорились до 35 раз, однако скорость роста архитектур была даже больше, чем скорость роста вычислительной мощности графических процессоров. Это может быть одной из основных проблем в наши дни, которая, возможно, ограничивает наши модели глубокого обучения.

Чтобы решить эту проблему, нам необходимо изменить наше понимание архитектур, чтобы создать более компактные и высокопроизводительные, или нам, возможно, потребуется разработать новую инфраструктуру, которая использует как цифровые компьютеры, так и аналоговые, которые потребляют меньше энергии, что делает их более эффективными, чем цифровые. единицы.

Ссылки

  • Нил С. Томпсон, Кристьян Гринвальд, Кихон Ли и Габриэль Ф. Мансо. Вычислительные пределы глубокого обучения. Препринт arXiv arXiv: 2007.05558, 2020.
  • Новый разум. (2021 г.). Аппаратная проблема искусственного интеллекта [Видео]. Получено с https://youtu.be/owe9cPEdm7k.

Надеюсь, эта статья окажется для вас полезной. Для получения дополнительной информации о наших работах вы можете посетить aiforexistence.com. И вы можете присоединиться к обсуждению.

Спасибо за чтение!