В июне 2018 года OpenAI представила свою первую большую языковую модель GPT (Generative Pre-Training). Обученный работе с огромным количеством текстовых корпусов без надписей и использованию революционной генеративной архитектуры глубокого обучения, GPT-1 быстро справился со сложными задачами понимания языка.

В феврале 2019 года сообщество глубокого обучения приветствовало новый улучшенный GPT-2, чьи 1,5 миллиарда параметров сделали его в 12 раз больше, чем у оригинала. Этой весной Open AI выпустил GPT-3, гигант, содержащий 175 миллиардов параметров.

По мере того как размер моделей глубокого обучения продолжает расти, растет и их аппетит к вычислениям. И это беспокоит Нила Томпсона, ученого-исследователя из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL).

«Рост вычислительной мощности, необходимой для моделей глубокого обучения, быстро становится неустойчивым, - недавно сказал Томпсон Synced. Томпсон - первый автор статьи Вычислительные пределы глубокого обучения, в которой исследуются данные за годы и анализируются 1058 исследовательских работ, охватывающих такие области, как классификация изображений, объекты обнаружение, ответы на вопросы, распознавание именованных сущностей и машинный перевод. В документе предлагается, что глубокое обучение требует больших вычислительных ресурсов не случайно, а по замыслу. И растущие вычислительные затраты при глубоком обучении сыграли ключевую роль в повышении его производительности.

«На протяжении десятилетий программное обеспечение многих типов увеличивало использование вычислительной мощности. Но это увеличение росло пропорционально усовершенствованиям оборудования, предусмотренным законом Мура, поэтому эти более высокие требования к программному обеспечению не повлияли существенно на экономическое или экологическое воздействие этих систем. Это не относится к системам глубокого обучения с 2012 года. и воздействие на окружающую среду быстро растет », - говорит Томпсон.

В документе объясняется, как внедрение глубокого обучения на основе графического процессора (а позже и на основе ASIC) привело к широкому распространению этих мощных систем исследователями ИИ. «Но количество вычислительной мощности, используемой в передовых системах, росло еще быстрее, примерно в 10 раз в год с 2012 по 2019 год. Этот темп намного выше, чем [на тот момент] ≈ 35 раз общего улучшения от перехода на графические процессоры , скудные улучшения из последних остатков закона Мура или повышение эффективности обучения нейронной сети ».

Команда говорит, что большая часть увеличения вычислительной мощности произошла за счет запуска моделей на большее количество компьютеров. Всего два года назад, когда Google представил свою модель BERT (представления двунаправленного кодера от трансформаторов) для NLP pretraining, его 340 миллионов параметров считались экстремальными (GPT-3 более чем в 500 раз больше). Google AI обучил модель 340 млн за 4 дня на 16 облачных TPU (всего 64 микросхемы TPU). Томпсон и его команда отмечают, что модель Evolved Transformer от Google Research 2019 года требует более 2 миллионов часов работы графического процессора для обучения, а ее использование обходится в миллионы долларов.

Почему нам стоит беспокоиться об этой тенденции?

«Если мы продолжим наш путь, то обучение систем будет стоить от миллионов или десятков миллионов долларов до сотен миллионов или миллиардов долларов. Воздействие на окружающую среду также будет быстро расти. Так что, если мы не найдем способ повысить производительность более эффективно, все меньше и меньше исследователей смогут продолжать эту работу, и ущерб окружающей среде будет расти », - сказал Томпсон Synced. > «Я начал это исследование после того, как услышал выступления крупных компаний с огромными вычислительными ресурсами. Даже они рассказывали о том, как их модели глубокого обучения переполняют их доступные ресурсы».

Сегодняшние системы SOTA достигают примерно 11,5 процента ошибок при распознавании изображений в эталонном наборе данных ImageNet. В документе оценивается, что обучение для достижения коэффициента ошибок в 1 процент теоретически будет стоить более 100 квинтиллионов долларов США и добавит 100 квинтиллионов фунтов (50 000 000 000 000 000 тонн). выбросов углерода. Томпсон считает, что эти экспоненциально растущие затраты не оставят исследователям иного выбора, кроме как перейти к более эффективным методам.

Каковы вероятные последствия этих вычислительных ограничений для глубокого обучения? А какие есть альтернативы?

В документе предполагается, что глубокое обучение будет вынуждено «к менее ресурсоемким методам улучшения, а машинное обучение - к методам, которые более эффективны с точки зрения вычислений, чем глубокое обучение», и определяет несколько ключевых областей и подходов к противодействию растущей вычислительной нагрузке:

  • Увеличение вычислительной мощности: аппаратные ускорители.
  • Снижение вычислительной сложности: сжатие и ускорение сети.
  • Поиск высокопроизводительных небольших архитектур глубокого обучения: поиск нейронной архитектуры и метаобучение.

«В сообществе Deep Learning изучаются некоторые захватывающие методы, - говорит Томпсон, - например,« гипотеза лотерейного билета », когда исследователи пытаются сократить свои сети на ранних этапах обучения. Если это сработает, это будет означать, что нужно обучать гораздо меньше соединений в сети, что позволяет сэкономить много вычислений. В долгосрочной перспективе, есть еще больший потенциал в такой работе, как [подход, основанный на физике] ‘A.I. Фейнмана, где сложные сети можно сжать до простых для расчета уравнений ».

Хотя Томпсон говорит, что эти методы являются многообещающими, он считает, что «в какой-то момент нам может потребоваться более глубокое понимание наших моделей, вместо того, чтобы полагаться на гибкость глубокого обучения для их обнаружения». Это то, что было это было сделано на заре компьютерных технологий, и это может сделать модели намного более эффективными - хотя обычно за счет дополнительной работы дизайнеров! »

Статья Вычислительные пределы глубокого обучения посвящена arXiv.

Репортер: Фаню Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использовал технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Наряду с этим отчетом мы также представили базу данных, охватывающую 1428 дополнительных решений искусственного интеллекта из 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить какие-либо новости или открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.