Всем привет, добро пожаловать в Dynamically Typed #64 — еще одну веху с основанием 2 чуть более чем через год после того, как я разослал DT #32!

Сегодняшнее DT начиналось как обычная проблема, ориентированная на ссылки, пока я не наткнулся на сообщение в блоге Google, опубликованное три дня назад (в День Земли): Как мы минимизируем углеродный след ИИ. Это пресс-релиз увлекательной 22-страничной статьи об измерении и сокращении выбросов при обучении модели ИИ, в которой достаточно интересных фактов, чтобы написать о них целый выпуск DT — вот что я сделал; обычные ссылки вернутся через две недели.

Искусственный интеллект для климатического кризиса 🌍

Дэвид Паттерсон написал в блоге Google The Keyword сообщение о том, как компания минимизирует углеродный след ИИ, в основном освещая свою новую статью на тему Выбросы углерода и обучение больших нейронных сетей (Patterson et al. 2021). Статья была опубликована на arXiv всего полнедели назад, но на 22 насыщенных данными страницах я думаю, что она станет ключевым литературным произведением по устойчивому ИИ. Два основных вывода, которые я сделал из статьи: (1) задним числом оценивать выбросы при обучении ИИ сложно, поэтому исследователи должны измерять его во время разработки модели (2) где, когда и на каком оборудовании обучаемые модели могут иметь огромное значение в выбросах.

Оценка выбросов

Паттерсон и др. рассчитать углеродный след нескольких недавних гигантских моделей (T5, Meena, GPT-3 и т. д.) точнее, чем в предыдущей работе, которая в некоторых случаях оказалась ошибочной на два порядка: предыдущая оценка для Neural Architecture Search (NAS) The Evolved Transformer, например, была в 88 раз выше (см. Приложение D). Это показывает, что, не зная точного центра обработки данных, оборудования, выбора алгоритма поиска и т. д., практически невозможно точно оценить, сколько CO2 было выброшено при обучении модели.

В связи с этим одна из рекомендаций авторов состоит в том, чтобы сообщество машинного обучения включало оценки выбросов CO2 в качестве стандартной метрики в документы: измерения, проводимые людьми, обучающими модели, которые имеют гораздо лучший доступ ко всей соответствующей информации (см., например, таблицу 4 в статье и на странице Google Cloud, посвященной углеродоемкости различных центров обработки данных), всегда будут более точными, чем ретроактивная оценка другого исследователя. Если конференции и журналы начнут требовать метрики выбросов при подаче статей и включать их в критерии приемлемости, это побудит отдельных исследователей и лаборатории ИИ предпринять шаги по сокращению своих выбросов.

(Кроме того, это интересное сравнение, которое облегчает размышление о «тоннах выбросов парниковых газов, эквивалентных CO2»: весь полет пассажирского самолета туда и обратно между Сан-Франциско и Нью-Йорком выбрасывает около 180 тонн CO2-эквивалента; относительное к этому: «Тренировочные выбросы T5 составляют ~ 26%, Meena — 53%, Gshard-600B — ~ 2%, Switch Transformer — 32%, а GPT-3 — ~ 305% от такого кругового пути». перспектива неплохая)

Сокращение выбросов

Паттерсон и др. также есть некоторые конкретные рекомендации по сокращению выбросов CO2, вызванных обучением моделей ИИ:

● Большие, но редко активируемые ГНС могут потреблять ‹1/10 энергии больших плотных ГНС без ущерба для точности, несмотря на использование такого же или даже большего количества параметров.

● Географическое положение имеет значение для планирования рабочей нагрузки машинного обучения, поскольку доля безуглеродной энергии и получаемый в результате CO2e различаются в ~5-10 раз даже в пределах одной страны и одной организации.

● Конкретная инфраструктура центра обработки данных имеет значение, поскольку облачные центры обработки данных могут быть примерно в 1,4–2 раза более энергоэффективными, чем обычные центры обработки данных, а встроенные в них ускорители, ориентированные на машинное обучение, могут быть примерно в 2–5 раз более эффективными, чем готовые системы.

Суммируя все это, удивительно, что выбор DNN, центра обработки данных и процессора может уменьшить углеродный след примерно в 100–1000 раз. На два-три порядка! Поскольку это исследование проводилось внутри Google, его команды уже оптимизируют, где и когда обучать большие модели, чтобы использовать эти идеи в своих интересах. Другим интересным аспектом статьи является то, что каждый из четырех конкретных направлений для сокращения выбросов (улучшения в алгоритмах, процессорах, центрах обработки данных и энергетическом балансе сети) сопровождается бизнес-обоснованием для его внедрения в качестве облачного провайдера — я предполагается, что исследователи также использовали некоторые из этих аргументов, чтобы добиться изменений внутри Google. (Может быть, в качестве следующего шага они также могут изучить обучение модели линейного изменения на основе сигналов с внутридневного рынка электроэнергии?)

Приятно видеть документ об устойчивости ИИ с таким большим количеством измеренных данных и действенных советов. Я еще не видел его в Твиттере, но я надеюсь, что он широко читается — вот снова ссылка на PDF; развенчание заблуждений в разделе 4.5 (стр. 12) — интересная часть, которую я не резюмировал выше, так что нажмите на нее! Я также надеюсь, что рекомендации документа будут реализованы: даже относительно несложное изменение переноса наших учебных нагрузок в другие центры обработки данных уже может иметь большое значение. И, конечно, будет интересно посмотреть, есть ли какие-либо конкретные критические замечания по методологии измерения выбросов в статье, поскольку, конечно, это всего лишь препринт, а половина авторов статьи работает в Google.

Спасибо за прочтение! Если вам понравился этот выпуск журнала Dynamically Typed, рассмотрите вариант подписки, чтобы получать новые выпуски прямо на ваш почтовый ящик каждое второе воскресенье.

Первоначально опубликовано 25 апреля 2021 г. на странице https://dynamicallytyped.com.