Чтобы лучше понять, что сейчас происходит в экосистеме ИИ и как рынок ИИ продолжает развиваться, важно понять огромный аппетит ИИ к вычислительной мощности. 👇

📈 С 2010 года требуемая вычислительная мощность для обучения современной (SotA) модели машинного обучения удваивалась каждые шесть месяцев. [1] Другими словами, для обучения модели SotA ML сегодня требуется в 8 000 000 раз больше вычислительной мощности по сравнению с 2010 годом! Этот быстрый рост спроса на вычислительную мощность легко опережает предложение.

Но что движет всем этим спросом?

Необходимость вычислений обусловлена ​​тем фактом, что системы машинного обучения масштабируют производительность в зависимости от размера данных и параметров модели. Больше данных + большая модель = лучшая производительность. Легко правда?!

❗ НО… Оценки показывают, что вычисления, необходимые для обучения этих моделей, растут по крайней мере как многочлен четвертого порядка — может быть даже экспоненциальным — с уважение к производительности. [2] Вау! 😯

💰 Высокая производительность модели приводит к полиномиальному/экспоненциальному росту затрат. Просто чтобы понять, как выглядят эти затраты, давайте посмотрим на приблизительную оценку затрат на обучение эталонных моделей машинного обучения:

  • AlphaGo Zero от DeepMind за 35 миллионов долларов
  • OpenAI GPT-3 $4,6 млн.
  • Проект Google T5 стоимостью 10 миллионов долларов [1]

🧠 Инновации в области искусственного интеллекта могут быть вызваны расширением границ в одной или нескольких из этих трех ключевых областей: 1) алгоритмические инновации (например, внимание к себе), 2) больше данных, 3) больше вычислительной мощности. Бум искусственного интеллекта за последние 12 лет опирается на массовую волну резкого роста вычислительной мощности для моделей SotA ML. 🌊

👀 Давайте рассмотрим пример:

Модель CoCa SotA, выпущенная в 2022 году исследовательской группой Google, лидирует в ImageNet Challenge [4] с частотой ошибок 9%. Исходя из приведенной выше оценки, для достижения уровня ошибок 5% потребуется в 567 раз больше вычислений [2]. Это означает 567-кратное увеличение затрат на обучение, 567-кратное увеличение выбросов CO2 и годы обучения при использовании той же конфигурации инфраструктуры.

Огромный аппетит ИИ к вычислительной мощности вывел нас на траекторию, которая имеет два основных последствия:

🥇 Рассчитать бюджет

«Передовые исследования в области машинного обучения (и создание коммерческих решений SotA AI) стали синонимом доступа к большим вычислительным ресурсам» [1], или, говоря словами Сэма Альтмана — генерального директора OpenAI, который привлек 1 миллиард долларов финансирования от Microsoft в 2019 году: «мы тратим большую часть [1 млрд долларов финансирования] на вычисления». [3] В следующем посте мы более подробно рассмотрим, что это значит для стартапов, венчурных капиталистов и корпораций.

🌍 Экологичность

Более важным, чем бюджет вычислений, является тревожный рост потребления энергии и выбросов CO2. К сожалению, до сих пор не принято сообщать о показателях вычислений или устойчивости для обучения машинному обучению. Мы считаем крайне важным, чтобы эти показатели устойчивости стали легкодоступными для повышения осведомленности и внедрения эффективных инноваций на алгоритмическом уровне, чтобы снизить воздействие ИИ на окружающую среду. Вот почему мы решили предоставить каждому специалисту по данным, проводящему обучение по tracebloc, информацию о вычислениях, используемых в flops (операциях с плавающей запятой), и выбрасываемых gCO2e (граммы эквивалента углекислого газа). Но об этом в другом посте.

Дайте мне знать, что вы думаете, и не стесняйтесь связаться с нами.

Источники:

[1] Тенденции вычислений трех эпох машинного обучения (2022 г.) https://arxiv.org/abs/2202.05924?trk=public_post_share-update_update-text

[2] Вычислительные пределы глубокого обучения (2020 г.) https://arxiv.org/abs/2007.05558

[3] Сэм Альтман об искусственном интеллекте. Революция, триллионеры и будущее политической власти — Шоу Эзры Кляйна (2021) https://www.nytimes.com/2021/06/11/opinion/ezra-klein-podcast-sam-altman.html

[4] Бенчмарк ImageNet https://paperswithcode.com/sota/image-classification-on-imagenet