Искусственные нейронные сети должны работать так же, как у нас в голове

Искусственный интеллект углубляет свое влияние во всех аспектах жизни в эпоху цифровых технологий: от нашей личной деятельности в Интернете и бизнес-приложений в промышленности до ускорения исследований по таким серьезным проблемам, как изменение климата и разработка вакцин.

Это явление вдохновило многие технологические компании на создание решений ИИ, предназначенных для ускорения машинного обучения (МО) и других форм передовых вычислений. Те, кто с наибольшей вероятностью вырвется из толпы и победит, сосредоточены на оптимизации производительности в трех областях:

· Эффективность: решения, которые вычисляют только то, что необходимо, и делают это на лету (динамически).

· Широкая масштабируемость: достигается благодаря архитектуре, которая тесно интегрирует вычисления и сеть.

· Общее назначение: гибкость для решения широкого круга вычислительных задач/задач машинного обучения.

С этой целью одной из самых многообещающих новых компаний в этой области является Tenstorrent. Компания Tenstorrent, основанная в 2016 году, решает каждую из этих задач с помощью комплексного решения, включающего инновационное аппаратное и программное обеспечение, которое в совокупности делает вычисления ИИ намного более эффективными и доступными для больших и малых организаций. Сделать глубокое обучение более масштабируемым и менее ресурсоемким имеет решающее значение для демократизации ИИ и раскрытия его полного потенциала.

Чтобы понять, как Tenstorrent достигает этого, давайте посмотрим, как искусственные нейронные сети, обеспечивающие ИИ, эволюционировали в промышленности по сравнению с нами, людьми. Титаны технологий, такие как Alphabet, Amazon, Facebook и Microsoft, построили обширные сети центров обработки данных, которые занимают бесчисленные акры земли и быстро расширяются по мере роста потребностей в вычислительных ресурсах.

Это связано с тем, что в настоящее время существует более прямая зависимость между размером моделей машинного обучения и количеством аппаратного обеспечения, необходимого для обеспечения необходимой вычислительной мощности. Но не вся эта вычислительная мощность необходима для большинства задач, связанных с ИИ. Говоря человеческим языком, это было бы похоже на 100-процентную активацию нашего мозга каждый раз, когда мы завязываем шнурки на ботинках, едим еду или смотрим фильм. Помимо безумия, это было бы биологически неустойчиво.

Вместо этого наша нервная система эволюционировала таким образом, что мы обычно используем только кусочек нашего мозга, задействуя только наиболее важные области для данной задачи. Tenstorrent добился такой эффективности благодаря своему решению ИИ, которое выполняет «мелкозернистые условные вычисления».

Гибкость и масштабируемость этого подхода позволяют быстрее делать выводы и проводить обучение в широком спектре вариантов использования — от центров обработки данных до периферийных устройств. С аппаратной стороны это достигается благодаря уникальной архитектуре процессора Tenstorrent:

Tenstorrent представила эту карту расширения под названием Grayskull на конференции процессоров Linley Spring в апреле. Это ответ компании на компьютерные процессоры (ЦП) и графические процессоры (ГП), которые в настоящее время используются для приложений ИИ. Но графические процессоры, как следует из названия, были созданы для быстрой обработки тяжелых математических вычислений для рендеринга графики в таких продуктах, как видеоигры. Они не были предназначены для разработки алгоритмов ИИ.

И все же GPU остается отраслевым стандартом. Эти процессоры используются для обучения подавляющего большинства современных нейронных сетей, даже самых крупных, таких как BERT и GPT-1, 2 и 3, которые используются для обработки естественного языка.

Ученые-компьютерщики обучают эти сети, передавая им огромные объемы данных для настройки миллионов и даже миллиардов параметров, чтобы они могли точно выполнять такие действия, как распознавание лиц и изображений или генерировать связный и убедительный текст. Некоторые прошли обучение по всей Википедии или, в других случаях, настроили поисковый робот и включили в процесс обучения всю Всемирную паутину.

Последняя модель OpenAI, GPT-3, способна на удивительные вещи, такие как написание новостных статей, вирусных твитов и даже стихов. Но модель также требует огромного количества вычислений. В то время как его предшественник, GPT-2, мог работать на нескольких графических процессорах, для обучения GPT-3 требовались тысячи графических процессоров.

И это сопряжено с многочисленными затратами. С финансовой точки зрения только крупнейшие компании могут позволить себе обучать такие огромные сети, не говоря уже о том, чтобы платить за количество электроэнергии, необходимое для работы всего этого оборудования.

И это другая цена: для окружающей среды. По мере роста использования ИИ его потребление энергии и выбросы углерода становятся все более очевидными. Согласно одному исследованию, проведенному Массачусетским университетом в Амхерсте, электричество, необходимое для обучения трансформатора — типа модели глубокого обучения — может вызвать выброс более 626 000 фунтов углекислого газа. Это почти в пять раз больше выбросов среднего американского автомобиля.

В статье Computerworld, опубликованной в прошлом году, воздействие на окружающую среду представлено в глобальном масштабе:

«Недавние прогнозы показывают, что к 2025 году энергопотребление центров обработки данных составит 3,2 % от общего объема выбросов углекислого газа в мире, и они могут потреблять не менее пятой части мирового объема электроэнергии. К 2040 году на хранение цифровых данных будет приходиться 14 % мировых выбросов, примерно столько же, сколько сегодня в США».

Как говорит основатель и генеральный директор Tenstorrent Любиша Байич, для того, чтобы довести нейронную сеть до уровня интеллекта малыша, потребуется город, полный машин. Таким образом, заменив графические процессоры решением Tenstorrent, мы сможем удовлетворить растущий спрос на вычисления ИИ и машинного обучения, не заполняя целые муниципалитеты компьютерами.

На протяжении всей своей карьеры Любиша занимался инновациями у некоторых из самых влиятельных производителей компьютерных микросхем в мире. До Tenstorrent он возглавлял архитектуру питания и производительности в ведущей полупроводниковой компании Advanced Micro Devices (AMD). До этого он работал старшим архитектором в Nvidia, которую называют «домом, который построили графические процессоры».

Архитекторы и инженеры Tenstorrent по всей компании обладают многолетним опытом разработки продуктов в Altera, AMD, ARM, ATI, Bio-Rad, IBM, Intel и Nvidia. Они помогли создать отраслевые продукты, которые используются до сих пор. Таким образом, нет лучшей команды, чтобы справиться с рынком микросхем ИИ стоимостью 18,5 миллиардов долларов. Gartner ожидает, что продажи достигнут почти 44 миллиардов долларов в 2024 году.

На конференции прошлой весной Tenstorrent представил показатели производительности, показывающие, как условное выполнение позволило Grayskull работать во много раз лучше, чем ведущее сегодня решение. Результаты первых пилотных проектов с потенциальными клиентами также подтвердили обещание Tenstorrent вызвать сдвиг парадигмы в продвинутых вычислениях.

Когда мы впервые начали сотрудничать с компанией, у Ljubisa было две цели: первая заключалась в том, чтобы создать решение, которое превосходит существующие продукты на рынке, что они и продемонстрировали. Другое, гораздо более амбициозное видение заключалось в том, чтобы заставить нейронные сети работать так же эффективно, как человеческий мозг, и, в конечном счете, создать более устойчивое и достижимое будущее для ИИ.

Tenstorrent как никогда близок к достижению своей высокой цели и теперь хочет нанять крупные влиятельные учреждения, такие как ведущие исследовательские университеты и федеральные агентства, в качестве союзников в этой миссии, чтобы исправить неустойчивую траекторию развития ИИ. Один широко уважаемый отраслевой обозреватель, присутствовавший на мероприятии Linley, — Карл Фройнд, старший аналитик Moor Insights & Strategy — позже поделился своими мыслями о Tenstorrent в Forbes, что явно поддержало позицию компании.

«На мой взгляд, это объявление знаменует собой переход от чипов с большим количеством быстрых ядер и встроенной памяти и фабрики (что описывает большинство участников на сегодняшний день) к новому подходу к интеллектуальным вычислениям, в котором программное обеспечение, обучение, и чипы логического вывода координируют знания о сети, чтобы уменьшить объем вычислений. Грубая сила — это здорово, пока не появится что-то получше, и я думаю, что так оно и было».

Подпишитесь на Eclipse Ventures здесь, на Medium, а также в LinkedIn. Мы часто публикуем новые статьи!