Обозначение искусственного интеллекта как искусственного устанавливает разделение между биологическим интеллектом, которым обладает человеческий мозг, и способностями нейронных сетей, запрограммированных разработчиками программного обеспечения для машинного обучения, которое, возможно, больше, чем должно быть. Хотя этот термин существует уже около 70 лет, его применимость быстро уменьшается, поскольку разрыв между алгоритмами машинного обучения и биологическим мозгом продолжает сокращаться. Это не значит, что различия незначительны, скорее, большинство этих различий проистекает из одного и того же ограничения искусственного интеллекта — современных вычислительных мощностей.

Краткое введение в простые нейронные сети

Наиболее распространенный метод обучения нейронной сети заключается в повторении набора данных предварительно собранных входных данных модели и их соответствующих целевых выходных данных, чтобы аппроксимировать функцию, которая отображает первое во второе; это противоречит другому методу, называемому Deep Q-Learning, в котором модель делает прогнозы на основе своих наблюдений за виртуальной средой. Сама сеть обычно состоит из ряда взаимосвязанных слоев, состоящих из любого количества нейронов. В этом контексте термин «нейрон» относится к функции, которая принимает n числовых входных данных, вычисляет их взвешенную сумму, добавляет изученную константу (называемую смещением), применяет функцию активации и возвращает результат. . Это может быть представлено следующим:

Результатом в этом случае является числовое значение, сравнимое с нейротрансмиттерами, высвобождаемыми биологическими нейронами. Чтобы сделать сравнение более наглядным, одна из распространенных функций активации, ReLU (Rectified Linear Unit), возвращает max(0, input), что означает, что отрицательный ввод дает нулевой вывод, а положительный ввод передается через без изменений. Из-за этого отрицательный вход в активацию ReLU очень похож на нейротрансмиттер, вызывающий тормозную реакцию, и положительный вход в нейротрансмиттер, вызывающий возбуждающую реакцию. Сам по себе один нейрон может представлять только варианты своей функции активации — нейрон с линейной активацией эффективен только для аппроксимации линейной функции, гиперболическая касательная активация эффективна только для аппроксимации гиперболической касательной функции и т. д. Когда многие из этих нейронов однако в сочетании их способность аппроксимировать функции значительно возрастает.

Обучение нейронной сети и предотвращение потерь

Процесс обучения модели с заданным набором данных аналогичен концепции предотвращения потерь в том, что модель награждается не по ее точности, а по величине ее ошибки, обычно называемой ее потерей. Хотя традиционно во время обучения нейронной сети не существует какой-либо формы оценки риска перед принятием решения, ее обучение определяется необученной предварительно запрограммированной функцией, которая измеряет ее потери. Затем значение этой потери распространяется обратно по слоям модели, изменяя ее веса и смещения на заданную величину, называемую скоростью обучения. В результате процесс обучения нейронной сети аналогичен понятию неприятия потерь — его ошибка влияет на процесс обучения модели сильнее, иногда бесконечно сильнее, чем ее успех.

Причины расставания

Хотя основные свойства искусственных нейронов очень похожи на свойства биологических нейронов, общая архитектура большинства современных нейронных сетей отличается от взаимодействия нейронов в мозге. Как правило, нейронные сети являются последовательными в своей обработке, что означает, что входы сопоставляются непосредственно с выходами, практически без бокового взаимодействия между нейронами одного слоя. Напротив, нейроны в мозге функционируют асинхронно и имеют частое латеральное взаимодействие (особенно в отношении обработки изображений). Хотя это действительно приводит к одному различию между ними, это не главная причина ограничений нейронных сетей по сравнению с человеческим мозгом.

Креативность

Одно конкретное ограничение, которое их разделяет, — спорное отсутствие реального творчества, присутствующего в нейронных сетях. В попытке имитировать творчество некоторые используют метод псевдослучайной выборки, при котором модель выводит набор логитов, а во время логического вывода производит выборку из этих логитов, используя их относительные значения в качестве вероятности выбора каждого прогноза (GPT3 — это естественный язык модель обработки, которая использует этот метод). Хотя это эффективно для задач, которые имеют фиксированное количество возможных прогнозов или классов, модели генерации изображений обычно используют другой метод для имитации творчества. Стабильная диффузия и Dall·E 2 являются примерами моделей, которые используют случайное распределение шума в качестве входных данных наряду с текстовым вводом, что позволяет модели производить разные релевантные выходные данные для одного и того же текстового ввода из-за различного входного шума. В то время как эти модели выполняют свои задачи таким образом, что эффективно имитирует творчество, потребность в этой симуляции вместо реального творчества вызвана размером этих моделей по сравнению с человеческим мозгом. Dall·E 2 имеет примерно 3,5 миллиарда обучаемых параметров, а GPT3 — около 175 миллиардов, но хотя они могут показаться значительными по размеру, человеческий мозг может иметь от 100 до 500 триллионов связей между примерно 100 миллиардами нейронов. Чтобы точно смоделировать 500 триллионов обучаемых параметров, чтобы соответствовать возможностям мозга, машине, выполняющей обучение, потребуется не менее 1,77 ПБ встроенной памяти GPU или TPU. Для сравнения: для достижения необходимой производительности потребуется около 1000 дубликатов суперкомпьютера UCSD.

Рекомендации

Бойл, Мэри. COGS 2. Лекция 7, Неприятие потерь, 20 октября 2022 г., Калифорнийский университет, Сан-Диего. Классная лекция.

Браун, Том и др. «Языковые модели — это малоэффективные ученики». Достижения в области нейронных систем обработки информации 33 (2020): 1877–1901.

Драхман, Дэвид А. Есть ли у нас лишние мозги? Неврология, Wolters Kluwer Health, Inc. от имени Американской академии неврологии, 28 июня 2005 г., https://n.neurology.org/content/64/12/2004.

Расширить технические характеристики системы. Суперкомпьютерный центр Сан-Диего, Регенты Калифорнийского университета, https://www.sdsc.edu/services/hpc/expanse/expanse_system_spec_table.html.

Графический процессор Nvidia V100 с тензорным ядром. NVIDIA, корпорация NVIDIA, https://www.nvidia.com/en-us/data-center/v100/.

Рамеш, Адитья и др. «Нулевая генерация текста в изображение». Международная конференция по машинному обучению. ПМЛР, 2021.