Недавно я смотрел отличный доклад доктора Тома Гольдштейна, сделанный в Национальном научном фонде, в котором он обсуждал текущие ограничения исследований в области машинного обучения (МО) и пути решения этих проблем. Фундаментальная суть его аргумента — что исследования машинного обучения должны быть сосредоточены больше на экспериментах, а не на теории — устраняет многие недостатки в исследованиях машинного обучения и затрагивает несколько интересных идей в теориях разума, сложных систем и разработки истинных искусственный интеллект (ИИ).

Извлекая уроки из науки

В современной парадигме фундаментальных исследований машинного обучения эксперименты, как правило, основаны на теории. В частности, многие исследователи пытаются продвигать машинное обучение с помощью исследовательского процесса в математическом стиле, в котором новые теоремы логически выводятся из существующих теорем, лемм и следствий в корпусе знаний машинного обучения. Затем экспериментальные исследования пытаются подтвердить эти теории, потенциально используя игрушечный набор данных для демонстрации предсказаний теории. В этой парадигме недопустима публикация экспериментальных результатов, не подкрепленных теорией. В своем выступлении доктор Гольдштейн приводит примеры двух работ, над которыми он работал, которые дали удивительные и противоречивые результаты, но были основаны на эмпирических экспериментах, а не на строгих доказательствах. В результате обе статьи изо всех сил пытались быть принятыми на авторитетных конференциях. Однако теоретические результаты, противоречащие экспериментальным данным, как правило, все еще публикуются, несмотря на кажущуюся непоследовательность.

Напротив, экспериментальный подход, используемый в науке, переворачивает иерархию в машинном обучении. Теория становится подвластной эксперименту — цель теории переключается на объяснение того, что мы наблюдаем в реальном мире. Теория бесполезна, если она не согласуется с уже существующими экспериментальными результатами, а ранее принятые теории отбрасываются, если новые экспериментальные результаты опровергают их. Перенос этой парадигмы на исследования в области машинного обучения приведет к тому, что наибольший прогресс будет связан с попытками новых идей на реальных наборах данных. Затем теории ретроспективно попытались бы связать воедино экспериментальные результаты испытаний новых сетевых архитектур, гиперпараметров и методов предварительной обработки, разработав объяснение результатов, которые мы уже проверили эмпирически. Это не только привело бы к созданию теорий, более соответствующих тому, как машинное обучение работает в реальном мире, но и освободило бы прогресс прикладного машинного обучения от ограничений существующей теории. Фундаментальные исследования теперь будут напрямую ориентированы на эмпирическую демонстрацию новых идей на реальных наборах данных, что еще больше ускорит применение машинного обучения.

Хотя это направление мысли очень привлекательно, оно поднимает ключевой вопрос: почему исследования в области машинного обучения лучше подходят для методов, основанных на экспериментах, а не для методов, основанных на теории?

Теория сложности

Прежде чем мы углубимся в то, почему нисходящие теории машинного обучения так сложно построить с помощью дедуктивной логики, давайте сделаем небольшой экскурс в теорию сложности. Согласно Википедии, сложность определяется следующим образом:

Сложность характеризует поведение системы или модели, компоненты которой взаимодействуют разными способами и следуют местным правилам, а это означает, что нет разумных вышестоящих указаний для определения различных возможных взаимодействий.

По сути, сложные системы строятся на агентах, действующих по довольно простым правилам. Эти агенты обычно ограничены расстоянием, доступной информацией или другими ограничивающими факторами. В качестве упрощенного примера подумайте о взаимодействии между людьми в экономике. Действия каждого человека ограничены его географическим положением, его ограниченными знаниями об окружающем мире и доступными ресурсами. Если мы рассмотрим экономику, недоступную для кредита, действия каждого агента по существу состоят из покупки или продажи товаров и услуг в рамках этих ограничений. В то время как пространство для действий (купить и продать) довольно мало, а ограничения, налагаемые на каждого отдельного агента (знания, географическое расстояние, доступные ресурсы), значительно ограничивают масштаб их действий, взаимодействие между агентами и их решения приводят к чрезвычайно сложной экономике. Чтобы сделать это более конкретным, описание экономических решений, доступных купцу или фермеру в Римской империи, может быть довольно простым, описание экономической машины Рима, которая по существу сводится к взаимодействию между многими торговцами и фермерами, является чрезвычайно сложной задачей.

Это свойство сложных систем, в которых очень сложное поведение развивается в результате взаимодействия между ограниченными агентами, действующими из небольшого набора возможных действий, известно как возникновение. Такое поведение делает описание сложных систем в терминах нисходящей теории чрезвычайно трудным, если не невозможным. Эти системы должны быть определены с точки зрения взаимодействия между их составными частями — только тогда глобальное поведение становится ясным. Это ключевой компонент разумного поведения многих систем, которые мы наблюдаем в природе, и он необходим для понимания эмерджентных свойств нейронных сетей.

Биологические и искусственные нейронные сети как сложные системы

Мозг, самая мощная из известных мыслительных машин, состоит примерно из 86 миллиардов нейронов. Каждый отдельный нейрон ведет себя довольно просто — он получает информацию из окружающей среды в виде давления, растяжения, химических передатчиков и изменений электрического потенциала на клеточной мембране. Затем этот ввод определяет, «включается» нейрон или нет. То есть напряжение клеточной мембраны быстро возрастает и падает, создавая электрический всплеск в ответ на ввод. Ключевая часть мозга и причина, по которой нейроны не являются простыми машинами для скачков напряжения, заключается в том, что каждый нейрон связан с тысячами других нейронов через синапсы. Таким образом, электрические всплески, возникающие в одном нейроне, распространяются на тысячи других, либо подавляя, либо облегчая всплески в этих нейронах. В свою очередь, сигналы этих нейронов распространяются на другие нейроны, создавая каскад нейронной активации.

Эти каскады нейронной активации создают сложное поведение, такое как ваша способность читать эту статью, одновременно осознавая себя, свои мысли и свои эмоции, несмотря на то, что начинается с довольно простого процесса — активации одного нейрона. Лучше всего это отражено Бассеттом и Газзанигой в их статье 2011 года Понимание сложности человеческого мозга:

Возможно, проще всего возникновение — сознания или чего-то другого — в человеческом мозгу можно рассматривать как характеристику взаимодействия между двумя широкими уровнями: разумом и физическим мозгом. Чтобы визуализировать эту дихотомию, представьте, что вы идете с Лейбницем по мельнице. Учтите, что вы можете взорвать мельницу в таком размере, что все компоненты будут увеличены, и вы сможете ходить среди них. Все, что вы найдете, это механические компоненты, которые толкают друг друга, но практически нет никаких следов работы всей мельницы, представленной на этом уровне. Эта аналогия указывает на важный разрыв в интерфейсе между разумом и мозгом: хотя материальные компоненты физического мозга могут быть легко разложимы, ментальные свойства кажутся фундаментально неделимыми.

Когда мы приближаемся к одному нейрону, функциональность кажется довольно простой, но эмерджентные свойства разума полностью скрыты. Именно взаимодействия между огромным количеством нейронов управляют очень сложным поведением, демонстрируемым людьми и другими животными с большим количеством взаимодействующих нейронов и нейронных связей. Таким образом, нисходящие теории интеллекта и функций мозга были сорваны — разработка компактной теории функций мозга сродни разработке компактной теории, описывающей взаимодействие сотен миллионов людей в экономике США.

Точно так же искусственные нейронные сети состоят из искусственных нейронов, в общих чертах основанных на их биологических эквивалентах. Между нейронами в сети устанавливаются связи, подобные синапсам в человеческом мозгу, что позволяет искусственным нейронам передавать сигналы друг другу. Глубокие нейронные сети, наиболее успешный пример машинного обучения в этой области на сегодняшний день, объединяют несколько слоев нейронов между входным и выходным слоями. Эти дополнительные слои допускают огромное количество нейронов и соединений (языковая модель GPT-3 имеет около 175 миллиардов параметров, что примерно соответствует количеству нейронов и соединений, доступных в модели). Эти огромные сети, как и в случае с биологическими нейронными сетями, демонстрируют разумное поведение, несмотря на относительно простые компоненты. Это зафиксировано Тестолином, Пикколини и Сувейсом в их статье 2018 года Системы глубокого обучения как сложные сети.

…в глубоком обучении даже идеальное знание того, как работает отдельный нейрон (узел) сети, не позволяет понять, как происходит обучение, почему эти системы так эффективно работают во многих различных задачах и как они избегают попадания в ловушку конфигураций, которые ухудшить вычислительную производительность. В этих моделях взаимодействия играют решающую роль в процессе обучения, поэтому шагом вперед к более полному пониманию систем глубокого обучения является их изучение также с точки зрения возникающих топологических свойств.

Сами нейроны управляются довольно простыми законами, но взаимодействие между этими нейронами приводит к невероятно сложному поведению, такому как автоматические программы преобразования речи в текст, беспилотные автомобили и программы распознавания лиц. Учитывая то, что мы знаем о сложных системах и свойстве эмерджентности, кажется разумным, что глубокие нейронные сети было бы трудно описать без учета взаимодействий между миллиардами нейронных связей, составляющих сеть. Поиск нисходящих теорий, основанных на дедуктивных логических рассуждениях, может оказаться бесплодным в этом сложном случае.

Экспериментальные исследования как решение проблемы понимания сложности

Теперь, возвращаясь к нашей первоначальной теме, мы можем начать видеть, как экспериментальные методы решают фундаментальные проблемы понимания сложных систем. Глубокие нейронные сети и другие методы машинного обучения, основанные на крупномасштабных взаимодействиях между простыми компонентами, плохо поддаются теоретическому пониманию сверху вниз. Однако мы можем выявить эмерджентное поведение этих систем, используя наборы данных реального мира, выбрав конкретное поведение, которое мы хотели бы изучить, и построив эксперименты, чтобы понять эмерджентное поведение рассматриваемой сети.

Например, мы можем построить эксперименты, чтобы увидеть, как количество итераций, необходимых для сходимости весов сверточной нейронной сети, изменяется по мере увеличения или уменьшения качества набора данных изображения. Хотя этот экспериментальный результат не объясняет фундаментально, почему скорость сходимости сети ведет себя именно так, как она есть, он дает нам представление об эмерджентном поведении сложной системы, а именно, самой сверточной нейронной сети. Получив достаточно экспериментальных результатов такого рода, мы сможем собрать воедино идеи, чтобы начать понимать поведение этих сетей и то, как они реагируют на различные стимулы. Я считаю, что этот тип понимания, предложенный доктором Гольдштейном, хотя и лишенный с точки зрения теоретических объяснений и обоснований, облегчит путь к значительным улучшениям в машинном обучении как в академических кругах, так и в промышленности.



Стать писателем