Выравнивание Prosaic AI

(Связано: возможная позиция для управления ИИ.)

Вполне возможно, что мы создадим «прозаический» ОИИ, который не раскрывает никаких принципиально новых представлений о природе интеллекта и не обнаруживает каких-либо «неизвестных неизвестных». Я думаю, мы бы не знали, как согласовать такой AGI; более того, в процессе его построения мы не обязательно узнаем что-либо, что сделало бы проблему согласования более доступной. Поэтому я думаю, что понимание этого случая является естественным приоритетом для исследований согласованности ИИ.

В частности, я не думаю, что разумно говорить «мы узнаем, как перейти этот мост, когда подойдем к нему» или «невозможно выполнять значимую работу, не зная больше о том, как будет выглядеть мощный ИИ». Если вы думаете, что прозаический ОИИ правдоподобен, то мы, возможно, уже знаем, как будет выглядеть мост, когда мы доберемся до него: если мы не можем сделать значимую работу сейчас, то у нас есть проблема.

1. Прозаический АГИ

Теперь кажется возможным, что мы могли бы создать «прозаический» ОИИ, который может воспроизводить человеческое поведение, но не включает качественно новые идеи о том, «как работает интеллект»:

Вполне вероятно, что большая нейронная сеть может воспроизводить «быстрое» человеческое познание и что, связав ее с простыми вычислительными механизмами - кратковременной и долговременной памятью, вниманием и т. Д. - мы могли бы получить вычислительную архитектуру человеческого уровня.
Вполне вероятно, что вариант RL может обучить эту архитектуру реализации познания на уровне человека. Это, вероятно, будет включать некоторую комбинацию компонентов, таких как RL на основе моделей, имитационное обучение или иерархическое RL. В настоящее время на столе лежит целый ряд идей, которые изучаются; если вы не можете представить, чтобы какая-либо из этих идей работала, тогда я чувствую, что это провал воображения (если вы не видите чего-то, чего не вижу я).

Мы обязательно чему-то научимся, разрабатывая прозаический ОИИ. Сам факт отсутствия качественно новых идей удивителен. И помимо этого, мы получим еще несколько битов информации о том, какой конкретный подход работает, добавим целую кучу дополнительных деталей о том, как проектировать и обучать мощные модели, и фактически получим некоторые экспериментальные данные.

Но ни одна из этих разработок, похоже, фундаментально не меняет проблему согласования, и существующие подходы к согласованию ИИ не ограничивают такого рода информацию. На самом деле наличие ИИ перед нами может позволить нам работать в несколько раз эффективнее, но это не приведет к тому, что мы перейдем от «мы понятия не имеем, как действовать» к «теперь мы это понимаем».

2. Наше текущее состояние

2а. Концерн

Если мы построим прозаический сверхчеловеческий ОИИ, наиболее вероятно, что он будет обучен путем обучения с подкреплением (расширение других структур до сверхчеловеческой производительности потребует новых идей). Легко представить себе прозаическую систему RL, которая учится играть в игры со сверхчеловеческими уровнями компетентности и гибкости. Но у нас нет готового к работе подхода к обучению системы RL автономному следованию нашим ценностям.

Чтобы проиллюстрировать, как это может пойти не так, представьте, что RL используется для реализации децентрализованной автономной организации (DAO), которая максимизирует свою прибыль. Если бы у нас были очень мощные системы RL, такая DAO могла бы превзойти человеческие организации в широком спектре задач - производить и продавать более дешевые виджеты, но также влиять на политику правительства, вымогать / манипулировать другими участниками и т. Д.

Акционеры такого DAO могут иметь возможность получать ценность, которую он создает, до тех пор, пока они могут сохранять эффективный контроль над его вычислительным оборудованием / сигналом вознаграждения. Точно так же, пока такие DAO достаточно слабы, чтобы эффективно регулироваться существующими законами и учреждениями, они, вероятно, принесут пользу человечеству, даже если реинвестируют всю свою прибыль.

Но по мере совершенствования ИИ эти DAO станут намного сильнее, чем их владельцы-люди или правоохранительные органы. И у нас нет готового способа использовать прозаический AGI для реального представления интересов акционеров или для управления миром, в котором доминируют сверхчеловеческие DAO. В общем, у нас нет возможности использовать RL для реальной интерпретации и реализации человеческих желаний, вместо того, чтобы оптимизировать какой-то конкретный и легко рассчитываемый сигнал вознаграждения.

Я с пессимизмом смотрю на человеческие перспективы в таком мире.

2b. Вести себя осторожно

Мы могли бы ответить, не позволив мощным системам RL действовать автономно или ограничив их работу настолько, чтобы мы могли поддерживать эффективный контроль.

Это приводит нас к потенциально опасной ситуации: все соглашаются развернуть системы с ограниченными возможностями, над которыми они могут сохранять значимый контроль. Но любой субъект может получить экономическое преимущество, экономя на таком соглашении, и некоторые люди предпочтут мир, в котором доминируют агенты RL, а не мир, в котором доминируют люди. Итак, есть стимулы для отступничества; если системы RL очень мощные, то эти стимулы могут быть значительными, и даже небольшое количество перебежчиков может быстро обогнать честное большинство, использующее системы искусственного интеллекта с ограниченными возможностями.

Это делает ИИ разрушительной технологией с характеристиками, аналогичными, например, ядерное оружие, ситуацию я описал в моем последнем посте. Я думаю, что в долгосрочной перспективе нам нужно будет надежно справиться с подобной ситуацией, но я не думаю, что мы до этого дошли. Я думаю, что мы могли бы вероятно справиться с этой ситуацией, но определенно возникнет значительный риск возникновения проблем.

Ситуация особенно рискованна, если развитие ИИ на удивление быстрое, если проблема согласования оказывается на удивление сложной, если политическая ситуация напряженная или дисфункциональная, если в то же время другие дела идут не так, если развитие ИИ фрагментировано, если есть это большой «аппаратный навес» и т. д.

Я думаю, что существует относительно немного вероятных способов, которыми человечество могло бы навсегда и необратимо обезобразить свое наследие. Поэтому я крайне недоволен значительным риском неприятностей.

2c. Текущее состояние согласованности с ИИ

Мы знаем много подходов к согласованию, просто ни один из них не находится на стадии того, что вы действительно могли бы реализовать («готов к работе с лопатой») - вместо этого они находятся на стадии исследовательских проектов с непредсказуемым и потенциально длинный график.

Для конкретности рассмотрим два интуитивно привлекательных подхода к согласованию ИИ:

IRL: Системы искусственного интеллекта могут делать выводы о человеческих предпочтениях по человеческому поведению, а затем пытаться удовлетворить эти предпочтения.
Естественный язык: системы искусственного интеллекта могут понимать естественный язык и затем выполнять инструкции, описанные на естественном языке.

Ни один из этих подходов не готов к работе с лопатой в том смысле, что мы понятия не имеем, как на самом деле написать код, реализующий любой из них - вам нужно иметь несколько хороших идей, прежде чем вы даже узнаете, какие эксперименты проводить.

Мы можем надеяться, что эта ситуация изменится автоматически, когда мы будем создавать более сложные системы искусственного интеллекта. Но я не думаю, что это обязательно так. «Prosaic AGI» - это тот момент, когда мы можем записать какой-то код и сказать: «Может быть, это будет сверхчеловеческое RL, если вы запустите его с достаточной вычислительной мощностью и возитесь с ручками целую кучу». Но эти предложения по согласованию далеки от этой точки, и я не вижу никаких «известных неизвестных», которые позволили бы нам быстро сократить разрыв. (По своей конструкции прозаический ОИИ не включает неизвестных неизвестных.)

Так что, если завтра мы столкнемся с прозаическим ОИИ, мы будем в ситуации, описанной в предыдущем разделе, столько времени, сколько нам потребовалось, чтобы завершить одну из этих исследовательских программ (или разработать, а затем выполнить новую). Как я уже сказал, я думаю, что это вероятно было бы нормально, но это открывает неоправданно высокие шансы на действительно плохие результаты.

3. Приоритеты

Я думаю, что прозаический ОИИ, вероятно, должен стать главным центром текущих исследований согласованности. В этом разделе я буду аргументировать это утверждение.

3а. Легко начать сейчас

Выравнивание прозаического ИИ особенно интересно, потому что проблема сегодня почти так же решаема, как если бы прозаический ОИИ действительно был доступен.

Существующие предложения по согласованию слабо зависят от большинства деталей, которые мы узнаем при построении прозаического AGI (например, архитектуры моделей, стратегии оптимизации, уловки уменьшения дисперсии, вспомогательные цели…). В результате незнание этих деталей не является большой проблемой для работы по выравниванию. В конечном итоге мы можем достичь точки, в которой эти детали станут критически важными, но мы еще не достигли этого.

На данный момент поиск любого правдоподобного подхода к выравниванию, который работает для любой настройки неизвестных деталей, было бы большим достижением. Имея такой подход в руках, мы могли бы начать спрашивать, насколько он чувствителен к неизвестным деталям, но кажется преждевременным быть пессимистичным, прежде чем даже сделать этот первый шаг.

Обратите внимание, что даже в крайнем случае, когда наш подход к согласованию ИИ будет полностью отличаться для разных значений некоторых неизвестных деталей, ускорение от их предварительного знания составляет не более 1 / (вероятность наиболее вероятной возможности). Наиболее правдоподобно критичными деталями являются масштабные архитектурные решения, для которых пространство возможностей гораздо меньше.

3b. Важность

Если мы действительно разработаем прозаический ОИИ, не узнав больше о согласовании ИИ, я думаю, это будет плохой новостью (см. Раздел 2). Более раннее рассмотрение выравнивания или четкое понимание того, почему с ним невозможно справиться, может сделать ситуацию намного лучше.

Я думаю, что основной способ, которым понимание выравнивания может не удастся быть ценным, - это если окажется, что выравнивание очень простое. Но в этом случае мы также должны иметь возможность быстро решить ее сейчас (или, по крайней мере, иметь какое-то кандидат решение), а затем мы можем перейти к другим вещам. Поэтому я не думаю, что «выравнивание очень легко» - это возможность, которая не дает нам спать по ночам.

В частности, выравнивание для прозаического AGI будет менее важным, если мы на самом деле не будем развивать прозаический AGI, но я думаю, что это очень большая проблема:

Во-первых, я думаю, что есть разумная вероятность (›10%), что мы создадим прозаичный AGI. На данный момент, кажется, нет убедительных аргументов против такой возможности, и один из уроков последних 30 лет состоит в том, что алгоритмы обучения и большое количество вычислений / данных могут работать на удивление хорошо по сравнению с подходами, требующими понимания того, «как думать». . »

В самом деле, я думаю, что если бы в 1990 году вы заставили кого-то записать конкретный способ работы ОИИ, он мог бы легко вложить 10–20% своей массы в тот же кластер возможностей, который я сейчас называю «прозаическим». AGI ». И если вы попросите их угадать, как будет выглядеть прозаический ОИИ, я думаю, что они могли бы выложить больше 20–40%.

Во-вторых, даже если мы не будем разрабатывать прозаический AGI, я думаю, очень вероятно, что будет важное сходство между согласованием для прозаического AGI и согласованием для любого типа AGI, который мы на самом деле создаем. Например, независимо от того, какой AGI мы на самом деле создаем, он, вероятно, будет использовать многие из тех же методов, что и прозаический AGI, и в той степени, в которой эти методы создают проблемы для согласования, нам, вероятно, придется иметь с ними дело так или иначе.

Я думаю, что работа с конкретной моделью, которая у нас есть сейчас, - один из лучших способов добиться прогресса в согласовании, даже в тех случаях, когда мы уверены, что произойдет хотя бы одно качественное изменение в том, как мы думаем об ИИ.

В-третьих, я думаю, что исследования согласованности значительно более важны в тех случаях, когда мощный ИИ будет разработан относительно скоро. И в этих случаях вероятность прозаического AGI оказывается намного выше. Если прозаический ОИИ возможен, то я думаю, что есть значительный шанс построить ОИИ на человеческом уровне в течение следующих 10–20 лет. Я полагаю, что часы работы над согласованием, возможно, в 10 раз важнее, если ИИ будет разработан в следующие 15 лет, чем если бы он был разработан позже, просто на основе простой эвристики, основанной на убывающей предельной отдаче.

3c. Осуществимость

Некоторые исследователи (особенно в MIRI) считают, что согласование прозаического AGI, вероятно, неосуществимо - что наиболее вероятный подход к построению согласованного ИИ - это понимание интеллекта намного глубже, чем мы делаем сейчас, и что если нам удастся создать AGI прежде чем достичь такого понимания, мы попадаем в большие неприятности.

Я думаю, что это не должно вызывать у нас меньшего энтузиазма по поводу прозаического согласования ИИ:

Во-первых, я не считаю разумным занимать уверенную позицию по этому вопросу. Утверждения в форме «проблема X не может быть решена» действительно трудно понять, потому что вы боретесь против универсального квантора всех возможных способов, которыми кто-то может решить эту проблему. (Это очень похоже на сложность выражения «система X не может быть скомпрометирована».) В той степени, в которой существует какой-либо аргумент о невозможности согласования прозаического AGI, этот аргумент далек от того уровня строгости, который был бы убедительным.

Это означает, с одной стороны, что было бы неразумно приписывать высокую вероятность неосуществимости этой проблемы. С другой стороны, это подразумевает, что даже если проблема невыполнима, мы можем ожидать развития существенно более полного понимания того, почему именно это так сложно.

Во-вторых, если эта проблема действительно невозможна, это чрезвычайно важный факт с прямыми последствиями для того, что мы должны делать. Это означает, что мы не сможем быстро «догнать» по согласованию после разработки прозаического ОИИ, и поэтому нам нужно будет полагаться на координацию, чтобы предотвратить катастрофу. Как результат:

Мы должны немедленно начать подготовку к такому согласованию.
Сообществу ИИ было бы полезно существенно изменить направление своих исследований, чтобы избежать катастрофы, даже если это повлечет за собой большие социальные издержки.

Я думаю, что у нас пока нет убедительных доказательств неразрешимости этой проблемы.

Если бы мы могли получить очень веские доказательства, я ожидаю, что они существенно повлияют на изменение приоритетов исследователей и на отношение исследовательского сообщества к разработке ИИ. На самом деле, это, вероятно, также является предварительным условием для того, чтобы исследователи ИИ сделали серьезный шаг в сторону альтернативного подхода к разработке ИИ или начали серьезно говорить о том, какая координация потребуется, чтобы справиться с трудно согласованным ИИ.

Заключение

Я утверждал, что прозаический ОИИ постижим, что это очень привлекательная цель для исследования согласованности ИИ, и что это дает нам больше причин для энтузиазма по поводу общей управляемости согласования. На данный момент эти аргументы побуждают меня сосредоточиться на прозаическом ОИИ.