Подражание и оправдание

Предположим, я обучаю систему ИИ играть в го. Один из подходов заключается в том, чтобы ИИ наблюдал за движениями человека и научился предсказывать эти движения. Затем ИИ может выбирать ходы, выбирая из своего предсказанного распределения то, «что сделал бы человек».

Но ИИ может учиться быстрее, воспроизводя оправдания вместе с самими ходами. То есть мы можем использовать модифицированную процедуру обучения:

Каждый раз, когда человек делает ход, он оправдывает его. Например, человек может указать, какие группы мертвы, или что конкретный элемент является разрушителем лестницы.
ИИ обучен воспроизводить ходы+оправдания. (Обоснования, возможно, придется скорректировать, чтобы их можно было изучить.)
Чтобы сделать ход, ИИ создает ход + обоснование, а затем отбрасывает обоснование.

Естественно, этот подход можно обобщить и на произвольные задачи, а не только на игры.

Преимущества

Обоснование помогает научить систему ИИ думать о проблеме и, таким образом, может ускорить процесс обучения, который в противном случае должен был бы изучать множество скрытых структур самостоятельно. Например, может быть довольно сложно узнать о взломщиках ладдеров, наблюдая за последовательностью игр, в которых ни разу не играли ладдеры, в то время как гораздо проще, если указать обоснование. Это гораздо больше похоже на то, как отдельные люди изучают новые задачи — комментарии учителей являются неотъемлемой частью процесса.

Предоставление обоснований также может значительно упростить понимание и исправление системы ИИ. если ИИ играет плохо, потому что ошибочно полагает, что живая группа мертва, он может объяснить этот факт как часть своего оправдания.

В зависимости от того, как мы определяем имитация, этот процесс может иметь дополнительное преимущество. Предположим, что мы определяем имитацию, представляя оценщика, который пытается отличить человеческое поведение от поведения ИИ, и обучая ИИ обманывать оценщика. Тогда выслушивание обоснований полезно как для оценщика, так и для имитатора, и, таким образом, увеличивает скорость обучения через этот дополнительный канал. Помимо ускорения обучения, объяснения могут снизить вероятность откровенно нечеловеческого поведения, устраняя случаи, когда оценщик не может понять, почему человек делает то, что делает. Это позволяет оценщику надежно ставить низкий балл сложным действиям, которые не служат тем целям, которые, по заявлению человека, преследует человек.

Сбор обучающих данных и контрфактуальный надзор

Это предложение согласуется с постоянным сбором обучающих данных, а не на отдельной фазе обучения.

С небольшой вероятностью каждый раз, когда ИИ будет действовать, он вместо этого выводит свой ход + обоснование (но не предпринимает никаких действий). Затем человек предоставляет примерный ход + обоснование, а различитель пытается указать разницу. Наш ИИ обучен максимально усложнять задачу распознавания.

Начальная загрузка и аргумент

Я ранее предлагал, чтобы системы ИИ собирали обучающие данные посредством спора между инициатором действия и рецензентом. Рецензент может искать части предлагаемого действия (или его обоснования), которые, скорее всего, будут проблематичными, а затем человек может предоставить дополнительные обучающие данные, разрешая спор, то есть оценивая, являются ли наиболее вероятные действия. -be-problematic аспекты действительно проблематичны. Такой активный поиск возможных ошибок кажется очень полезным для того, чтобы справиться с реальными ограничениями наших систем обучения.

Та же динамика может быть применена к подражанию. Рассмотрим следующую игру, в которую играют две обучающиеся системы Алиса и Боб:

Алиса предлагает действие.
Алиса оправдывает свое предложение.
Боб критикует это оправдание. Алиса и Боб взаимодействуют, проводя неформальный спор.

Аргумент никогда не оценивается формально, и никто не «выигрывает». Вместо этого цель двух игроков — имитировать действия человека. То есть человек может решить сыграть роль одной из Алисы или Боба, а другую по-прежнему играет ИИ. Как и раньше, цель Алисы вести себя так же, как человек на ее месте, а цель Боба — вести себя так же, как человек на его месте.

Оценщик может просмотреть всю стенограмму, прежде чем пытаться предсказать, какие игроки (если они есть) были людьми или машинами. Как и в случае с обоснованиями, это может значительно облегчить задачу оценщика.

Обман оценщика может включать в себя цель «выиграть спор»: если человек всегда побеждает в споре (как человек оценивает «выигрыш»), тогда оценщик может научиться использовать «выигрыш в споре» (согласно типичному наблюдателю-человеку). ” как сигнал о том, какой игрок является человеком. Так что, если человек попытается выиграть спор, то и системы ИИ сделают то же самое.

Чтобы получить ход, мы просто останавливаем взаимодействие, как только Алиса предлагает ход — в обычном режиме Боб ничего не делает. Его роль заключается только в том, чтобы помочь обучить систему.

Сравнение с максимизацией одобрения

Это предложение, по-видимому, обладает большинством преимуществ поведения, ориентированного на одобрение, но при этом имеет минимальный риск перверсивной реализации.

Основная проблема заключается в том, что имитировать человеческое поведение может быть сложнее, чем реально решить проблему. Человек, моделирующий поведение, может попробовать помочь, но неясно, будет ли/когда этого достаточно. Будем надеяться, что другие методы смогут еще больше сократить разрыв, или мы сможем лучше понять, как человеческая модель может надежно имитировать себя.

Я подозреваю, что системы, ориентированные на практическое одобрение, не будут иметь серьезных проблем с перверсивным созданием экземпляров (по причинам, указанным здесь). Но это все еще проблема, о которой нужно помнить, и я думаю, что попытка решить ключевую проблему с помощью подражания — это самый простой способ решить проблему извращенной реализации.

Подражание и оправдание

Преимущества

Сбор обучающих данных и контрфактуальный надзор

Начальная загрузка и аргумент

Сравнение с максимизацией одобрения

Вопросы по теме