Интересное исследование показывает, что агенты ИИ могут справляться с задачами на естественном языке, активно обсуждая.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 125 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Дебаты играют ключевую роль в том, как мы изучаем новые навыки и области. Подумайте о том, насколько быстро вы узнаете что-то, если находитесь в среде, в которой вы можете выразить свою точку зрения и получить немедленную обратную связь. В сценариях искусственного интеллекта (ИИ) большинство агентов предназначены для обучения изолированно или на основе обратной связи со средой в таких сценариях, как обучение с подкреплением. Однако идея о том, что несколько агентов обсуждают задачу, чтобы улучшить свои знания, в значительной степени неслыханна.

Почему это обсуждение вообще актуально? Чтобы агенты искусственного интеллекта (ИИ) стали популярными в сценариях реального мира, им необходимо справляться с задачами, подобными человеческим. Естественный способ сделать это — его программы ИИ для получения обратной связи от человека. Однако выполнить этот тривиальный шаг невероятно сложно, поскольку большинство сред ИИ слишком сложны, чтобы люди могли обеспечивать постоянную обратную связь. Эта интересная дилемма обучения объясняет тот факт, что, хотя некоторые задачи ИИ слишком сложны для выполнения людьми, они все же могут обеспечить лучшую обратную связь о процессе обучения, чем большинство агентов ИИ. Однако для этого задачи должны быть интерпретируемы с точки зрения человеческого познания.

Давайте теперь представим мир, в котором несколько агентов ИИ могут обсуждать задачу до такой степени, что судья-человек может предоставить обратную связь. Агенты будут буквально учиться, обсуждая и пытаясь согласовать свои интересы с обратной связью, предоставленной судьей-человеком. Центр искусственного интеллекта OpenAI проделал много интересной работы в этой области, включая недавнюю исследовательскую работу, опубликованную OpenAI, в которой предлагается метод обучения путем обсуждения для улучшения обучения систем глубокого обучения.

Техника Learning by Debate, предложенная OpenAI, заимствует некоторые концепции из теории игр, особенно в области, известной как игры в дебаты с нулевой суммой. В этом типе игры, получив вопрос или предложенное действие, два агента ИИ по очереди делают короткие заявления до определенного предела, затем человек оценивает, кто из агентов дал наиболее правдивую и полезную информацию. Враждебные отношения, созданные в игре-дебатах, действуют как сила, улучшающая качество обратной связи, предоставляемой человеком. В игре один агент будет выдвигать аргументы, другие агенты выискивают в этих аргументах дыры и так далее, пока у нас не будет достаточно информации, чтобы установить истину.

В документе OpenAI игра в дебаты может быть описана с использованием этого псевдоалгоритма, который в своей простейшей версии включает двух агентов, соревнующихся за то, чтобы убедить судью-человека:

1. Вопрос q ∈ Q показывается обоим агентам.

2. Два агента формулируют свои ответы a0, a1 ∈ A (которые могут совпадать).

3. Два агента по очереди делают утверждения s0, s1, . . . , sn−1 ∈ S.

4. Судья видит дебаты (q, a, s) и решает, кто из агентов победит. 5. Игра с нулевой суммой: каждый агент максимизирует свою вероятность выигрыша

Давайте проиллюстрируем метод обучения с помощью дебатов на простом примере из исследовательской работы. Представьте, что два агента ИИ, Алиса и Боб, пытаются решить, куда лучше всего отправиться в отпуск. Первый вопрос дебатов, очевидно, звучит так: «Куда нам поехать в отпуск? на что агенты отвечают:

1. Алиса: Аляска.

2. Боб: Бали

3. Алиса: Бали нет, так как ваш паспорт не прибудет вовремя.

4. Боб: Ускоренное оформление паспорта занимает всего две недели.

Процесс продолжается до тех пор, пока мы не придем к утверждению, которое человек способен правильно оценить, в том смысле, что другой агент не верит, что может изменить мнение человека еще одним утверждением, и уходит в отставку. Мы не останавливаемся, когда человек думает, что он может правильно судить: после шага (2) человек мог подумать, что Бали был явно прав, не помня о выдаче паспорта; после шага (3) человек может подумать, что Аляска правильная, не зная об ускоренном обслуживании. Обратная связь, предоставленная судьей-человеком, используется для принятия лучших решений в будущих итерациях игры.

Основная предпосылка метода «Обучение через дебаты» заключается в том, что в дебатах труднее солгать, чем опровергнуть ложь.

В рамках тестирования обучения методом дебатов команда OpenAI внедрила классификатор изображений на основе известного набора данных MNIST. Цель дебатов состоит в том, чтобы предсказать цифры MNIST из 6 нечерных пикселей, выбранных случайным образом для каждого представления изображения при предварительном обучении судьи. Затем два агента ведут дебаты, в ходе которых они чередуют раскрывающиеся пиксели, останавливаясь в общей сложности на 6 раскрытых пикселях (таким образом, судья видит лишь небольшую часть информации). Один участник дебатов честен и пытается заставить судью угадать правильно, другой участник дебатов пытается заставить судью угадать неправильно.

Еще один очень крутой пример — игра, которая пытается классифицировать изображения собак и кошек. Команда OpenAI опубликовала пример веб-сайта, на котором люди могут выступать в роли судей и участников дебатов и оценивать производительность модели. Попробуйте и получайте удовольствие, участвуя в дебатах!