Краткое изложение конкретных проблем безопасности искусственного интеллекта

Автор Шагун Содхани

Прошло почти два года с тех пор, как исследователи из Google, Стэнфорда, Калифорнийского университета в Беркли и OpenAI выпустили статью Конкретные проблемы безопасности ИИ, но она по-прежнему остается одной из самых важных статей по безопасности ИИ. Даже по прошествии двух лет он представляет собой отличное введение в некоторые проблемы, с которыми сталкиваются исследователи при разработке искусственного интеллекта. В статье авторы исследуют проблему несчастных случаев - непреднамеренного и вредного поведения - в системах ИИ, а также обсуждают различные стратегии и текущие исследовательские усилия по защите от этих потенциальных проблем. В частности, авторы обращаются к вопросам предотвращения негативных побочных эффектов, взлома вознаграждений, масштабируемого надзора, безопасного исследования и устойчивости к распределительным изменениям, которые проиллюстрированы на примере робота, обученного убирать в офисе.

Мы еще раз возвращаемся к этим пяти темам здесь, резюмируя их из статьи, как напоминание о том, что эти проблемы по-прежнему являются серьезными проблемами, над которыми работают исследователи ИИ.

Избегайте негативных побочных эффектов

При разработке целевой функции для системы ИИ разработчик указывает цель, но не конкретные шаги, которым система должна следовать. Это позволяет системе ИИ придумывать новые и более эффективные стратегии для достижения своей цели.

Но если целевая функция не определена должным образом, способность ИИ разрабатывать свои собственные стратегии может привести к непреднамеренным вредным побочным эффектам. Рассмотрим робота, целевая функция которого - перемещать коробки из одной комнаты в другую. Цель кажется простой, но есть множество способов, по которым это может пойти не так. Например, если на пути робота стоит ваза, робот может сбить ее, чтобы достичь цели. Поскольку целевая функция ничего не упоминает о вазе, робот не знает, как ее избежать. Люди видят в этом здравый смысл, но системы искусственного интеллекта не разделяют наше понимание мира. Недостаточно сформулировать цель как «выполнить задачу X»; проектировщик также должен указать критерии безопасности, в соответствии с которыми задача должна быть выполнена.

Одним из простых решений было бы наказывать робота каждый раз, когда он воздействует на «окружающую среду», например, опрокидывая вазу или царапая деревянный пол. Однако эта стратегия может эффективно нейтрализовать робота, делая его бесполезным, поскольку все действия требуют определенного уровня взаимодействия с окружающей средой (и, следовательно, влияют на окружающую среду). Лучшей стратегией могло бы быть определение «бюджета» того, насколько система ИИ может влиять на окружающую среду. Это поможет свести к минимуму непреднамеренное воздействие, не нейтрализуя систему искусственного интеллекта. Кроме того, эта стратегия бюджетирования воздействия агента является очень общей и может быть повторно использована для решения множества задач, от уборки до вождения, финансовых транзакций и всего остального, что может делать система ИИ. Одним из серьезных ограничений этого подхода является то, что трудно количественно оценить «воздействие» на окружающую среду даже для фиксированной области и задачи.

Другой подход - научить агент распознавать вредные побочные эффекты, чтобы он мог избегать действий, ведущих к таким побочным эффектам. В этом случае агент будет обучен двум задачам: исходной задаче, заданной целевой функцией, и задаче распознавания побочных эффектов. Ключевая идея здесь заключается в том, что две задачи могут иметь очень похожие побочные эффекты, даже если основная цель различна или даже когда они работают в разных средах. Например, и робот-уборщик, и робот-маляр не должны сбивать вазы во время работы. Точно так же робот-уборщик не должен повредить пол независимо от того, работает он на заводе или в доме. Основное преимущество этого подхода заключается в том, что как только агент научится избегать побочных эффектов в одной задаче, он может нести эти знания при обучении другой задаче. По-прежнему будет сложно научить агент распознавать побочные эффекты.

Хотя разработка подходов к ограничению побочных эффектов полезна, самих по себе этих стратегий недостаточно. Системе искусственного интеллекта по-прежнему необходимо будет пройти всестороннее тестирование и критическую оценку перед развертыванием в реальных условиях.

Взлом награды

Иногда ИИ может придумать какой-то «взлом» или лазейку в конструкции системы для получения незаслуженных вознаграждений. Поскольку ИИ обучен максимизировать свои награды, поиск таких лазеек и «ярлыков» является совершенно справедливой и действенной стратегией для ИИ. Например, предположим, что робот-уборщик офиса получает вознаграждение только в том случае, если он не видит мусора в офисе. Вместо того, чтобы убирать место, робот мог просто отключить свои визуальные датчики и, таким образом, достичь своей цели - не видеть мусор. Но это явно ложный успех. Такие попытки «обыгрывать» систему с большей вероятностью проявятся в сложных системах с нечетко определенными наградами. Сложные системы предоставляют агенту несколько способов взаимодействия с окружающей средой, тем самым давая ему больше свободы, а расплывчато определенные награды затрудняют оценку истинного успеха задачи.

Как и проблема с негативными побочными эффектами, эта проблема также является проявлением объективной ошибки в спецификации. Формальные цели или конечные цели для ИИ не определены достаточно хорошо, чтобы уловить неформальное «намерение», стоящее за созданием системы, то есть то, что на самом деле хотят от системы дизайнеры. В некоторых случаях это несоответствие приводит к неоптимальным результатам (когда робот-уборщик отключает свои визуальные датчики); в других случаях это приводит к пагубным результатам (когда робот-уборщик сбивает вазы).

Один из возможных подходов к смягчению этой проблемы - иметь «агента вознаграждения», единственная задача которого - отмечать, являются ли вознаграждения, предоставленные обучающему агенту, действительными или нет. Агент вознаграждения гарантирует, что обучающийся агент (робот-уборщик в наших примерах) не использует систему, а, скорее, выполняет желаемую задачу. В предыдущем примере человек-дизайнер мог обучить «агента вознаграждения» проверять, есть ли в комнате мусор (более легкая задача, чем уборка комнаты). Если робот-уборщик отключит свои визуальные датчики и потребует высокую награду, «агент вознаграждения» отметит награду как недействительную. Затем дизайнер может изучить награды, помеченные как «недействительные», и внести необходимые изменения в целевую функцию, чтобы исправить лазейку.

Масштабируемый надзор

Когда агент учится выполнять сложную задачу, человеческий контроль и обратная связь более полезны, чем просто вознаграждение из окружающей среды. Вознаграждения обычно моделируются таким образом, что они отражают степень выполнения задачи, но обычно не обеспечивают достаточной обратной связи о последствиях действий агента для безопасности. Даже если агент успешно выполнит задачу, он не сможет сделать вывод о побочных эффектах своих действий только по наградам. В идеальных условиях человек будет обеспечивать детальный контроль и обратную связь каждый раз, когда агент выполняет действие. Хотя это предоставит агенту гораздо более информативное представление об окружающей среде, такая стратегия потребует от человека слишком много времени и усилий.

Одним из многообещающих направлений исследований для решения этой проблемы является полу-контролируемое обучение, при котором агент по-прежнему оценивается по всем действиям (или задачам), но получает вознаграждение только за небольшую выборку этих действий (или задач). ). Например, робот-уборщик будет предпринимать разные действия для уборки комнаты. Если робот выполняет вредоносное действие, например, повреждает пол, он получает отрицательное вознаграждение за это конкретное действие. После выполнения задачи робот оценивается по общему эффекту от всех его действий (и не оценивается отдельно для каждого действия, такого как поднятие предмета с пола), и ему дается вознаграждение, основанное на общей производительности.

Еще одно многообещающее направление исследований - это иерархическое обучение с подкреплением, когда между различными агентами обучения устанавливается иерархия. Эту идею можно применить к роботу-уборщику следующим образом. Был бы робот-супервизор, задача которого - поручить роботу-уборщику некоторую работу (скажем, уборку одной конкретной комнаты) и предоставить ему обратную связь и вознаграждение. Робот-супервизор сам выполняет очень мало действий - назначает комнату роботу-уборщику, проверяет, чиста ли комната, и дает обратную связь - и не нуждается в большом количестве данных о вознаграждении для эффективного обучения. Робот-уборщик выполняет более сложную задачу по уборке комнаты и часто получает обратную связь от робота-диспетчера. Один и тот же робот-супервизор мог не обращать внимания на обучение нескольких чистящих средств. Например, робот-супервизор может делегировать задачи отдельным роботам-уборщикам и напрямую предоставлять им вознаграждение / обратную связь. Робот-супервизор может сам выполнять лишь небольшое количество абстрактных действий и, следовательно, может учиться на редких наградах.

Безопасное исследование

Важная часть обучения агента ИИ - убедиться, что он исследует и понимает свое окружение. Хотя в краткосрочной перспективе изучение окружающей среды может показаться плохой стратегией, в долгосрочной перспективе это может оказаться очень эффективной стратегией. Представьте, что робот-уборщик научился распознавать мусор. Он подбирает один кусок мусора, выходит из комнаты, выбрасывает его в мусорное ведро снаружи, возвращается в комнату, ищет другой кусок мусора и повторяет. Хотя эта стратегия работает, может быть другая стратегия, которая работает еще лучше. Если агент потратит время на изучение своего окружения, он может обнаружить, что в комнате есть мусорное ведро меньшего размера. Вместо того, чтобы перемещаться вперед и назад по одному предмету за раз, агент может сначала собрать весь мусор в меньший мусорный бак, а затем совершить одно путешествие, чтобы выбросить мусор в мусорное ведро снаружи. Если агент не предназначен для исследования своей среды, он не обнаружит эти стратегии экономии времени.

Тем не менее, во время исследования агент может также предпринять некоторые действия, которые могут нанести вред себе или окружающей среде. Например, предположим, что робот-уборщик видит пятна на полу. Вместо того, чтобы очищать пятна шваброй, агент решает попробовать новую стратегию. Он пытается соскребать пятна металлической щеткой и при этом повреждает пол. Трудно перечислить все возможные режимы отказа и жестко запрограммировать агент, чтобы защитить себя от них. Но один из подходов к снижению вреда - оптимизировать производительность обучающего агента в худшем случае. При разработке целевой функции разработчик не должен предполагать, что агент всегда будет работать в оптимальных условиях. Может быть добавлен некоторый явный сигнал вознаграждения, чтобы гарантировать, что агент не выполнит какое-либо катастрофическое действие, даже если это приведет к более ограниченным действиям в оптимальных условиях.

Другое решение может заключаться в том, чтобы ограничить исследование агентом смоделированной средой или ограничить степень, в которой агент может исследовать. Это аналогичный подход к составлению бюджета воздействия агента, чтобы избежать негативных побочных эффектов, с той оговоркой, что теперь мы хотим составить бюджет того, сколько агент может исследовать среду. В качестве альтернативы разработчики ИИ могли бы избежать необходимости исследования, продемонстрировав, как будет выглядеть оптимальное поведение в различных сценариях.

Устойчивость к изменениям в распределении

Сложная проблема при развертывании агентов ИИ в реальных условиях заключается в том, что агент может оказаться в ситуациях, с которыми он никогда раньше не сталкивался. Такие ситуации по своей природе более трудны для обработки и могут привести к вредоносным действиям агента. Рассмотрим следующий сценарий: робот-уборщик обучен убирать офисное пространство, взяв на себя все предыдущие задачи. Но сегодня сотрудник приносит в офис небольшое растение. Поскольку робот-уборщик раньше не видел растений, он может счесть растение мусором и выбросить его. Поскольку ИИ не осознает, что это ранее невидимая ситуация, он продолжает действовать так, как будто ничего не изменилось. Одно многообещающее направление исследований сосредоточено на выявлении того, когда агент столкнулся с новым сценарием, чтобы понять, что он с большей вероятностью сделает ошибки. Хотя это не решает основную проблему подготовки систем ИИ к непредвиденным обстоятельствам, это помогает обнаружить проблему до того, как произойдут ошибки. Другое направление исследований делает упор на безопасный перенос знаний из знакомых сценариев в новые сценарии.

Вывод

Короче говоря, общая тенденция заключается в увеличении автономности систем ИИ, а с увеличением автономности увеличивается вероятность ошибки. Проблемы, связанные с безопасностью искусственного интеллекта, с большей вероятностью проявятся в сценариях, когда система искусственного интеллекта осуществляет прямой контроль над своей физической и / или цифровой средой без участия человека в контуре - автоматизированные производственные процессы, алгоритмы автоматической финансовой торговли, кампании в социальных сетях на базе искусственного интеллекта для политические партии, беспилотные автомобили, роботы-уборщики и многое другое. Проблемы могут быть огромными, но лучшая сторона заключается в том, что такие статьи, как Конкретные проблемы безопасности ИИ, помогли сообществу ИИ осознать эти проблемы и прийти к согласию по основным вопросам. Оттуда исследователи могут начать изучать стратегии, обеспечивающие безопасность и полезность наших все более совершенных систем.

Первоначально опубликовано на futureoflife.org 26 июня 2018 г.