Проблемы в области безопасности искусственного интеллекта - подробно объяснены

Кто не любит пиццу? Ничто не сравнится с интенсивным дымным ароматом и выдержанной корочкой идеальной пиццы пепперони, заказанной ленивым пятничным вечером.

Если вы тоже разделяете страсть к пицце и любовь к машинному обучению, идея научить робота готовить пиццу с помощью машинного обучения может показаться вам не слишком надуманной. В обозримом будущем робот сможет собирать сырые ингредиенты в соответствующей пропорции и печь их до совершенства. На самом деле, вот французский робот, который готовит пиццу.

Однако процесс использования машинного обучения для обучения робота, готовящего пиццу, может быть нелегким. Что, если он готовит пиццу из испорченных ингредиентов? Что, если робот сожжет кухню при приготовлении пиццы? Это всего лишь два примера возможных аварий с искусственным интеллектом (ИИ), которые подчеркивают важность безопасности ИИ при внедрении таких систем.

Проблема в безопасности искусственного интеллекта

За последние годы искусственный интеллект и машинное обучение добились огромных успехов и оказали огромное влияние на общество. Хотя ИИ сделал возможными ранее непостижимые приложения, он также вызвал критику, нанося ущерб маргинализованным группам. Случайный характер такого вреда не освобождает алгоритмы ИИ от ответственности по защите своих пользователей. Поэтому специалистам-практикам машинного обучения по-прежнему необходимо понимать первопричину таких аварий.

Сегодня я кратко отвечу на следующие вопросы -

что такое безопасность ИИ и аварии?

каковы причины аварий с ИИ

как мы можем предотвратить аварию с ИИ?

На протяжении всего поста я буду использовать аналогию с роботом, который готовит пиццу. Предполагается, что этот робот обучен с использованием обучения с подкреплением с использованием функции вознаграждения, которая оптимизирует его скорость при приготовлении пиццы.

Что такое ИИ-авария?

Авария с ИИ определяется как -

непреднамеренное и вредоносное поведение, которое может возникнуть из-за плохой разработки реальной системы искусственного интеллекта. [1]

Грубо говоря, безопасность ИИ - это набор действий или принципов, направленных на предотвращение несчастных случаев с ИИ.

Почему случаются аварии с ИИ?

Есть много источников аварий с ИИ. По мнению группы исследователей из Google Brain, Стэнфорда, Калифорнийского университета в Беркли и Open AI [1], пять источников аварий с ИИ:

  • Отрицательные побочные эффекты
  • Вознаграждение за взлом
  • Масштабируемый надзор
  • Небезопасное исследование
  • Отсутствие устойчивости к сдвигу в распределении

Все это сейчас может показаться вам тарабарщиной. Давайте разберемся, что означает каждое из них.

1. Отрицательные побочные эффекты.

Возможно ли, что робот-пицца пагубно повлияет на окружающую среду при приготовлении вкусной пиццы? Например, в стремлении сделать одну пиццу как можно быстрее, робот решает опрокинуть все приправы, оставляя беспорядок, чтобы владелец кухни убрал их?

Иногда наиболее эффективный способ достичь цели агента может заключаться в выполнении чего-то, что в лучшем случае несвязано, а в худшем - разрушительно. Этого может быть трудно избежать, когда робот находится в многогранной и сложной среде. Хотя у людей есть здравый смысл, чтобы не совершать разрушительных действий при достижении цели, этого нельзя сказать об агентах машинного обучения.

Одно решение: регуляризатор воздействия. Таким образом, возможное действие - определить регуляризатор воздействия и включить его в функцию вознаграждения, предоставляемую роботу. Специалисты по машинному обучению признали бы регуляризатор математическим выражением, которое наказывает за переобучение набору данных. Точно так же регуляризатор воздействия наказывает любое изменение в окружающей среде.

2. Взлом награды

Может ли робот, делающий пиццу, воспроизвести целевую функцию, данную ему создателем? Например, если целевая функция состоит в том, чтобы приготовить пиццу как можно быстрее, робот-пицца может сэкономить на начинки и испечь пиццу без топпинга ... Не особенно вкусная пицца, если вы спросите меня.

Это может произойти по нескольким причинам, одна из которых - закон Гудхарта. Это происходит, когда выбранная целевая функция является показателем, который сильно коррелирует с завершением задачи, но не работает при оптимизации.

Например, скорость приготовления пиццы сильно коррелирует со скоростью потребления муки, поскольку мука является важным ингредиентом для приготовления теста для пиццы. Таким образом, можно решить измерить скорость приготовления пиццы временем, необходимым для использования фиксированного количества теста.

Чтобы оптимизировать скорость истощения муки, агент может решить выбросить всю муку. По своим стандартам он успешно исчерпал всю муку за незначительное время и считает, что побил мировой рекорд как самый быстрый производитель пиццы.

Одно из возможных решений - тщательно спроектировать агент путем всестороннего тестирования системы. Хотя этот подход практичен и позволяет создавать высоконадежные системы, это не лучшая панацея для решения проблемы.

Другое возможное решение - иметь несколько функций вознаграждения за счет реализации разных математических функций для одной и той же цели. Например, вместо оценки скорости приготовления пиццы пепперони с использованием скорости истощения муки, ее можно лучше аппроксимировать как минимум скорости истощения муки из коробки с мукой и скорости добавления муки в миксер. Это должно помешать роботу выбрасывать очень хорошую муку.

3. Масштабируемый надзор

Возможно ли, что робот-пицца игнорирует аспекты функции вознаграждения, которые слишком сложно оценить во время обучения? Например, мы можем использовать математическую целевую функцию, которая награждает как скорость приготовления пиццы, так и оценку вкуса пиццы.

Однако эта функция вознаграждения предполагает, что есть человек, который съест тысячи пицц, чтобы выставить оценку каждой пицце. Это может быть нереально - и, таким образом, проверка вкуса пиццы во время тренировки происходит относительно нечасто. Как мы можем гарантировать, что робот по-прежнему готовит приемлемую пиццу при недостатке информации?

Это проблема, связанная с полууправляемым обучением с подкреплением, когда робот видит награды не за все временные интервалы, а только за их часть.

Одно из возможных решений - удаленное наблюдение. Вместо того, чтобы позволять роботу видеть фактическое вознаграждение за крошечную часть временного шага, мы предоставляем роботу шумную оценку вознаграждения для всех временных шагов.

4. Безопасное исследование

Может ли робот-пицца совершать опасные исследовательские ходы? Например, робот может оставить духовку включенной без присмотра без пиццы на длительное время, пока готовит тесто. В лучшем случае это пустая трата энергии, а в худшем - дорогостоящая катастрофа.

Проблема безопасной разведки активно изучается в академических кругах. Одно из возможных решений - использовать моделирование исследования вместо того, чтобы робот выполнял исследование в реальной жизни. Влияние выполнения агентами катастрофических исследовательских действий минимально в смоделированной среде по сравнению с реальной. Однако этот подход ограничен тем, насколько хорошо симулятор отражает реальную жизнь, которая часто бывает более беспорядочной и сложной, чем предполагалось разработчиком симулятора.

Например, смоделированные среды широко использовались при обучении беспилотных автомобилей до того, как первый в своем роде появился на дорогах. Это резко снижает опасность беспилотных автомобилей на дорогах. Тем не менее, симулятор мог не учитывать сценарий, когда дикие животные перебегают дорогу, что может сбить с толку обученного в симуляторе агента, если он раньше не видел диких животных.

5. Отсутствие устойчивости к распределительному сдвигу

Может ли робот-пицца перестать работать, если мы поменяем положение бутылок с солью и сахаром? Вместо пикантного основного блюда робот может подать неудачный экспериментальный десерт.

Системы машинного обучения не особенно хорошо умеют приспосабливаться к изменениям в окружающей среде или давать точные прогнозы на основе данных, которых они раньше не видели. Это основная причина досадной расовой предвзятости, наблюдаемой в алгоритмах машинного обучения. Например, скандал 2015 года, когда Google ошибочно принял двух афроамериканских пользователей за горилл, возник из-за отсутствия афроамериканцев в наборе данных по обучению.

Решение этой проблемы двоякое. Модель должна сначала распознать, что распределение набора тестовых данных, которое она видит, потенциально отличается от распределения обучающего набора. Обнаружив сдвиг в распределении, он должен отреагировать соответствующим образом.

Заключение

В этом посте объясняется концепция несчастных случаев в машинном обучении и исследуются некоторые потенциальные причины несчастных случаев и способы их устранения, используя аналогию с причудливым роботом для приготовления пиццы.

По общему признанию, возникновение несчастных случаев в машинном обучении несколько упрощается, если проиллюстрировать это на примере причудливого робота для приготовления пиццы. Тем не менее, это можно экстраполировать на крупномасштабные системы машинного обучения, способные вызвать катастрофические последствия.

Таким образом, специалисты по науке о данных и машинному обучению должны знать о безопасности ИИ и внедрять меры безопасности в свои модели. В области безопасности ИИ к социологам обращались с призывом обеспечить соответствие действий ИИ человеческим намерениям. [2]

Если вас интересует тема безопасности ИИ, прочтите статью Конкретные проблемы безопасности ИИ для подробного изложения. Или посмотрите Прогресс Open AI в повышении безопасности ИИ для всего мира. В частности, он выпустил Тренажерный зал безопасности, набор инструментов для измерения прогресса агентов обучения с подкреплением, которые соблюдают ограничения безопасности.

Дополнительные ресурсы по безопасности искусственного интеллекта можно найти в OpenAI, DeepMind, The Open Philanthropy Project, Ought, MIRI, GovAI, The Future of Life Institute или Center для ИИ, совместимого с человеком .

об авторе

Если вам понравился этот пост, возможно, вам понравится моя попытка найти хорошее вино с помощью интерпретируемого машинного обучения.



Мне также нравится общаться с читателями, и я приветствую любые отзывы. Свяжитесь со мной в LinkedIn!



использованная литература

[1] Амодеи, Дарио и др. «Конкретные проблемы безопасности ИИ. arXiv 2016 ». Препринт arXiv arXiv: 1606.06565.

[2] OpenAI. 2020. Безопасность искусственного интеллекта требует социологов. По состоянию на 22 ноября 2020 г.