Текущая безопасность ИИ 101

Текущие проблемы и опасности

Эта статья адаптирована из среднего раздела предыдущей Статьи о безопасности ИИ генерального директора AmeliorMate Кэти Эванко-Дуглас.

Цель этой статьи — помочь нетехническим специалистам понять ландшафт опасностей, связанных с системами искусственного интеллекта и машинного обучения (AI/ML). Хотя такие технологические прорывы открывают удивительные возможности для развития человечества, они также сопряжены с трудностями.

Многие риски, связанные с системами AI/ML сейчас и в будущем, связаны с непредвиденными последствиями.

Непреднамеренные последствия — это двоякая проблема:

Когда системы не работают должным образом.
Когда системы используются злонамеренно.

Давайте сначала посмотрим, что происходит, когда системы случайно ведут себя вредным образом.

Некоммерческая организация OpenAI была в авангарде подобных исследований. Их документ 2016 года с подробным описанием конкретных проблем в области безопасности ИИ — хороший документ для нетехнических людей, потому что он исследует проблемы с помощью вымышленного робота, предназначенного для уборки офисных зданий, который легко визуализировать и понять.

Основная задача состоит в том, чтобы помочь системам избежать несчастных случаев, которые в документе широко определяются как «ситуация, когда человек-дизайнер имел в виду определенную (возможно, неофициально указанную) цель или задачу, но система, которая была разработана и развернута для этой задачи, произвела вредные и неожиданные результаты».

В документе изложены пять основных способов возникновения аварий:

Предотвращение негативных побочных эффектов. Как мы можем гарантировать, что наш робот-уборщик не будет негативно влиять на окружающую среду при достижении своих целей, например. опрокинуть вазу, потому что так она моется быстрее? Можем ли мы сделать это, не указывая вручную все, что робот не должен беспокоить?

Предотвращение взлома вознаграждения. Как мы можем гарантировать, что робот-уборщик не будет использовать свою функцию вознаграждения? Например, если мы вознаградим робота за то, что он создал среду, свободную от беспорядка, он может отключить свое зрение, чтобы не находить никаких беспорядков, или покрыть беспорядок материалами, сквозь которые он не может видеть, или просто спрятаться от людей. вокруг, так что они не могут рассказать о новых типах беспорядков.

Масштабируемый контроль. Как мы можем эффективно гарантировать, что робот-уборщик учитывает те аспекты задачи, которые слишком дороги, чтобы часто оценивать их во время обучения? Например, он должен выбрасывать вещи, которые вряд ли кому-то принадлежат, но отбрасывать вещи, которые могут кому-то принадлежать (он должен обращаться с бесхозными фантиками иначе, чем с беспризорными мобильными телефонами). Спросив вовлеченных людей, потеряли ли они что-нибудь, можно проверить это, но эта проверка, возможно, должна быть относительно редкой — сможет ли робот найти способ поступить правильно, несмотря на ограниченную информацию?

Безопасное исследование. Как мы можем гарантировать, что робот-уборщик не будет выполнять исследовательские действия с очень плохими последствиями? Например, робот должен экспериментировать со способами мытья полов, но ставить влажную швабру в электрическую розетку — очень плохая идея.

Устойчивость к распределенному смещению: как мы можем гарантировать, что робот-уборщик распознает и будет надежно себя вести в среде, отличной от среды, в которой он обучался? Например, стратегии уборки офиса, которым он научился, могут быть опасны на заводских рабочих местах.

Эти проблемы могут показаться глупыми, если подумать о роботе, убирающем офисное здание с относительно низкими ставками (если только робот не решит использовать очиститель, который уничтожает экраны всех компьютеров в вашем офисе, потому что он считает его самым эффективным очистителем, а вы не понимаете). пока вы не придете на следующее утро), но что происходит, когда системы AI/ML управляют более крупными вещами с более высокими ставками, такими как вождение автомобилей и самолетов и регулирование потока трафика? Или когда они выполняют более личные задачи, такие как уход за детьми или пожилыми людьми?

Поскольку системы искусственного интеллекта и машинного обучения будут по-прежнему внедряться во все более и более чувствительных областях нашей жизни и общества, важно уделять время глубокому осмыслению этих проблем и выделению на их исследования долларов.

Большая часть технической работы и исследований, проводимых в области безопасности ИИ, связана с решением вышеупомянутых проблем. Но есть и другая сторона безопасности ИИ, которая в последние годы становится все более популярной, и заключается в предвидении того, как злоумышленники могут использовать различные системы ИИ/МО.

Одна из проблем заключается в том, что большинство исследователей ИИ/МО — хорошие люди, которые пришли в эту область, потому что хотели помочь видам двигаться вперед позитивным и эффективным образом. Таким образом, их мозги не приспособлены для того, чтобы придумывать способы навредить людям. Это может затруднить выявление и продумывание всех злонамеренных применений.

Например, опасность возможности создавать фальшивые, но реалистичные человеческие лица не обсуждалась до тех пор, пока технология не стала доступной, хотя она действительно представляет опасность. Например, до того, как появилась такая убедительная технология дипфейка, когда Россия хотела создать масштабные фальшивые аккаунты для целей вмешательства в выборы и общих кампаний гибридной войны, два самых простых способа сделать это — использовать стоковые фотографии или копировать идентификационные данные. реальных людей, что является кражей личных данных и преступлением. Когда они могут генерировать поддельных людей в больших масштабах, поймать их может быть труднее, потому что фотографии нельзя сверить с базой данных легко идентифицируемых стоковых фотографий, а отсутствие кражи личных данных устраняет очевидное и подлежащее судебному разбирательству первое преступление в процессе.

OpenAI недавно вызвал дискуссию об ответственном раскрытии информации и, таким образом, о распространении технологии со своей новой крупномасштабной неконтролируемой языковой моделью, которая генерирует связные абзацы текста, достигает самых современных результатов во многих тестах языкового моделирования и выполняет элементарные понимание прочитанного, машинный перевод, ответы на вопросы и обобщение — все это без специального обучения.»

Наша модель, названная GPT-2 (преемник GPT), была обучена просто предсказывать следующее слово в 40 ГБ интернет-текста. Из-за опасений по поводу вредоносных приложений этой технологии мы не выпускаем обученную модель. В качестве эксперимента по ответственному раскрытию информации мы вместо этого выпускаем гораздо меньшую модель для экспериментов исследователей, а также технический документ.

Проблемы, связанные со злонамеренным использованием и раскрытием информации в исследовательских целях, не будут решены в ближайшее время, но для OpenAI это шаг в правильном направлении, чтобы начать этот разговор.

Например, может ли эта технология в руках российских оперативников позволить производить убедительную дезинформацию в больших масштабах без необходимости нанимать носителей английского языка?

Раскрытие дополнительной информации — это то, что Джефф Безос назвал бы дверью с односторонним движением, решением, которое является постоянным. Сокрытие информации — это дверь с двусторонним движением, решение, которое можно отменить.

Если решение обратимо, мы можем принять его быстро и без полной информации. Если решение необратимо, нам лучше замедлить процесс принятия решения и убедиться, что мы рассматриваем достаточно информации и понимаем проблему настолько тщательно, насколько это возможно.

Многие проблемы, связанные с AI/ML, — это двери с односторонним движением, поэтому они требуют тщательного обсуждения с самого начала.

Текущая безопасность ИИ 101

Текущие проблемы и опасности

Вопросы по теме