Брайан Кристиан является автором книги Самый человечный, которая была названа бестселлером Wall Street Journal и избран редакцией журнала New York Times. и любимая книга года жителя Нью-Йорка. Вместе с Томом Гриффитсом он является автором Algorithms to Live By, бестселлера №1 по Audible, лучшей научной книги года Amazon и лучшей книги MIT Technology Review. года.

Его третья книга Проблема совмещения только что вышла в свет. Брайан - приглашенный научный сотрудник лаборатории политики CITRIS и филиал Центра искусственного интеллекта, совместимого с людьми, а недавно был научным коммуникатором в Институте Саймонса в Калифорнийском университете в Беркли.

Брайан Кристиан недавно представил идеи из своей новой книги Проблема согласования на CITRIS Research Exchange.

В своей книге Проблема согласования вы исследуете сложность интеграции социальных норм и ценностей в системы искусственного интеллекта. Как вы думаете, какие стратегии являются наиболее эффективными для обеспечения того, чтобы системы ИИ работали так, чтобы приносить максимальную пользу обществу?

Есть много способов подойти к этой проблеме, и в некотором смысле это вопрос, на который вся книга пытается ответить. Я думаю, что для этого потребуется не только один подход, но и множество разных вещей, некоторые из которых являются прорывом в реальной науке, некоторые из них примут форму передовых инженерных практик, а некоторые из них будут больше касаться управление и кто получает место за столом.

Но чтобы предложить вам пару конкретных идей, я думаю, что хорошей отправной точкой для многих систем, влияющих на общественность, является прозрачность. Насколько это возможно, наборы данных, используемые для обучения моделей, должны быть общедоступными, и, в частности, я думаю, что люди обычно имеют право понимать конкретные данные о них, которые имеет модель. Были случаи, когда обвиняемые по уголовным делам подозревали, что они были незаконно задержаны из-за простой опечатки или проблемы с вводом данных, но требовалось много юридических споров, чтобы выяснить, как выглядят входные данные, не говоря уже о том, как это могло быть. повлияли на судебный исход .

Глубокие нейронные сети имеют репутацию черных ящиков, но эта репутация уходит. Такие люди, как Крис Олах из OpenAI и Бин Ким из Google Brain, проделали изумительную работу, так сказать, открыв капюшон и визуализируя внутреннюю работу модели. Такие люди, как Rich Caruana из Microsoft Research, разрабатывают архитектуры моделей (такие как обобщенные аддитивные модели), которые по производительности могут конкурировать с глубокими нейронными сетями, но их гораздо легче проверять. И исследователи, такие как Синтия Рудин из Университета Дьюка, показывают, что можно использовать алгоритмические методы для определения доказуемо оптимальных простых моделей, которые содержат всего несколько параметров и могут быть легко вычислены вручную на листе бумаги, но могут конкурировать с некоторыми из них. сложнейших нейронных сетей.

Прогресс информатики, с одной стороны, и разработка более надежной правовой базы, с другой, хотя и не является полным решением по каким-либо меркам, тем не менее, будет иметь большое значение для того, чтобы убедиться, что мы понимаем модели, которые влияют на нашу жизнь.

В какой степени проблема согласования - сложность обеспечения того, чтобы системы ИИ действительно вели себя так, как мы планировали, и в соответствии с нашими нормами и ценностями, - является результатом неопытности разработчиков в обучении социальным наукам? Как это следует решать в обучении и на практике?

Я думаю, что до некоторой степени верно, что учебные программы по информатике и машинному обучению имеют тенденцию формулировать проблемы таким образом, что и обучающие данные, и цель принимаются как данность, и самая сложная часть - просто найти модель, которая максимизирует эта цель. На самом деле происхождение данных является очень важной проблемой, как и поиск целевой функции, отражающей то, что мы действительно хотим от нашей модели.

Например, в системе уголовного правосудия может быть разработана модель для прогнозирования «оценок риска» для обвиняемого в контексте решения о предварительном заключении; одна оценка может оценивать их риск совершения ненасильственного преступления в ожидании суда, а другая - их риск неявки в суд для рассмотрения их дела. Важно отметить, что одна из этих переменных точно соблюдается - если вы не явитесь в суд, суд по определению знает об этом - в то время как другая наблюдается очень несовершенно: подавляющее большинство ненасильственных преступлений никогда не становятся известны полиции. .

Факультеты информатики все чаще разрабатывают учебные программы по этике и реальным воздействиям, например, для своих специальностей бакалавриата, и мы также видим учебники по ИИ, такие как Искусственный интеллект: современный подход. сместить фокус с Как мы можем оптимизировать для достижения цели x? на Как мы можем определить, что нам следует оптимизировать в этой ситуации?

Однако точно так же, как компьютерные ученые, инженеры-программисты и специалисты по машинному обучению все больше задумываются о более широком социальном контексте своей работы, так и политикам, юристам и социологам необходимо оттачивать свои технические знания, поскольку системы машинного обучения становятся все более популярными. часть их работы. Проблема согласования - это то, что, я надеюсь, может помочь в обоих аспектах, предлагая что-то каждой из этих групп: как техническим специалистам, выходящим за рамки более узких рамок своей области, так и тем, кто ищет в. Думаю, мы строим этот мост с двух сторон.

Большинство предубеждений в моделях ИИ проявляется при использовании в реальной жизни. Как выявить и устранить эти предубеждения на этапе разработки модели?

Во-первых, отправной точкой является лучшее понимание того, откуда берутся данные для обучения. Что-то вроде того, что предлагается, например, в Таблицах данных для наборов данных.

Во-вторых, методы прозрачности могут дать нам представление о том, является ли модель обобщающей, как мы ожидаем. Техники визуализации, такие как начальный подход, могут визуально показать, как могут выглядеть суперстимулы для различных ярлыков категорий. Например, вот что сгенерировало модель Google 2015 года для категории гантели:

Как отмечают исследователи: «Там есть гантели, но, похоже, картина с гантелями не будет полной без мускулистого штангиста, который их поднимет. В данном случае сети не удалось полностью выделить сущность гантели. Может быть, гантели никогда не демонстрировали без руки, держащей ее. Визуализация может помочь нам исправить подобные ошибки в тренировках ».

Подобные методы можно использовать для выявления всех видов предвзятости; например, если сеть попросили сгенерировать новые изображения лиц, и все лица были одного пола или оттенка кожи, то это могло бы означать, что аналогичная систематическая ошибка существовала в данных обучения модели.

Методы прозрачности, такие как TCAV, могут подсказать, как концепции высокого уровня влияют на категоризацию сети. Группа из Google в 2018 году изучила несколько широко используемых моделей того времени и показала, например, что красный цвет имел чрезвычайно важное значение для способности модели идентифицировать что-то как пожарную машину. Это наводит на мысль, что такую ​​модель может быть небезопасно использовать в стране, где пожарные машины не обязательно красного цвета: например, в Австралии, где они часто бывают белыми и неоново-желтыми.

Третий ключевой компонент - это разработка моделей, которые знают, когда не знают. Иногда это называют проблемой устойчивости к распределительному сдвигу. Основная идея в контексте предвзятости состоит в том, чтобы сделать своего рода последнюю линию защиты отказоустойчивой, так что даже если есть проблема в обучающих данных, которые методы прозрачности не могут идентифицировать, тогда сама модель могла бы определить, когда он действует в ситуации, которая не соответствует тому, что он видел раньше, и либо откажется предпринимать действия, либо будет полагаться на экспертов-людей и т. д. В этой области предстоит большая работа, в том числе работа людей как Том Диттерих из Орегона и другие о проблеме открытых категорий - как модели, обученные категоризировать изображения по одной из n категорий, могут учитывать тот факт, что подавляющее большинство возможных входных данных (комбинации пикселей, например) не будут принадлежать ни одной из этих категорий. Есть также работа таких людей, как Ярин Галь из Оксфорда и Зубин Гахрамани из Кембриджа, по использованию таких методов, как отсев, чтобы получить оценку неопределенности модели. Это было использовано в медицинской диагностике и в робототехнике для создания моделей, которые могут определять, когда они работают вне рамок своего обучения, и соответственно полагаться на людей. Подобные методы могли бы помочь предотвратить инцидент с« гориллами в Google Фото», когда неуверенность модели в том, что содержит изображение, могла привести к тому, что она вообще отказалась от использования подписи, вместо того чтобы делать предположения. Они также полезны в автономных транспортных средствах и, возможно, помогли предотвратить смерть, подобную смерти Элейн Херцберг, которая была убита беспилотным Uber в 2018 году во время прогулки на велосипеде по улице после того, как машина не смогла определить, удалось ли она была пешеходом или велосипедисткой.

Лаборатория политики CITRIS со штаб-квартирой в CITRIS and the Banatao Institute в Калифорнийском университете в Беркли поддерживает междисциплинарные исследования, образование и интеллектуальное лидерство для решения основных вопросов, касающихся роли формального и неформального регулирования в продвижении инноваций и усилении их положительное влияние на общество.