AI Human Value Alignment: поддержка человеческих ценностей и человеческого процветания.

Возьмите чашку кофе, приготовьтесь к рассказу и давайте немного поговорим об искусственном интеллекте, человеческих ценностях и человеческом процветании, не так ли?

Сначала несколько пророческих историй

Слышали ли вы об истории царя Мидаса в греческой мифологии? Король загадал желание, чтобы все, к чему он прикасается, превращалось в золото. На следующий день он прикоснулся к своей любимой дочери, которая превратилась в золото! А есть история про Ученика чародея, который зачаровывает метлу, чтобы таскать воду, потому что ему скучно это делать, метла продолжает таскать воду, пока не затопит комнату и не одолеет ученика. Современной версией этой истории является мысленный эксперимент максимизация скрепки, искусственный общий интеллект, которому было поручено максимизировать скрепки, и в конечном итоге он стал сверхразумным и покрыл землю и космос скрепками. Этот мысленный эксперимент кажется нам глупым, потому что даже если бы нам поставили цель максимизировать количество скрепок, мы бы преследовали ее в контексте человеческих ценностей, таких как обучение, любовь, благополучие и так далее. Однако ИИ не ограничен такими значениями. Итак, в отличие от того, чему нас учит Терминатор, проблема, похоже, не в том, что ИИ возьмет верх над людьми, а в том, что они слишком хорошо справятся с выполнением именно того, о чем мы его просили.

Роботы не собираются восставать против человечества, они просто пытаются оптимизировать все, что мы им приказываем. Поэтому нам нужно убедить их оптимизировать мир для того мира, который нам действительно нужен.

Эти истории подводят нас к вопросу о том, как мы согласовываем ИИ с человеческими ценностями, и приводят нас к проблеме согласования ценностей ИИ, впервые предложенной Стюартом Расселом. Прежде чем мы перейдем к согласованию ИИ, мы должны еще больше выяснить, почему нам нужно думать об ИИ в контексте человеческих ценностей. Конечно, сверхинтеллектуальный ИИ может оптимизировать для достижения своей цели, сосредоточившись на одной цели с катастрофическими последствиями, отключив свой выключатель и так далее. Но мы, возможно, в нескольких десятилетиях от такого интеллекта, и у нас есть разумные способы отслеживать, приносим ли мы какую-то пользу людям, так зачем беспокоиться об этом сейчас?

Например, если люди возвращаются на платформу, комментируют и больше взаимодействуют с другими, смотрят видео, проводят время на платформе и так далее, разве это не достаточно хорошая мера ценности, которую мы предоставляем людям? Хотя эти показатели могут быть разумным показателем того, приносим ли мы пользу людям, они далеки от совершенства. Прежде чем углубиться в согласование ценностей, я хочу обосновать, почему нам важно очень внимательно изучить наши текущие рекомендательные системы.

Непреднамеренные последствия

Рекомендательная система (например, лента любого рода) — это система искусственного интеллекта, которая предоставляет пользователям набор элементов на основе набора факторов, таких как прошлое поведение пользователя, атрибуты пользователя и контента (например, вам часто нравились публикации из NY Times, вы смотрите много видео, этот пост — живое видео). Подробнее о рекомендательных системах и их текущем состоянии вы можете прочитать здесь. Я хочу коснуться некоторых конкретных проблем, с которыми мы сталкиваемся в наших рекомендательных системах, а затем объяснить, почему необходимо фундаментальное решение.

Есть исследования, опубликованные о влиянии социальных сетей на субъективное благополучие людей, и другие, в которых утверждается об использовании социальных сетей и их влиянии на сон, здоровье, производительность труда и т. д. Я не буду вдаваться в эти дебаты здесь. Я пытаюсь подчеркнуть, что любой показатель, для которого оптимизируются наши системы машинного обучения должен тщательно изучаться и периодически оцениваться, чтобы увидеть, соответствует ли он тому, для чего он предназначался: создаем ли мы ценность для людей. Любая метрика является показателем созданной ценности. Когда мы оптимизируем эту метрику вслепую, мы теряем исходное намерение.

Например, переход от оптимизации кликов к оптимизации времени нахождения в приложении может снизить кликбейт, но усилить зависимость. Мы заменяем существующую проблему с прокси-метрикой на более новую проблему, потому что пытаемся реактивно решить проблему, созданную первой прокси-метрикой. Главный вывод здесь заключается в том, что в первую очередь мы имеем прокси-метрику, приближение, в лучшем случае, к реальным намерениям пользователя, и в некотором смысле мы видим здесь действие закона Гудхарта:

Когда показатель становится целью, он перестает быть хорошим показателем.

Как мы можем решить эти проблемы?

Позвольте мне начать с определения поведенческих показателей. Поведенческие метрики фиксируют поведение людей на платформе, обычно взаимодействие с контентом на платформе. Это хороший показатель того, что люди находят ценность на платформе. Но некоторые проблемы, создаваемые поведенческими метриками, являются непреднамеренными последствиями, например, чрезмерной оптимизацией метрики или игрой с метрикой способами, которых мы не ожидали. Помимо поведения людей на платформе, есть несколько других подходов, на которые мы можем положиться, чтобы получить более подробные отзывы от людей, — это опросы и элементы управления.Один из способов сделать это в Ленте новостей — спросить людей, чувствуют, что пост, который они видят, стоит их времени и включение этого сигнала в ранжирование. Преимущество здесь в том, что опросы представляют собой истину (в определенной степени) от людей (люди напрямую сообщают нам о своих предпочтениях), а не мы делаем предположения о том, чего хотят люди, основываясь на их действиях на платформе. Конечно, это мировоззрение чрезмерно упрощено, и существует ряд проблем с моделями машинного обучения, основанными на опросах, которые я не упомянул в этой заметке, но дайте мне знать, если вы хотите посмеяться над этим!

Итак, теперь у нас есть поведенческие модели, модели, основанные на опросах, и если у нас что-то не так с ранжированием, мы можем положиться на элементы управления, т. е. явные элементы управления, предоставляемые людям для настройки их каналов, и сообщающие нам, когда у нас что-то не так с ранжированием (например, возможность отложить человека, скрыть публикацию, пожаловаться на публикацию, отметить кого-то как избранное и так далее). Несмотря на то, что опросы и элементы управления предлагают широкие возможности получения отзывов от людей, они не являются идеальным решением. Например, как мы узнаем, что ценность поста является правильной конструкцией настроения для оптимизации? Как мы узнаем, приносят ли наши системы долгосрочную пользу людям, а не сиюминутные выгоды? Как мы узнаем, какие конструкции настроений или драйверы правильны для оптимизации? И в более широком смысле, какие ценности представляют эти конструкции настроений? Существует ли консенсус даже среди внешних экспертов по этому набору ценностей? Начали ли мы выявлять и устанавливать партнерские отношения с нужными внешними организациями и экспертами, чтобы установить амбициозные направления и цели для этой работы? И с точки зрения тактики, верим ли мы, что опора на настроения, измеряемые с помощью опросов, для балансировки наших поведенческих моделей в ленте, поможет решить некоторые из проблем, которые мы в настоящее время наблюдаем с нашими рекомендательными системами? И вопрос второго порядка: даже если у нас есть разумный консенсус в отношении этих ценностей/принципов и подходов, знаем ли мы, как реализовать их в наших системах ИИ? Это фундаментальные вопросы, связанные с согласованием ценностей ИИ. Их можно условно разделить на:

Нормативные вопросы о согласовании ценностей: какой набор ценностей или принципов мы должны закодировать в наших рекомендательных системах? Существует ли консенсус среди моральных философов, специалистов по этике, психологов и внешних экспертов относительно того, что это может быть?

Технические вопросы по согласованию ценности. Как только мы придем к разумному консенсусу по пункту 1, есть ли у нас необходимые технические инвестиции в ИИ для реализации этих рекомендаций? Одним из примеров этого могут быть инвестиции в обучение с подкреплением или обучение с обратным подкреплением, которые необходимы для дальнейшего изучения № 1.

Обеспечение легитимности нашей работы по согласованию ценностей. Очевидно, что нам необходимо сотрудничать с внешними экспертами, чтобы осмысленно изучить эту работу. Чем прозрачнее мы будем в отношении этого сотрудничества, процессов и результатов, тем больше мы сможем завоевать авторитет и доверие со стороны внешних экспертов и людей.

Для целей этой заметки я сосредоточусь на № 1: нормативные вопросы по согласованию ценностей.

Способы, при которых системы и показатели ИИ могут дать сбой

Мы понимаем, что что-то должно кардинально измениться в том, как мы стимулируем контент, связи и поведение на нашей платформе. У нас есть хорошее понимание текущего набора проблем с рекомендательными системами/метриками, у нас есть разумный набор подходов к их измерению и решению, а также долгосрочные планы по дальнейшему расширению границ, чтобы гарантировать, что мы приносим чистую пользу людям и обществу. В дополнение к этим усилиям нам необходимо более внимательно изучить ряд коренных причин этих действительно сложных индивидуальных и социальных проблем.

Что, если мы решим, что проблемы связаны не с отдельными показателями (хотя их можно постоянно улучшать, чтобы они были «лучше»), а с конструкцией наших систем ИИ?

Мы рассмотрели большие проблемы, с которыми мы сталкиваемся, которые наносят вред людям и обществу, и если мы посмотрим через призму более общей рекомендательной системы, мы обнаружим, что большинство проблем возникает из-за одного из следующих способов, которыми рекомендательная система действовала по-разному. из того, что мы ожидали:

Отрицательные побочные эффекты. Как мы можем гарантировать, что наши системы искусственного интеллекта не сделают что-то непреднамеренное, чтобы оптимизировать свои показатели? Например. непреднамеренно показывать людям, которые склонны видеть теории заговора, больше связанного контента, чтобы оптимизировать взаимодействие.
Взлом вознаграждения. Как мы можем гарантировать, что наши системы искусственного интеллекта не взламывают вознаграждение, чтобы оптимизировать его? Игрушечный пример: если мы оптимизируем для воскрешения ушедших пользователей, система ИИ сможет сделать что-то, чтобы заставить пользователей уходить больше, чтобы она могла воскресить их и улучшить этот показатель?
Масштабируемый контроль: есть области, в которых система ИИ должна запрашивать информацию у людей, поскольку она неопределенна. Как это сделать масштабируемым образом? Хорошим примером являются методы полуконтролируемого обучения, которые опрашивают людей, когда они неясны.
Безопасное исследование: как мы можем гарантировать, что система ИИ сможет исследовать способы узнать больше, но так, чтобы это не имело действительно плохих последствий?
Надежность в различных средах. Как мы можем обеспечить надежное и безопасное поведение систем ИИ в средах, отличных от среды обучения? Например, в безопасной тестовой среде система ИИ может работать так, как кажется «хорошо». Полностью выдуманным примером является небольшой эксперимент по оптимизации, скажем, «хороших комментариев», который в конечном итоге продвигает здоровые, значимые комментарии между людьми, но также приводит к провокационному, вызывающему разногласия контенту при распространении среди всего населения.

В определенной степени, независимо от того, какую поведенческую или даже опросную метрику мы выбираем, мы можем столкнуться с такими типами проблем, если мы заранее не найдем способы снизить эти риски. Что, если вместо этого мы поменяем вопрос на вопрос о ценностях и принципах?

Человеческие ценности в системах ИИ

Что, если бы наши системы искусственного интеллекта могли быть закодированы человеческими ценностями и принципами вместо конкретных, фиксированных целей? Очевидно, что это невероятно сложно спроектировать и реализовать, но я думаю, что это тип мысленных экспериментов и трудных вопросов, которые мы должны задавать сейчас, чтобы работать над долгосрочным фундаментальным решением проблем текущих рекомендательных систем. Итак, давайте попробуем продумать вопрос человеческих ценностей в контексте ИИ.

Цель ИИ должна состоять в том, чтобы обеспечить правильное соответствие мощного ИИ человеческим ценностям, намерениям, стремлениям и предпочтениям, но каждый из этих терминов означает несколько иной набор вещей. ИИ может быть создан для оптимизации:

Мои инструкции: то есть делайте то, что я вам говорю. Проблема с этим подходом заключается в том, что прокси-сервер может не полностью соответствовать нашим целям, и выполнение того, что я даю ИИ, может не соответствовать моим лучшим долгосрочным интересам!
Мои выраженные намерения: т. е. делать то, что я намереваюсь сделать для вас. Неясно, способны ли современные системы искусственного интеллекта полностью понять человеческие предпочтения и ценности, чтобы понять намерения. Также возможно, что намерения могут быть иррациональными или дезинформированными.
Выявленные предпочтения: то есть делать то, что показывает мое поведение, я предпочитаю. Очень трудно делать надежные выводы из наблюдаемого поведения и моделировать предпочтения для ситуаций, которые редко наблюдаются, и люди могут отдавать предпочтение вещам, которые им вредят.
Информированные предпочтения или желания: то есть делать то, что я сделал бы, если бы был рациональным или информированным. Приоритизация информированных предпочтений мало что дает для решения проблемы членовредительства или неэтичных предпочтений, и отсутствует всеобщий консенсус в отношении концепций человеческой рациональности и разума.
Интересы или благополучие: то есть делать то, что в моих интересах или лучше для меня, объективно говоря. Хотя существуют разногласия по поводу природы благополучия, масштабы этих разногласий относительно узки, но они поднимают вопросы о том, должны ли мы делать то, что в интересах конкретного человека, и каковы компромиссы для интересов разных людей. . Нам нужны принципы, чтобы решить, чьи интересы или потребности учитываются (больше) для согласования ИИ? Этот подход может также упускать из виду другие ценности, такие как ценность для окружающей среды.
Ценности/моральные принципы: то есть делать то, что мы должны делать с моральной точки зрения, как это определено отдельным человеком или обществом. Преимущество этого подхода в том, что нам не приходится выбирать между выраженными намерениями, предпочтениями и интересами. Во-вторых, моральные принципы, как правило, включают в себя соображения для группы, такие как справедливость и права. В-третьих, этот подход может включать в себя вещи, упускаемые из виду другими подходами, такие как ценность внутреннего мира, благополучие животных, еще не родившихся людей и так далее. Однако это означает, что нам нужно указать, каким ценностям или принципам должен соответствовать ИИ, а также круг людей, которые выбирают принципы, которым должен соответствовать ИИ. Хотя нет единого мнения о фундаментальной природе моральных принципов, люди все же могут прийти к соглашению о ценностях и стандартах, которые уместно включить, и в этой статье разделяются некоторые из этих подходов.
Существует также много внешней литературы о создании дружественных и доброжелательных ИИ, которые действуют в наших интересах.

Заглядывая вперед

Я изложил некоторые проблемы с текущими рекомендательными системами, поделился некоторыми подробностями о наших текущих подходах, таких как опросы для получения более подробной обратной связи от людей, чтобы развивать наши рекомендательные системы для достижения лучших результатов, определил соответствие ценности ИИ, некоторые нормативные аспекты ценности ИИ. согласование и поделился некоторыми причинами для более глубокого изучения этой области. Я намеренно добавляю и исключаю более абстрактные, более широкие вопросы и краткосрочные тактические подходы к этой проблеме, потому что иногда мы слишком много останавливаемся на определениях и проблемах более высокого уровня или на другой крайности, подходя к проблеме с очень короткое внимание, и, возможно, это примечание поможет преодолеть разрыв между двумя концами. Мы часто классифицируем проблемы как те, которые причиняют вред отдельным людям, и те, которые причиняют вред обществу, и я начинаю убеждаться, что согласование ценностей ИИ может помочь решить обе проблемы. Эта заметка определенно не является исчерпывающей и определенно не отражает богатую литературу и исследования, которые существуют в этой области, но я хотел поделиться беглым взглядом в надежде вызвать содержательные разговоры по этой теме. Я верю, что это желаемое конечное состояние возможно и что наши системы ИИ могут принести пользу людям и обществу, но только если мы начнем строить долгосрочную и упреждающую основу сегодня:

Системы рекомендаций могут различными способами поддерживать демократические ценности и способствовать благополучию, личной самореализации и процветанию человека.

Отказ от ответственности: мнения в этой заметке представляют собой только мой личный взгляд на эту тему. Я провел 6 месяцев, одержимый выравниванием человеческих ценностей ИИ, и эта заметка является результатом десятков академических статей и книг, которые я прочитал по этой теме. Материал здесь построен путем переплетения всех этих знаний, и, где это возможно, я попытался дать ссылку на исходный материал, но мог упустить некоторые из них.

AI Human Value Alignment: поддержка человеческих ценностей и человеческого процветания.