Доверяя лжецу-А.И. *Без* проверки?

~ иногда ответ "вы задали невозможный вопрос" ~

TL;DR — А.И. теоретики требуют невозможного: «Как мы можем доверять ИИ? это может солгать нам, если мы никогда не удосужимся проверить его работу?” Чувак, это тоже больше нигде не работает. Мы должны придерживаться научного метода, принципа «доверяй, но проверяй» и прозрачности ради подотчетности. Ответ на проблему таков: «Не переставайте проверять реальность».

Переформирование

Проблемы, которые кажутся невозможными, могут стать легкими, если мы поставим их под новым углом. Головоломок такого рода предостаточно. Тем не менее, есть проблемы, которые кажутся разрешимыми, но в итоге оказываются невозможными! В частности, мы иногда находим «типы» проблем, которые все одинаково сложно решить. Например, математики регулярно определяют, какие вычисления являются «NP-сложными» — эти задачи невозможно решить быстро, как бы мы ни старались. Итак, как только ваша работа над математической задачей показывает, что «эта задача эквивалентна NP-сложной задаче», вы можете сдаться. NP-сложно просто слишком сложно!

А.И. Исследователи безопасности варятся в одном из этих котлов. Их недавний концерн под названием E.L.K. (Выявление скрытых знаний) пытается найти процесс, которому мы должны следовать, чтобы гарантировать, что искусственный интеллект продолжает делать то, что мы хотим, даже если мы не проверяем его.

Да, это грубое упрощение. Я скоро расскажу о реальных деталях. Тем не менее, это упрощение жизненно важно: оно показывает, что эта проблема на самом деле идентична проблеме, с которой люди сталкивались неоднократно, во многих ситуациях, на протяжении тысячелетий. Это ядро эпистемологии. И те А.И. исследователи не смогут победить его, просто заменив «человека» или «гипотезу» на «искусственный интеллект». Итак, давайте посмотрим на проблему с точки зрения ИИ. исследователи видят это, во-первых, когда кусок нашего мозга готов и ждет, чтобы переформулировать проблему ИИ далее в эссе, в терминах, которые мы все признаем.

Выявление скрытых знаний [E.L.K.]

У вас есть сверхинтеллектуальная машина, задача которой — сделать ваших детей счастливыми. Он формулирует планы того, как это сделать, а затем позволяет просмотреть эти планы, чтобы выбрать наиболее подходящий. Вы видите один план, где на каждом кадре видео, за все десятилетия жизни ваших детей, они *выглядят* счастливыми! О, выбери этот план, дорогой искусственный интеллект. Да, это план, которому нужно следовать…

Упс. Вы не заметили, потому что все, что ваш робот сделал с вашими детьми, было сделано *между* кадрами этого видео! Искусственный интеллект внедрил устройства в мозги ваших детей, чтобы сделать их ошеломляюще, грубо счастливыми*, используя смесь лекарств, которые заставляют их парализованные мозги мучиться. Итак, те видеокадры, которые вы видели, были *сделаны, чтобы обмануть вас*!

Это не похоже на ИИ. искренне хотел навредить вашим детям! Просто, когда вы скажете ему «сделать моих детей *выглядеть* счастливыми», а затем выберете план, который «заставит их *выглядеть* счастливыми»… вы получите робота, который сделает их ТОЛЬКО *выглядящими* счастливыми.

Э.Л.К. исследование заключается в том, чтобы выяснить, действительно ли ИИ будет возиться с вашими детьми, БЕЗ проверки деталей по пути, самостоятельно. Да, верно. Они не хотят проверять реальность, они просто хотят найти истину каким-то другим способом.

Закон Гудхарта

«Когда мера становится целью, она перестает быть хорошей мерой».

Например: если «тестовые баллы указывают на будущую производительность», это означает, что тестовые баллы являются ХОРОШИМ показателем. Тем не менее, как только мы решаем: «Давайте сосредоточимся на том, что *повысит результаты тестов*, потому что это должно повысить производительность в будущем», упс! Поскольку вашей целью стало улучшение результатов тестов, это приведет к тому, что результаты тестов *перестанут* быть хорошим индикатором будущего! Как? Обман, подготовка к формулам без реальных концепций, трюки с изучением и прохождением тестов, разработанные для этой уникальной среды без приложений на рабочем месте. Внезапно вам придется проверить реальную производительность в будущем, черт возьми!

Как только вы говорите искусственному интеллекту: «Я хочу, чтобы мои дети *выглядели* счастливыми», вы рискуете их настоящим счастьем, рискуя планами, которые только *кажутся*, чтобы сделать их счастливыми. О, подождите, это не просто проблема, если вы передаете своих детей искусственному интеллекту — это уже проблема просто быть родителем! ИИ. исследователей Э.Л.К. Проблема старая: «Как убедиться, что я не создаю *поддельный* ответ, который только *кажется* хорошим?» Это закон Гудхарта.

Поставить людей на место машины

Когда ставится проблема выявления скрытых знаний, тот потенциальный лжец, который создает фальшивую реальность, является искусственным интеллектом. Мы можем заменить этот ИИ. с человеком, и задать тот же вопрос: «Как я им доверяю, если не проверяю?»

В политике это вопрос прозрачности и подотчетности. А между странами существуют договоры о ядерном оружии с независимыми органами, которые проверяют! Таким образом, среди людей мы не нашли способов доверять политикам без прозрачности, чтобы призвать их к ответственности.

То же самое верно, если «искусственный интеллект» заменить на «научную гипотезу», которая может лгать нам, когда она предсказывает планы на будущее. Как вы гарантируете точность своей научной гипотезы, если вы *отказываетесь* проверять ее экспериментально? Э.Л.К. надеется сделать нечто подобное в другом контексте. Это их проблема.

Сведение к абсурду

Переосмысление E.L.K. Проблема демонстрирует свою эквивалентность собственным планам родителей относительно счастья их детей и обещаниям политиков своему народу, а также обязательствам стран по договорам об оружии и даже самому научному методу. То есть: «ЕСЛИ «выявление скрытых знаний» позволяет вам ДОВЕРЯТЬ объекту БЕЗ проверки, это также должно быть решением проблем воспитания, политики и науки». Сомневаюсь, что такое решение может существовать. Это все равно, что пытаться найти быстрое математическое решение для NP-сложных вычислений.

Доверяя лжецу-А.И. *Без* проверки?

Вопросы по теме

Доверяя лжецу-А.И. Без проверки?