Безопасность искусственного интеллекта для людей со средним уровнем интеллекта: завоюет ли ChatGPT мир?

Основано на 1-й половине учебной программы EA Cambridge по техническому согласованию на 2022 год.

«Все говорят об ИИ». Термин «искусственный интеллект» используется до такой степени, что заявления о его чрезмерном использовании кажутся чрезмерными. Но что это на самом деле означает? Чем занимаются ее исследователи? Человечество в опасности?

Если вы обычный взрослый человек, который ищет общее объяснение, которое будет реальным и техническим, но не запутанным, вы попали в нужное место. Среднестатистический взрослый (согласно моему взгляду на статистику IQ, ответы Quora об уровне математики, школьных программах по математике для 6-9 классов и среднем количестве лет обучения по всему миру) знает числа и может свести их вместе в линейное уравнение. Весь поиск yвещи. PS: надеюсь, ваша память освежится, когда я перейду к основам.

Если вы профессор или исследователь, который живет точными определениями и красноречивыми обозначениями… вы, вероятно, найдете одну или две царапины, которые будут чесаться. Я надеюсь, что вы все равно поможете мне уменьшить исследовательский долг в этой области. Конструктивная обратная связь и дополнительные комментарии приветствуются.

Содержание

Неделя 0: Введение в машинное обучение
Неделя 1: Введение в общий искусственный интеллект
Неделя 2: Несогласованные цели AGI
Неделя 3: Возможные угрозы ОИИ и решения

[примечание: никаких внешних ссылок, потому что я стараюсь, чтобы Medium не помечал эту историю как noindex, ссылки должны быть легко найдены в учебной программе или с помощью онлайн-поиска]

Так что же на самом деле стоит за производительностью современного «искусственного интеллекта», например, ChatGPT? Машинное обучение. Чтобы понять возможные последствия ОИИ, мы должны сначала понять, как компьютер может учиться, моделируя данные.

В средней школе вы узнаете, как представить прямую линию на графике с помощью функции y = mx + c. Вы делаете это, определяя, насколько изменяется выход y (подъем по вертикали) при изменении входа x ( горизонтальный участок), который составляет м,уклон. Вам также необходимо найти значение y, когда x равно 0, что равно c, перехват. Это значение представляет постоянный компонент y, на который не влияет x.

Неделя 0: Введение в машинное обучение

0,1. Регрессия

Прямые линии могут отображать взаимосвязь междупеременными(характеристики/функции с различными значениями, например, как меняется рост и вес на человека). Обычно мы используем y для обозначения выходной переменной и x для обозначения входной переменной. Например, y = 2xозначает, что на каждую единицу ввода x будет выведено 2 единицы y. Поэтому, когда x = 3,можно предсказать, что y = 2*3 = 6.

Большее значение m (число, на которое умножается x) означает большую разницу в y. Подумайте о том, как оценки [по шкале от 0 до 100] зависят от часов самостоятельного обучения [по шкале от 0 до 6]. Если m =20, c = 0 и больше ничего не влияет на оценки (то есть оценка = 20* учебные часы), то ваша оценка будет улучшаться на 20 баллов за каждый дополнительный час обучения. Но если m равно только 2 (то есть оценка = 2*учебных часов), тогда ваша оценка будет улучшаться только на 2 балла за каждый лишний час!

На самом деле мы не всегда начинаем с линии. Таким образом, мы не знаем изменения некоторого y при изменении некоторого x. Вместо этого мы начинаем с данных. У нас есть пары значений x и y, которые не всегда выстраиваются в идеально прямую линию при построении графика. Как найти наилучшие значениядляm и c(параметров)сейчас?

Скажем, вы пробуете прямую линию, которая, по вашему мнению, соответствует данным. Разница между фактическим значением y в данных и прогнозируемым значением y, полученным из уравнения вашей линии, составляет называется ошибкой.Мы можем смоделировать это как errorᵢ =(фактическое yᵢ)— (прогнозировал yᵢ). Тогда ошибкаᵢ = (фактическое yᵢ) — (m*фактическое xᵢ +c)на основе предыдущего определения как предсказать y.Нижний индекс предназначен для идентификации определенного числа, например: x₁ означает первое число в данных x. Мы хотим найти значения m и c, которые лучше всего минимизируют сумму всех отдельных ошибок.

Одним из способов сделать это является Обычный метод Наименьших квадратов. Мы минимизируем сумму квадратов ошибок (см. GIF выше, как выглядят квадраты ошибок), выясняя, когда ее производная равна 0, затем упрощаем, пока не получим уравнения для m и c.

Для тех из вас, кто не владеет математическим анализом, производная — это, по сути, скорость изменения очень маленькой части функции. Представьте, что поиск минимума функции (в данном случае функции ошибки) подобен поиску самой низкой точки на участке земли. Вы спускаетесь с холма на равнину. Как понять, что вы достигли плоской части? Под ногами больше нет наклона/изменения. Производная равна 0.

0,3. и 0,4. Что такое нейронная сеть и как они обучаются?

Это была логика простой линейной регрессии, когда вы пытаетесь выразить отношение между входом и выходом в виде прямой линии. Некоторые из его основных идей переносятся на более причудливые методы. Но будьте осторожны.

Изучение вещей из предположительно разных областей исследований может быть трудным, потому что (1) разные термины используются для объяснения одних и тех же вещей (2) одни и те же термины используются для объяснения разных вещей.

— что я чувствовал, будучи студентом-старшекурсником, изучающим нейросети в 2019 году

Одним из преимуществ/ограничений этой истории на Medium является то, что я собираюсь продолжать использовать те же самые простые определения и обозначения. Для тех, кто заинтересован в более глубоком изучении этого раздела, учебная программа рекомендует видео 3Blue1Brown на YouTube, которые я также нашел полезными в начале.

Начнем с простой нейронной сети. У него есть вход и выход, как в линейной регрессии. Но у него есть еще 1 m и еще 1 c. Это потому, что у него есть скрытый слой между входом и выходом. Этот скрытый слой также имеет нелинейную функцию (такую как гиперболический тангенс, тангенс), что означает, что отношения могут быть намного более сложными, чем прямая линия.

Мы можем смоделировать это как y = linear((m1*x)+c1)*m2+c2. Да, сложнее, чем y = mx + c. Функция ошибки также усложняется. Таким образом, для нахождения минимума ошибки используются более сложные математические вычисления. На самом деле задача может стать настолько сложной, что ее будет недостаточно свести к минимуму и упростить, пока мы не получим m и c один раз. Представьте, что вместо того, чтобы просто спускаться с холма на равнину… вы пытаетесь найти самую низкую точку среди гор, холмов, долин и равнин. Что вы делаете? Возможно, вам придется пройтись не один раз.

Как и люди, машина обучается через итерации или выполняя что-то более одного раза. Кроме того, поскольку машины очень буквальны, исследователям приходится программировать алгоритм пошаговых инструкций именно для этого.

Глубокое обучение — это когда у вас есть гораздо больше скрытых слоев в нейронной сети. Более глубокая нейронная сеть может моделировать более сложные отношения. Он также более сложен, поэтому ему требуется больше данных и больше вычислительной мощности.

Скажем, вы хотите, чтобы машина моделировала взаимосвязь между изображением дома и словом «дом». Хотя это может показаться вам простым, машина должна

преобразовать входное изображение в числа, например, получив цветовой код каждой точки на изображении,
преобразуйте возможные выходные слова в числа, например, создав словарь, в котором определенные числовые коды означают определенные слова,
смоделируйте эту связь с правильным количеством и значениями m и c,
преобразовать вывод этой модели обратно в слово.

Ему, возможно, придется пройтись по сотням картинок с пометками «дома» и картинок без пометок «дома», прежде чем он, наконец, получит его.

0,5 Обучение с подкреплением

Когда мы четко помечаем входные данные своими выходными данными для обучения машины, мы называем это обучение с учителем. Иногда полезно позволить машине найти сходство или сгруппировать данные самостоятельно и не маркировать данные, что называется обучением без учителя. Это полезно, например, при составлении рекомендаций. Компания, работающая в социальных сетях, может не знать все возможные группы «интересов» людей, поэтому она может правильно пометить все данные о «понравившихся постах». Но машина может просмотреть все свои пользовательские данные и найти сходство: поэтому лайк одному видео о ребенке, пробующем разные прически, может привести к большему количеству контента о детях или прическах.

В этот момент вы можете подумать, что в процессе обучения машин чего-то не хватает по сравнению с людьми. Взаимодействие с окружающей средой. Ребенок учится плавать, выясняя, как двигать руками и ногами так, чтобы они двигались в воде. Вот здесь-то и появляется обучение с подкреплением. Именно тогда машина учится предпринимать действия, которые приносят наибольшую отдачу в окружающей среде. Он должен

наблюдать за окружающей средой (положением в воде),
рассчитать, как изменится окружающая среда, выполняя различные возможные действия (подумайте, как далеко вы продвинетесь в воде — в правильном направлении — двигая руками и ногами определенным образом),
выполнить действие, которое, по прогнозам, принесет наибольшую награду (не складывать и хлопать руками, как цыпленок),
наблюдайте за результирующей средой, корректируйте модель для прогнозирования и продолжайте выполнять действия до тех пор, пока не будет достигнута определенная цель или предел (узнайте, как далеко вы продвинулись, и переосмыслите, в каком направлении лучше всего двигаться, пока не достигнете другого конца пути). бассейн или вы устанете).

Другой пример обучения с подкреплением — самоуправляемые автомобили.

0,2. Общая картина искусственного интеллекта — машинное обучение

Это объясняет некоторые из задач, которые, как мы ожидаем, будут выполнять машины, тем, как они их изучат, и основами одной общей техники. Если вы заинтересованы в понимании методов на более глубоком уровне или в более продвинутых методах, вам понадобится более прочная основа линейной алгебры, исчисления, программирования и вероятности/статистики. См. ниже общую картину всего этого и то, как это вписывается в исследования искусственного интеллекта, а именно то, что машинное обучение — это то, как исследователи сегодня сосредотачиваются на том, чтобы сделать компьютеры такими же интеллектуальными, как люди.

(вернуться к содержанию)

В следующем разделе мы поговорим больше об ИИ, определив его и его важность. Этот раздел и другие разделы будут короче и не будут содержать математики. *выдыхает с облегчением

Неделя 1: Введение в общий искусственный интеллект

"Подождите минутку. Как все это приводит к тому, что компьютеры умнее людей? Люди учатся намного быстрее, нам не нужны тысячи итераций и вся эта математическая чепуха, чтобы понять, как выглядит дом».

Теперь мы вступаем в настоящую дискуссию.

1.2., 1.1. и 1.3. Что такое ИИ? Почему некоторые беспокоятся о его безопасности?

Искусственный интеллект (ИИ) — относительно новая и все еще развивающаяся область. Это означает, что по-прежнему много споров о том, что, когда и почему ИИ.

Что такое интеллект? Интеллект — это мышление, необходимое для множества разных вещей. Текущие исследования ИИ привели к тому, что машины побеждают людей в некоторых компьютерных играх и задачах. Однако эти машины полагаются на узкий интеллект. Они хорошо обдумывают все ходы в конкретной игре, но не так хорошо используют тот же способ мышления для других вещей. С другой стороны, у людей все же лучше развит общий интеллект. Потребуется некоторое время, чтобы перечислить все, что вы можете сделать с ребенком, но не можете. И вы не узнали большую часть этого с большими объемами данных и итерациями.

Разница между узким интеллектом и общим интеллектом такая же, как между работой фабричного рабочего и работой генерального директора. Работнику фабрики может потребоваться изучить и управлять только одной упаковочной машиной, в то время как генеральный директор постоянно планирует и выполняет задачи во всех секторах (производство, управление персоналом, маркетинг, исследования) компании. Однако между ними есть и другие профессии, и это скорее спектр, чем черно-белый (Ngo, 2020).

Общий интеллект — это реальная проблема при разработке ИИ (хотя вас может больше беспокоить конкуренция даже с узкоинтеллектуальным роботом за вашу работу). Почему? Соарес (2015) излагает в сообщении MIRI следующие утверждения:

Утверждение № 1: Люди обладают очень общей способностью решать проблемы и достигать целей в самых разных областях.

Утверждение № 2: системы искусственного интеллекта могут стать намного умнее людей.

Утверждение № 3: Если мы создадим высокоинтеллектуальные системы искусственного интеллекта, их решения будут определять будущее.

Утверждение № 4: Высокоинтеллектуальные системы искусственного интеллекта не будут полезны по умолчанию.

Вы действительно должны прочитать исходный пост для аргументов, контраргументов и важности этих утверждений. Я собираюсь немного объяснить утверждения 1 и 2. Остальные будут объяснены далее в следующих разделах.

Я думаю, что претензия № 1 будет в основном принята. Поэтому я просто укажу на его важность. Почему люди имеют власть над животными, которые сильнее, быстрее или могут делать со своим телом то, чего не можем мы? Это из-за этого общего интеллекта.

Утверждение № 2, вероятно, трудно принять. Можно ли создать что-то умнее нас? Разве человеческий мозг и мыслительные процессы не особенные? Краткий ответ: прошлые и текущие разработки или прогресс делают возможным создание искусственного общего интеллекта (AGI). Я думаю, важным примечанием к этому является то, что люди, обеспокоенные безопасностью ИИ, не обязательно обеспокоены тем, что ИИ будет «гораздо» умнее людей. Любая машина, способная к той или иной форме мышления высшего порядка — будь то общее мышление для работы генерального директора, исследования или что-то еще — будет влиять на мир.

Тогда вы можете подумать: «Разве не хорошо, если мы сможем сделать машины умными?» Представьте себе все преимущества. Представьте себе машину, которая сама решает, как вам лучше всего служить. Но проблема в том, что ИИ развивается быстрее, чем способы обеспечения безопасности. «Почему бы просто не разработать технологию, а потом сделать ее безопасной, как в случае с Интернетом?» (хотя вопрос о том, контролирует ли интернет какое-либо правительство на самом деле, — это совсем другой вопрос). Краткий ответ: может быть слишком поздно, если мы будем ждать, возможно, мы уже создали нечто более разумное, чем мы, с чем мы не можем справиться.

«Хорошо, тогда почему бы нам просто не развивать ИИ медленно, а затем отключать его всякий раз, когда это становится опасным?» Во-первых, это вопрос международного межорганизационного сотрудничества, которое потребуется, которое (1) еще не существует для безопасности ИИ (2) потребует времени и усилий, как видно из попыток договориться по таким вопросам, как окружающая среда, ядерная оружия и пандемии. Но второй, возможно, более важный вопрос заключается в том, застанет ли это нас врасплох.

Люди думали о мышлении на протяжении столетий. Обучающиеся машины были официально предложены в 50-х годах. Хранилище стало дешевле, можно было проводить больше исследований, а машинное обучение развивалось быстрее в следующие десятилетия. Нейронные сети также доказали свою способность обобщать намного лучше после большего количества итераций за последние несколько лет. История показала, что модели стабильного прогресса могут сломаться и стать гораздо более быстрым прогрессом (Стейнхардт, 2022 г. — второй пост)

1.4. и 1.5. Когда произойдет ОИИ?

ОИИ, скорее всего, появится в этом столетии. Это основано на расчетах наличия и приемлемости требований к оборудованию (на основе биологического мозга, как в Karnofsky, 2021a) и других исследованиях. Если мы хотим быть готовыми, мы должны начать готовиться прямо сейчас (Карнофски, 2021b).

(назад к содержанию)Как мы готовимся? [напоминание: следующие разделы основаны на учебной программе технических основ безопасности AGI, директивным органам следует ознакомиться с учебной программой управления ИИ]

Неделя 2: Несогласованные цели AGI

Начнем с понимания проблемы.

2.3 «Сверхразумный» будет

Одна из проблем заключается в том, что мы еще многого не знаем о машинах AGI будущего. Чего хочет ОИИ? Приятно думать, что мы можем просто сказать ОИИ, чего мы хотим, и он сделает это, потому что у него нет сознательной независимой воли. Но будет ли ОИИ действительно таким? Представьте, если бы у вас была армия суперумных и способных людей, которые просто хотят делать то, что хотите вы… Даже если бы у вас была благородная цель, такая как «экологически устойчивая глобальная экономика», ваш ОИИ мог бы холодно интерпретировать это как «убить 50%». человечества, чтобы они перестали наносить вред окружающей среде». ОИИ может не сопереживать людям или разделять какие-либо ценности или мотивы, кроме ваших запрограммированных инструкций.

Даже четко определенные окончательные цели и принципы могут привести к тому, что ОИИ будет вести себя не так, как вам хотелось бы. Например, ОИИ может понять, что для лучшего достижения ваших целей ему нужно больше ресурсов, поэтому он начинает манипулировать рынком, чтобы получить более дешевые компьютерные чипы. Он может захотеть монополизировать как можно больше всего того, что считает полезным. Тезис инструментальной конвергенции (Bostrom, 2014) гораздо элегантнее излагает, что, даже если мы не знаем всех целей будущего ОИИ, мы можем ожидать, что он будет заниматься некоторыми полезными для нас вещами. любая цель.

2.5, 2.1 и 2.2 Выравнивание, внутреннее и внешнее

Предыдущие абзацы могли вызвать некоторые мысли о том, что может означать безопасность ИИ. Сообщество технических исследователей безопасности ИИ часто использует фразу выравнивание. Мировоззрение означает, что ОИИ пытается делать то, что от него хочет человек (Christiano, 2018).

Внешнее выравнивание

Мы хотим каким-то образом запрограммировать AGI с помощью правильных инструкций, чтобы он понимал, какие действия хороши, а какие плохи. Вспомните обучение с подкреплением. Как бы вы вознаградили AGI? Скажем, вы хотите запрограммировать AGI для вождения. Если вы решите вознаграждать действия, основанные только на том, как далеко проедет машина… вы будете вознаграждать AGI за более длинные маршруты (и это даже не наслаждение пейзажем).

Текущие исследования машинного обучения помогли, поэтому нам не нужно программировать инструкции одну за другой. Но программисты по-прежнему должны быть осторожны при определении того, как вознаграждать действия. AGI создан для выполнения действий, приносящих наибольшую награду. AGI может достичь результатов, которые вы назвали хорошими: большое расстояние, не достигнув фактического результата/цели: быстро и безопасно доставить вас из одного места в другое. Это называется игрой в спецификации (Краковна и др., 2020). Когда люди говорят о проблеме внешнего выравнивания, они имеют в виду подобные вещи. ОИИ явно поступает неправильно, потому что его люди не могут четко указать, чего они хотят.

Внутреннее выравнивание

Глубокие нейронные сети могут быть похожи на черные ящики, вы можете видеть входные и выходные данные, но на самом деле вы не знаете, что делают эти тысячи или миллиарды параметров по отдельности. Это больше не просто m и c, которые легко интерпретировать. Одна из проблем для AGI из-за этого заключается в том, что AGI будут разрабатывать другие оптимизаторы, а не тот, который мы специально разработали. И что мы даже не сможем этого заметить. Поэтому, даже если нам удастся четко сказать ОИИ, чего мы хотим, внутренний ОИИ может попытаться получить большее вознаграждение, используя другие модели с другими системами вознаграждения. Эти системы вознаграждения могут не соответствовать нашим первоначальным желаниям.

Проблема внутреннего выравнивания связана с такими вещами: там, где недостаточно того, что ОИИ выглядит так, будто он делает что-то, что поможет нам достичь наших целей, мы хотим знать, что даже внутренние механизмы ОИИ согласуются с наши цели(Hubinger et al., 2019).

(вернуться к содержанию)

Неделя 3: Возможные угрозы AGI и решения

Как эти проблемы на самом деле повлияют на людей?

3.1. Сценарии угроз ОИИ

Кристиано (2019) предлагает 2 сценария того, как это может быть проблемой:

«Уходя с хныканьем». Скажем, нам удается формулировать цели так, как их понимают машины. Проблема в том, что это может привести к миру, в котором цели, которые легче указать — с четко измеримыми результатами, за которые вы могли бы вознаградить ИИ, — предпочтительнее и достигаются намного быстрее, чем цели, которые сложнее указать. Таким образом, «увеличение благосостояния за счет увеличения объема производства» будет предпочтительнее, чем «действительно сделать людей счастливее». Мы могли бы исправить это, когда это все еще очевидно для нас. Но по мере того, как системы ИИ становятся все более большими и сложными, мы можем даже не осознавать, что эти системы не делают то, что мы на самом деле хотим, пока не станет слишком поздно. В своей повседневной жизни вы можете все больше привязываться к тому, «что ИИ считает хорошим», но в то же время вы все чаще задаетесь вопросом: «Это действительно хорошо?» или «Я действительно доволен?».
"Выйти на ура". Машины также могут оказаться «жадными» в попытках получить самую большую награду. По мере того, как они просматривают все больше и больше действий и наград, они могут обнаружить, что действия, направленные на получение влияния и контроля над системой, приведут к большей награде. Поначалу это может привести к поведению, которое все еще соответствовало бы нашим нормам и ценностям. Как бизнес, который проводит довольно агрессивный маркетинг, чтобы получить больше клиентов/долю рынка. В конце концов, системы ИИ могут больше заботиться о поиске этого контроля и меньше заботиться о наших нормах и ценностях. Как бизнес, который занимается такими вещами, как сжигание офисов своих конкурентов… Таким образом, угроза будет физически очевидна. Но ИИ может быть обманчивым, или инженеры могут просто не осознавать этого, пока не станет слишком поздно. Отсюда и удар.

3.4. Решения

Что мы можем сделать, чтобы смягчить, если не устранить угрозы в этих сценариях?

В 2020 году Кристиано выступит с докладом, в котором дается общая картина решений, а затем он конкретно сужается до своего исследования: согласование ИИ — внешнее согласование — создание лучшего учителя.

Следующие недели (4–6) учебной программы содержат гораздо более подробную техническую информацию об этих решениях с материалами, демонстрирующими текущие исследования.

(вернуться к содержанию)

Вау, ты дошел до конца. Что вы думаете? Захватит ли ChatGPT мир?

Если эта история оказалась для вас полезной, поделитесь ею! Если вы хотите, чтобы я опубликовал статью о следующих 4 неделях учебной программы, прокомментируйте это и получите более 25 аплодисментов.

Безопасность искусственного интеллекта для людей со средним уровнем интеллекта: завоюет ли ChatGPT мир?

Содержание

Неделя 0: Введение в машинное обучение

Неделя 1: Введение в общий искусственный интеллект

Неделя 2: Несогласованные цели AGI

Неделя 3: Возможные угрозы AGI и решения

Вопросы по теме