Публикации по теме ai-safety

Публикации по теме 'ai-safety'

Как функции вознаграждения за обучение могут пойти не так

Взгляд с точки зрения безопасности ИИ на риски, связанные с тем, что агенты обучения с подкреплением изучают свои функции вознаграждения. Обучение с подкреплением (RL) — одна из самых многообещающих областей ИИ, с самыми разнообразными приложениями, такими как беспилотные автомобили и торговля акциями. Хорошо известная слабость подхода RL заключается в том, что исследователи должны определить функцию вознаграждения, соответствующую цели агента. Для сложных целей это может быть сложно, а..

Опасности робота для приготовления пиццы

Проблемы в области безопасности искусственного интеллекта - подробно объяснены Кто не любит пиццу? Ничто не сравнится с интенсивным дымным ароматом и выдержанной корочкой идеальной пиццы пепперони, заказанной ленивым пятничным вечером. Если вы тоже разделяете страсть к пицце и любовь к машинному обучению, идея научить робота готовить пиццу с помощью машинного обучения может показаться вам не слишком надуманной. В обозримом будущем робот сможет собирать сырые ингредиенты в..

Агенты без целей

Большие языковые модели (LLM) получили ОГРОМНОЕ внимание и инвестиции, и такие компании, как Microsoft и Google, конкурируют за развертывание LLM в качестве автономных сервисов или их интеграцию в существующие продукты. LLM потенциально могут использоваться в качестве помощников, а в сочетании с поиском демонстрируют мощные способности по сбору и обобщению информации. На данный момент они борются с тем, чтобы отличать правду от лжи, и на самом деле не имеют способа представить реальность..

Как научная фантастика все это время готовила нас к будущему

К научной фантастике следует относиться серьезно в наших попытках завоевать будущее. «Три закона робототехники»: 1: Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред; 2. Робот должен подчиняться приказам, отдаваемым ему людьми, за исключением случаев, когда такие приказы противоречат Первому закону. 3. Робот должен защищать свое существование до тех пор, пока такая защита не противоречит Первому или Второму закону...

Понимание стимулов агентов с помощью диаграмм причинно-следственных связей

Том Эверитт В нашей последней статье мы описываем новый метод вывода агентских стимулов. Метод основан на диаграммах влияния, которые представляют собой разновидность графической модели со специальными узлами решения и полезности. В них графические критерии могут использоваться как для определения стимулов для наблюдения за агентами, так и для стимулов вмешательства агентов. Для людей естественно думать об интеллектуальных системах как об агентах, которые стремятся достичь своих..

Как ИИ справляется с неопределенностью: интервью с Брайаном Зибартом

Такер Дэйви Обучая детекторы изображений, исследователи искусственного интеллекта не могут воспроизвести реальный мир. Они учат системы, чего ожидать, снабжая их обучающими данными, такими как фотографии, компьютерные изображения, реальное видео и смоделированное видео, но эти практические среды никогда не могут уловить беспорядок физического мира. В машинном обучении (ML) детекторы изображений учатся обнаруживать объекты, рисуя вокруг них ограничивающие рамки и давая им метки. И..

Текущая безопасность ИИ 101

Текущие проблемы и опасности Эта статья адаптирована из среднего раздела предыдущей Статьи о безопасности ИИ генерального директора AmeliorMate Кэти Эванко-Дуглас. Цель этой статьи — помочь нетехническим специалистам понять ландшафт опасностей, связанных с системами искусственного интеллекта и машинного обучения (AI/ML). Хотя такие технологические прорывы открывают удивительные возможности для развития человечества, они также сопряжены с трудностями. Многие риски, связанные с..