Публикации по теме ai-safety

Публикации по теме 'ai-safety'

Состязательные атаки (часть 2) — укрепление доверия к моделям глубокого обучения

Типы враждебных атак Существует два типа состязательных атак: Целевые состязательные атаки Эти атаки нацелены на модель M, которая в идеале должна классифицировать пример S как класс X, чтобы изменить свое решение и, в частности, получить результат как класс Y. Физические атаки с использованием исправлений — это Пример целевых атак. Нецелевые состязательные атаки Эти атаки нацелены на модель M, которая в идеале должна классифицировать пример S как класс X, чтобы изменить свое..

Подражание и оправдание

Предположим, я обучаю систему ИИ играть в го. Один из подходов заключается в том, чтобы ИИ наблюдал за движениями человека и научился предсказывать эти движения. Затем ИИ может выбирать ходы, выбирая из своего предсказанного распределения то, «что сделал бы человек». Но ИИ может учиться быстрее, воспроизводя оправдания вместе с самими ходами. То есть мы можем использовать модифицированную процедуру обучения: Каждый раз, когда человек делает ход, он оправдывает его. Например, человек..

Безопасность — это все, что вам нужно

Эта статья изначально была размещена здесь . Платформа для разработчиков Lakera позволяет командам машинного обучения создавать отказоустойчивые модели компьютерного зрения. TL; DR Быстрое развитие базовых моделей приводит к кардинальным изменениям в способах разработки технологий машинного обучения (МО). Они обещают разблокировать великие технологические преобразования грядущих десятилетий, но они также представляют собой единые точки отказа, обученные на наборах данных..

Безопасность искусственного интеллекта для людей со средним уровнем интеллекта: завоюет ли ChatGPT мир?

Основано на 1-й половине учебной программы EA Cambridge по техническому согласованию на 2022 год. «Все говорят об ИИ». Термин «искусственный интеллект» используется до такой степени, что заявления о его чрезмерном использовании кажутся чрезмерными. Но что это на самом деле означает? Чем занимаются ее исследователи? Человечество в опасности? Если вы обычный взрослый человек, который ищет общее объяснение, которое будет реальным и техническим, но не запутанным, вы попали в нужное место...

— Оставь меня в покое, Волшебник.

Джеймс Миккенс о ценности скептицизма Примечания и вопросы по докладу Джеймса Миккенса на конференции USENIX Security ‘18. Если вы не видели выступление Джеймса и у вас есть час, чтобы просмотреть его реальную речь, пожалуйста, сделайте себе одолжение и просто пойдите на его выступление . Это интересно, познавательно и заставляет задуматься. Абсолютно нельзя пропустить — самое интересное, что вы получите, думая о кибербезопасности, машинном обучении и вычислениях в целом. Дело в..

Предсказуемый шум: недостаток машинного суждения

… ключевое преимущество алгоритмов заключается в том, что они бесшумны: в отличие от людей, формула всегда будет возвращать один и тот же результат для любых заданных входных данных. — Harvard Business Review ( https://hbr.org/2016/ 10/шум ) Человеческие суждения шумны. Быть счастливым или грустным влияет на ваше восприятие всего вокруг вас, включая любую задачу, которой вы можете заниматься, и вы можете делать положительные или отрицательные суждения в зависимости от своего..

Обучение доказуемо-устойчивых нейронных сетей

Мысли и теория Обучение доказуемо-устойчивых нейронных сетей Защита от враждебных примеров с помощью GloRo Nets За последние несколько лет было показано, что глубокие сети уязвимы для злоумышленников, которые могут заставить сеть совершать неприятные ошибки, просто вводя в сеть злонамеренно искаженные входные данные. Очевидно, что это вызывает конкретные опасения по поводу безопасности нейронных сетей, развернутых в дикой природе, особенно в критически важных для безопасности..