Сможете угадать, что общего у этих трех изображений?

Вы, наверное, догадались, что все автомобили на изображениях красные, но каждая представляет собой отдельный вид транспорта. Однако эти изображения обманули современную модель компьютерного зрения, заставив думать, что это изображения пожарных машин.

Эти изображения были отобраны с помощью простого поиска в Интернете, а также были получены некоторые предварительные знания о внутренней работе исследуемой модели ИИ. Другими словами, зная, как модель ИИ реагирует на определенные входные данные, мы смогли манипулировать изображениями, чтобы модель неверно предсказывала транспортное средство, которое полностью отличается от его истинного представления, и то, что человек легко узнал бы. .

Как убедиться, что ваша модель искусственного интеллекта не уязвима?

Чтобы предотвратить подобные атаки на модели искусственного интеллекта, ученые и инженеры по данным искусственного интеллекта должны иметь возможность проверять внутренние функции, изученные моделями искусственного интеллекта, которые они создают и используют. Veriph.ai предлагает технологию, которая помогает разработчикам ИИ напрямую видеть внутренние представления, на основе которых их модели ИИ основывают свои прогнозы, используя технику, называемую визуализацией функций. С помощью этой техники мы используем модель ИИ для обратного проектирования синтетического изображения того, что модель использует для описания конкретных функций, которые позволяют сделать прогноз. Хотя этот подход поначалу может показаться немного странным, учитывая, что специалисты по ИИ уже давно рассматривают нейронные сети как черные ящики, мы считаем, что этот метод может стать незаменимым инструментом для владельцев, ученых и инженеров, создающих ИИ. модель.

Понимая чувствительность модели ИИ к красным грузовикам с белыми полосами, мы можем манипулировать моделью и легко заставлять определенные нейроны в модели реагировать на чувствительные компоненты. Это, в свою очередь, заставляет модель ИИ сделать неточный прогноз, в данном случае - пожарную машину.

Модели ИИ делают неверные прогнозы

Почему это случилось? В статье Быстрое обучение в глубоких нейронных сетях авторы объясняют это, отмечая, что модели глубокого обучения всегда изучают простейшее возможное решение проблемы. Другими словами, модели искусственного интеллекта имеют тенденцию использовать ярлыки при обучении различать особенности среди различных объектов в обучающем наборе, но эти же ярлыки могут привести к сбою модели при определенных прогнозах при переводе в реальные приложения.

В случае нашей модели искусственного интеллекта, которая была обучена с использованием тысяч изображений для каждого типа транспортного средства, мы смогли признать, что в обучающей выборке не было достаточного количества образцов пожарных машин разного цвета. В результате красный цвет с белыми полосами стал доминирующим прогнозирующим признаком этой модели для пожарных машин.

Основная проблема заключается в том, что ИИ отлично умеет распознавать образы, но еще не имеет всеобъемлющего представления о нашем мире и, следовательно, не может точно рассуждать обо всем, что присутствует в этом мире. Это часто приводит к сюрпризам, когда человек заглядывает внутрь модели ИИ и видит, какие функции модель усвоила и как эти функции способствуют созданию индивидуальных прогнозов.

Переход к беспристрастному ИИ

Возможно, тогда обучение с помощью ярлыков - это одна из тех точек зрения, которые объясняют, почему возникают непреднамеренные предубеждения в ИИ. Предубеждения могут использоваться в качестве ярлыков как людьми, так и машинами, и для нас важно знать о них и внедрять надлежащий процесс проверки для наших систем данных. Мы считаем, что вовлечение людей в цикл - лучший текущий метод борьбы с предубеждениями, учитывая невозможность указать, какие функции мы хотим, чтобы модель ИИ изучила.

Что мы можем сделать, чтобы тестировать и контролировать наш ИИ? Мы больше не можем рассматривать нейронные сети как черные ящики. Мы должны пересмотреть функциональность модели ИИ так же, как мы оцениваем традиционно программируемую программную систему. Мы должны удалить нежелательные отличительные особенности путем увеличения и очистки данных. Мы также можем изменить алгоритм и сделать модель нечувствительной к определенным функциям.

Мы считаем, что ИИ может творить добро, но пока нам нужно применить к ИИ принцип «доверяй, но проверяй».

О veriph.ai

Veriph.ai предлагает инструменты и решения, которые позволяют владельцам ИИ и разработчикам моделей заглядывать внутрь своих моделей нейронных сетей - чтобы всесторонне понять, что их ИИ узнал, чтобы они могли предпринять действенные шаги для устранения проблем с производительностью и проверки отсутствия ярлыков или непреднамеренных действий. предубеждения были изучены моделью.