Как DALL-E 2 устранил явный контент изображений?

Все мы знаем, что OpenAI выпустила новую модель под названием Dall-E, которая генерирует высококачественные реалистичные изображения, когда пользователь вводит короткий описательный текст о том, как изображение должно выглядеть. Модель основана на GPT-3, современной модели обработки естественного языка, и генеративно-состязательной сети (GAN), модели глубокого обучения, которая генерирует реалистичные изображения путем сопоставления двух нейронных сетей друг с другом. Однако в этой статье речь пойдет не о том, как работает DALL-E 2, а о том, как DALL-E отфильтровывает явные и неприемлемые изображения.

Сокращение явного содержания

Поскольку DALL-E 2 был обучен на миллионах изображений с подписями из Интернета, модель научилась генерировать некоторые явные и конфиденциальные изображения в ответ на запросы пользователя. Это нарушило кодекс поведения OpenAI. Чтобы уменьшить это, они использовали фильтрацию данных, мощный инструмент для ограничения нежелательных возможностей модели. Сначала изображения были разделены на две категории — изображения, демонстрирующие сцены насилия и изображения сексуального характера. Это было сделано с помощью классификаторов для фильтрации изображений по этим категориям из набора данных перед обучением DALL·E 2.

Как работает классификатор?

Изображения были разделены на категории и получили метки
Для каждой категории/ярлыка собрано по сто положительных и отрицательных примеров
Процедура активного обучения применяется к существующим категориям, чтобы найти больше данных. Это помогло модели лучше запоминать и обеспечивать большую точность.
Наконец, мы запускаем вышеуказанный классификатор для всего набора данных с некоторым порогом, чтобы приоритет отдавался фильтрации плохих данных и оставлению хороших данных.

В процессе обучения классификатор был дополнительно улучшен за счет сбора отзывов людей об изображениях, которые не были классифицированы и не помечены.

Кроме того, чтобы уменьшить усилия людей, занимающихся этикетированием, использовались два метода активного обучения. Во-первых, чтобы уменьшить частоту ложных срабатываний нашего классификатора (то есть частоту, с которой он ошибочно классифицирует доброкачественное изображение как насильственное или сексуальное). Во-вторых, для снижения ложноотрицательного результата классификатора применялся метод поиска ближайшего соседа.

Заключение

Для проверки эффективности классификатора были обучены две модели GLIDE с одинаковыми гиперпараметрами: одна на нефильтрованных данных, а другая на наборе данных после фильтрации. Как и ожидалось, отфильтрованная модель обычно создавала менее явный или графический контент в ответ на запросы такого рода контента.

Теперь, если вы ищете что-то явное, вы получите результат, как показано ниже.

Ссылки:

DALL-E и CLIP 101 от OpenAI: краткое введение | Дэвид Перейра | На пути к науке о данных

DALL·E 2, Объяснение: обещания и ограничения революционного ИИ | Альберто Ромеро | На пути к науке о данных

DALL·E 2 предтренировочные меры (openai.com)

ДАЛЛ·Е 2 (openai.com)

Как DALL-E 2 устранил явный контент изображений?

Сокращение явного содержания

Как работает классификатор?

Заключение

Вопросы по теме