Все мы знаем, что OpenAI выпустила новую модель под названием Dall-E, которая генерирует высококачественные реалистичные изображения, когда пользователь вводит короткий описательный текст о том, как изображение должно выглядеть. Модель основана на GPT-3, современной модели обработки естественного языка, и генеративно-состязательной сети (GAN), модели глубокого обучения, которая генерирует реалистичные изображения путем сопоставления двух нейронных сетей друг с другом. Однако в этой статье речь пойдет не о том, как работает DALL-E 2, а о том, как DALL-E отфильтровывает явные и неприемлемые изображения.
Сокращение явного содержания
Поскольку DALL-E 2 был обучен на миллионах изображений с подписями из Интернета, модель научилась генерировать некоторые явные и конфиденциальные изображения в ответ на запросы пользователя. Это нарушило кодекс поведения OpenAI. Чтобы уменьшить это, они использовали фильтрацию данных, мощный инструмент для ограничения нежелательных возможностей модели. Сначала изображения были разделены на две категории — изображения, демонстрирующие сцены насилия и изображения сексуального характера. Это было сделано с помощью классификаторов для фильтрации изображений по этим категориям из набора данных перед обучением DALL·E 2.
Как работает классификатор?
- Изображения были разделены на категории и получили метки
- Для каждой категории/ярлыка собрано по сто положительных и отрицательных примеров
- Процедура активного обучения применяется к существующим категориям, чтобы найти больше данных. Это помогло модели лучше запоминать и обеспечивать большую точность.
- Наконец, мы запускаем вышеуказанный классификатор для всего набора данных с некоторым порогом, чтобы приоритет отдавался фильтрации плохих данных и оставлению хороших данных.
В процессе обучения классификатор был дополнительно улучшен за счет сбора отзывов людей об изображениях, которые не были классифицированы и не помечены.
Кроме того, чтобы уменьшить усилия людей, занимающихся этикетированием, использовались два метода активного обучения. Во-первых, чтобы уменьшить частоту ложных срабатываний нашего классификатора (то есть частоту, с которой он ошибочно классифицирует доброкачественное изображение как насильственное или сексуальное). Во-вторых, для снижения ложноотрицательного результата классификатора применялся метод поиска ближайшего соседа.
Заключение
Для проверки эффективности классификатора были обучены две модели GLIDE с одинаковыми гиперпараметрами: одна на нефильтрованных данных, а другая на наборе данных после фильтрации. Как и ожидалось, отфильтрованная модель обычно создавала менее явный или графический контент в ответ на запросы такого рода контента.
Теперь, если вы ищете что-то явное, вы получите результат, как показано ниже.
Ссылки:
DALL-E и CLIP 101 от OpenAI: краткое введение | Дэвид Перейра | На пути к науке о данных