В этой статье предлагается обучение и оценка точно настроенного DDPM для конкретной цели, в данном случае для создания изображений.

С 16 февраля по 23 февраля 2023 года в KU Leuven прошел Datathon, на котором командам предоставляется набор данных, и им предлагается создавать решения для данных на основе этой темы. Это не только возможность учиться вне обычной студенческой рутины, но и увлекательная задача, в которой можно участвовать с друзьями, чтобы получить представление о науке о данных и искусственном интеллекте.

Задача Datathon на 2023 год была открытой. Нам был предоставлен совокупный набор данных, состоящий из множества различных таблиц в различных форматах, включая файлы .csv. Данные были сосредоточены вокруг темы произведений искусства, поэтому были таблицы, содержащие информацию о художниках, произведениях искусства, образовании, движении, художественных средствах и многих других дескрипторах. Нашей задачей будет очистить данные и представить наши идеи после недели анализа.

В стартовой презентации был приведен пример смещения модели преобразования текста в изображение, обученной на наборе данных LAION-5B (https://laion.ai/blog/laion-5b/). Было продемонстрировано, как «Звездная ночь» Ван Гога была настолько распространена в скопированном из Интернета наборе поездов ЛАИОН-5Б, что модель всегда выводила одно и то же изображение для названия «Звездная ночь», несмотря на то, что художник был изменен в текстовой подсказке. . «Звездная ночь Ван Гога» и «Звездная ночь Дали» были созданы как почти идентичные произведения искусства, несмотря на то, что Дали был сюрреалистом, а не экспрессионистом.

Вдохновленные качеством созданных художественных работ и заинтересованные в этой предвзятости обучения, мы решили создать модель генерации иллюстраций с преобразованием текста в изображение без неявной предвзятости, а затем выяснить, сможем ли мы обнаружить искусство, созданное ИИ, и сделать нашу модель более устойчивой к методы обнаружения подделок.

Модель, использованная в демонстрации Datathon, вероятно, будет стабильной диффузией, поскольку эта модель обучена на LAION-5B и является одной из самых передовых моделей с открытым исходным кодом для создания изображений, доступных в настоящее время. По этим причинам мы решили настроить эту модель на основе набора данных об искусстве, предоставленного в нашем стремлении создать улучшенный генератор изображений. Стабильная диффузия — это вероятностная модель шумоподавления диффузии, которая использует U-Net для выполнения аспекта «диффузии», что в данном случае означает постепенное создание представлений изображения из случайного шума (и фактически обучается, выполняя обратное). Это часть модели стабильной диффузии, которая действительно характеризует то, как будет выглядеть изображение.

Модель Stable Diffusion имеет в общей сложности 890 миллионов параметров, что было невозможно точно настроить с помощью имеющегося у нас графического процессора ноутбука. Вместо этого мы использовали метод низкоранговой адаптации (LoRA) (https://arxiv.org/pdf/2106.09685.pdf), чтобы изменить только весовые коэффициенты внимания UNet, что привело к созданию файла весовых коэффициентов размером всего 3 МБ. Веса внимания характеризуют важность сгенерированных коэффициентов внутри модели — например, если модель пытается обнаружить кошку на изображении, она будет обращать внимание на все пиксели, составляющие кошку (а что касается перекрестного внимания трансформатора, в дальнейшем обратите внимание на конечности кошки, такие как уши и хвост). Это позволило нам выполнить тонкую настройку Stable Diffusion на наших персональных компьютерах, а также позволило нам визуально изменить поведение модели и получить дополнительное преимущество, позволяющее избежать «катастрофического забывания», когда тонкая настройка приводит к тому, что модель забывает, как генерировать определенные образы.

Прежде чем мы приступили к тонкой настройке модели генерации, мы проверили эффективность методов обнаружения сгенерированных изображений на изображениях, сгенерированных исходной моделью стабильной диффузии. В интересах экономии времени мы создали ИИ-аналог только для подмножества записей реальных произведений искусства, используя подсказку преобразования текста в изображение: {Название произведения} {Artist}.

Затем мы запустили модель обнаружения поддельных изображений (https://ieeexplore.ieee.org/document/8695364) на реальных и сгенерированных произведениях искусства, которая показала, что изображения, созданные с помощью Stable Diffusion, могут быть обнаружены почти со 100% достоверностью благодаря цифровой отпечаток, оставленный моделью. Несмотря на наш скудный подход к тонкой настройке, мы решили поэкспериментировать, может ли тонкая настройка LoRA уменьшить обнаруживаемость поддельных произведений искусства, созданных искусственным интеллектом.

Чтобы проверить, можем ли мы улучшить эффективность обнаружения только путем точной настройки веса внимания в U-Net, мы перетасовали изображения с наивысшим «фальшивым баллом» и разделили их на «обучающие» и «тестовые» наборы, где мы будет использовать набор «поезд» в качестве эталона для точной настройки нашей модели, а затем воспроизводить сгенерированные изображения с текстовыми подсказками из тестового набора для запуска сгенерированной модели обнаружения изображений. Мы также надеялись, что, тренируясь на произведениях искусства, содержащих более высокие частоты, наша модель сможет научиться воссоздавать более сложные произведения искусства с более высоким качеством. Обнадеживает то, что мы сразу же увидели снижение предвзятости при регистрации процесса обучения.

Хотя наша первая попытка тонкой настройки была успешной в уменьшении предвзятости знаменитых иллюстраций, мы поняли, что модель усвоила новую предвзятость создания водяных знаков вики-арта, часто создавая символы по краям изображений, которые выглядели так, как будто они принадлежат к «Господу». колец».

После повторного запуска модели без водяных знаков в наборе тонкой настройки мы повторно протестировали выходные данные модели «обнаружение поддельных произведений искусства» и увидели лишь незначительное снижение показателей обнаружения подделок в нашем «тестовом» наборе. Мы можем сделать логическое предположение, что это связано с тем, что частоты изображений сгенерированных произведений искусства контролируются фактическими весами U-Net и / или весами, присутствующими в декодере VAE (показаны зеленым на диаграмме стабильной диффузии).

После этого наше внимание сосредоточилось на эффекте, который мы уже наблюдали во время регистрации во время обучения, — устранении систематических ошибок, присутствующих в исходном наборе данных LAION-5B. К сожалению, не было классифицировано «стиль» для каждого произведения искусства в наборе данных, предоставленном Datathon, а другие атрибуты, такие как «среда» произведения искусства (например, масло на холсте), не были полными для всех произведений искусства в предоставленном нам наборе данных. Поэтому, чтобы измерить возросшее разнообразие генерации стилей нашей моделью, мы точно настроили Vision Transformer на наборе данных artbench-10 (https://www.kaggle.com/datasets/alexanderliao/artbench10), удалив один из 10 классов и построение набора данных из 1000 изображений для каждого из оставшихся 9 классов. Тестовый набор состоял из 100 изображений на класс, и после обучения модель показала точность 59,5%.

Итак, как же на самом деле выглядит «Звездная ночь», написанная другими художниками? Вот сравнение обеих моделей, создающих иллюстрацию с использованием одного и того же кода:

Мы использовали 50 шагов логического вывода Stable Diffusion — большее количество шагов позволило бы получить изображения еще более высокого качества, но, как и во всех хакатонах, время имело решающее значение. После генерации подсказки «Звездная ночь от [исполнителя]» для 200 разных исполнителей две наши модели возвращают следующие распределения классификации:

Это дает дополнительное преимущество для произведений искусства с абстрактными названиями, такими как «Изготовление боеприпасов Томпкинса Харрисона Мэтисона». Оригинальный Stable Diffusion не распознает эту подсказку как иллюстрацию и вместо этого пытается переделать ряды боеприпасов так, как вы бы видели их в реальной жизни, в то время как наша модель создает иллюстрацию с подсказкой, которую ей дали.

Благодаря обучению только веса внимания U-Net наша модель сохраняет способность генерировать высококачественные изображения, возможные с исходной моделью Stable Diffusion. Это могут показать произведения искусства, созданные с известными людьми, а не картины, как подсказывают сюжеты модели.

В заключение я хотел бы поблагодарить организаторов KU Leuven Datathon 2023 за выбор веселой и интересной темы, открытой для творческих решений и идей. Я также хотел бы поблагодарить моих товарищей по команде Дмитрия Кравченко, Анхеля Адриана Пенью Гонсалеса и Шона Дейла Луиджа, которые были отличными товарищами по команде и каждый из которых сыграл решающую роль в доведении этого проекта до его окончательного завершения.

Большое спасибо HuggingFace, с которого мы смогли запустить модели Stable Diffusion и Vision Transformer. Чтобы закончить эту статью, позвольте мне представить нашу работу модели на другом произведении с высоким уклоном, Моне Лизе:

Другие ресурсы, которые были неоценимы для нашего проекта:

Документ о преобразователе зрения: https://arxiv.org/pdf/2010.11929.pdf

Оригинальный документ DDPM: https://arxiv.org/pdf/2006.11239.pdf

Документ об обнаружении подделок: https://arxiv.org/pdf/2211.00680.pdf

Репозиторий GitHub: https://github.com/OliverSchamp/Whats-A-NN-Datathon

Демо: