1. DiffFashion: дизайн одежды на основе эталонов с переносом с учетом структуры с помощью диффузионных моделей (arXiv)

Автор: Шидун Цао, Вэньхао Чай, Шэнъюй Хао, Яньтин Чжан, Ханьюэ Чен, Гаоан Ван.

Аннотация: Дизайн одежды на основе изображений с использованием методов искусственного интеллекта в последние годы привлекает все большее внимание. Мы фокусируемся на новой задаче дизайна одежды, где мы стремимся перенести эталонное изображение внешности на изображение одежды, сохраняя при этом структуру изображения одежды. Это сложная задача, поскольку нет доступных эталонных изображений для недавно разработанных выходных изображений моды. Хотя преобразование изображения на основе диффузии или перенос нейронного стиля (NST) обеспечивает гибкую передачу стиля, часто бывает трудно реалистично сохранить исходную структуру изображения во время обратного распространения, особенно когда изображение внешнего вида, на которое ссылаются, сильно отличается от обычного внешнего вида одежды. . Чтобы решить эту проблему, мы представляем новый метод неконтролируемой передачи с учетом структуры на основе диффузионной модели для семантического создания новой одежды из заданного изображения одежды и эталонного изображения внешнего вида. В частности, мы отделяем одежду переднего плана с помощью автоматически генерируемых семантических масок с помощью условных меток. Маска далее используется в качестве руководства в процессе шумоподавления для сохранения информации о структуре. Кроме того, мы используем предварительно обученный преобразователь зрения (ViT) как для управления внешним видом, так и для управления структурой. Наши экспериментальные результаты показывают, что предлагаемый метод превосходит современные базовые модели, создавая более реалистичные изображения в задаче дизайна одежды. Код и демо можно найти на https://github.com/Rem105-210/DiffFashion.

2. NephroNet: новая программа для выявления почечно-клеточного рака и создания синтетических обучающих изображений с помощью сверточных нейронных сетей и диффузионных моделей (arXiv)

Автор : Яшвир Сабхарвал

Резюме: Почечно-клеточная карцинома (ПКР) представляет собой тип рака, который возникает в почках и является наиболее распространенным типом рака почки у взрослых. Его можно разделить на несколько подтипов, включая светлоклеточный ПКР, папиллярный ПКР и хромофобный ПКР. В этом исследовании была разработана и обучена модель искусственного интеллекта для классификации различных подтипов ПКР с использованием ResNet-18, сверточной нейронной сети, которая широко используется для задач классификации изображений. Модель была обучена на наборе данных гистопатологических изображений ПКР, который состоял из цифровых изображений слайдов хирургической резекции ПКР, которые были аннотированы соответствующими метками подтипа. Производительность обученной модели оценивалась с использованием нескольких показателей, включая точность, точность и полноту. Кроме того, в этом исследовании новый инструмент для создания синтетических изображений, NephroNet, разработан на диффузионных моделях, которые используются для создания исходных изображений слайдов хирургической резекции почечно-клеточного рака. Диффузионные модели — это класс генеративных моделей, способных синтезировать высококачественные изображения из шума. Несколько диффузоров, таких как Stable Diffusion, Dreambooth Text-to-Image и Textual Inversion, были обучены на наборе данных изображений RCC и использовались для создания серии исходных изображений, которые напоминали слайды хирургической резекции RCC, все в пределах диапазона менее четырех. секунды. Сгенерированные изображения были визуально реалистичными и могли использоваться для создания новых обучающих наборов данных, тестирования производительности алгоритмов анализа изображений и обучения медицинских работников. NephroNet предоставляется как пакет программного обеспечения с открытым исходным кодом и содержит файлы для предварительной обработки данных, обучения и визуализации. В целом, это исследование демонстрирует потенциал моделей искусственного интеллекта и диффузии для классификации и создания изображений RCC соответственно. Эти методы могут быть полезны для улучшения диагностики и лечения ПКР и др.