Введение

Вы когда-нибудь хотели найти автомобиль своей мечты; но вы понятия не имеете, что это такое, какие модели искать и т.д.? Не беспокойтесь больше! В нашем проекте мы планируем работать конкретно с изображениями автомобилей и создать приложение для поиска автомобилей, которое предлагает интуитивно понятный и естественный способ поиска автомобилей для своих пользователей.

Тема

Автомобили имеют большое разнообразие визуальных характеристик, таких как цвет, тип кузова (внедорожник, купе, кабриолет, лимузин и т. д.); дизайн фары, дизайн решетки радиатора, форма капота и т. д.

Хотя первые две упомянутые особенности (цвет и тип кузова) легко различимы среди автомобилей, остальные черты, составляющие общий внешний вид, трудно описать, особенно для людей, не знакомых с предметной областью.

Эти необъяснимые и запутанные особенности, связанные с внешним видом, могут затруднить пользователям поиск типов автомобилей по их вкусу.

Скажем, вы видите на дороге автомобиль, который вам нравится, и вы хотели бы поискать похожие на него автомобили с похожим «дизайном экстерьера», но, возможно, в другом цвете или другом типе кузова.

Эта проблема сложна для традиционных поисковых систем на основе тегов, однако мы считаем, что эту проблему можно решить с помощью мультимодального поиска изображений, когда пользователь предоставляет изображение указанного автомобиля и указывает желаемые изменения цвета и типа кузова, которые затем используются. системой для поиска похожих автомобилей.

Данные

Хотя существует множество наборов данных, содержащих изображения автомобилей, в большинстве случаев они не предоставляют нужных нам характеристик автомобилей, а именно цвета и типа кузова. Тем не менее, DVM Dataset, который представляет собой крупномасштабный набор данных для автомобильных изображений, предоставляет эти фрагменты информации наряду с прибл. 180 тысяч уникальных изображений автомобилей.

Другим источником набора данных может быть cars-data.com, который представляет собой огромную базу данных автомобилей и связанных с ними спецификаций, которая также содержит необходимую нам информацию об автомобилях.

Наконец, мы можем использовать изображения автомобилей из наборов данных, которые не предоставляют информацию о цвете и типе кузова, но добавляют эти метки в набор данных либо вручную, либо полуавтоматически.

Похожая работа

Мультимодальные поисковые системы активно изучаются. Есть несколько работ, которые очень похожи на то, чего мы пытаемся достичь:

[1] где Anwaar et al. создает систему поиска модных товаров.

[2] где Китановский и др. создать систему поиска медицинских изображений, которая использует как текстовые, так и визуальные модальности

[3] где Nguyen et al. создать систему поиска изображений достопримечательностей с использованием визуальных и текстовых (географических) модальностей.

Кроме них, есть много работ, связанных с тем, как работать с несколькими модальностями и применять перевод между этими модальностями.

[1] Мухаммад Умер Анваар, Егор Лабинцев, Мартин Кляйнштойбер, «Композиционное изучение запроса изображения-текста для поиска изображений», 2021 г.

[2] Иван Китановски, Джорджи Стрезоски, Ивица Димитровски, Джорджи Маджаров, Сузана Лосковска, «Мультимодальная система поиска медицинских изображений», 2017 г.

[3] Дук-Тьен Данг-Нгуен, Джулия Боато, Алессандро Москитти, Франческо Г.Б. Де Натале, «Под наблюдением