Сумка визуальных слов в двух словах

Искусство выбирать важные черты

Пакет визуальных слов (BOVW) обычно используется при классификации изображений. Его концепция заимствована из поиска информации и словарного запаса НЛП (BOW). В пакете слов (BOW) мы подсчитываем количество каждого слова, встречающегося в документе, используем частоту каждого слова, чтобы узнать ключевые слова документа, и строим из него частотную гистограмму. Мы относимся к документу как к мешку слов (ЛУК). У нас та же концепция в пакете визуальных слов (BOVW), но вместо слов мы используем функции изображения в качестве «слов». Особенности изображения - это уникальный узор, который мы можем найти в изображении.

Что такое мешок визуальных слов (BOVW)?

Общая идея пакета визуальных слов (BOVW) состоит в том, чтобы представить изображение как набор функций. Функции состоят из ключевых точек и дескрипторов. Ключевые точки - это «выделяющиеся» точки на изображении, поэтому независимо от того, поворачивается ли изображение, сжимается или расширяется, его ключевые точки всегда будут одинаковыми. А дескриптор - это описание ключевой точки. Мы используем ключевые точки и дескрипторы для создания словарей и представляем каждое изображение как частотную гистограмму функций, присутствующих в изображении. Позже по гистограмме частот мы сможем найти другие похожие изображения или предсказать категорию изображения.

Как собрать пакет визуальных слов (BOVW)?

Мы обнаруживаем особенности, извлекаем дескрипторы из каждого изображения в наборе данных и строим визуальный словарь. Обнаружение признаков и извлечение дескрипторов в изображении может быть выполнено с помощью алгоритмов извлечения признаков (например, SIFT, KAZE и т. Д.).

Далее мы делаем кластеры из дескрипторов (мы можем использовать K-Means, DBSCAN или другой алгоритм кластеризации). Центр каждого кластера будет использоваться в качестве словарей визуального словаря.

Наконец, для каждого изображения мы составляем частотную гистограмму из словарей и частоты словарей в изображении. Эти гистограммы - наш набор визуальных слов (BOVW).

У меня есть изображение, и я хочу найти еще 20 похожих изображений из набора данных. Как я могу это сделать?

Учитывая другое изображение (будь то из набора данных или нет), как и раньше, мы обнаруживаем особенности в изображении, извлекаем дескрипторы из изображения, группируем дескрипторы и строим гистограмму той же длины, что и предыдущая гистограмма. Используя пакет визуальных представлений слов из нашего набора данных, мы можем вычислить ближайших соседей этого изображения. Мы можем сделать это, используя алгоритм ближайших соседей или другой алгоритм.

Ссылка :

Распознавание и изучение категорий объектов
Награжден призом за лучший краткий курс на ICCV 2005 г. Распознавание и изучение категорий объектов Ли Фей-Фэй (Стэнфорд), Роб… человек. csail.mit.edu