Сегодня мы нарежем изображения, чтобы создать визуальные словари, и объясним, как компьютеры извлекают информацию из фотографий. Итак, техника, которую мы сегодня изучим, называется Мешок визуальных слов. Он был изобретен в начале 2000-х годов на юге Франции и быстро стал стандартом для обучения компьютеров.

Фотография Тейлор Свифт, ножницы и коричневая сумка — вот что нам понадобится, чтобы понять, как компьютеры представляют изображения в своей внутренней памяти.

Шаг первый — взять изображение и разрезать его на части. Складываем каждый кусочек в пакет, встряхиваем и строим гистограмму самых ярких частей изображения. Проще говоря, мы просто выбираем наиболее различимые черты. В этом случае наиболее различимыми чертами лица являются рот, глаза и волосы. Мы повторяем процесс для других изображений, например, с велосипедом и iPhone.

Теперь у нас есть так называемый «визуальный словарь». Визуальный словарь представляет собой компактный и репрезентативный набор частей изображения, который можно использовать для представления большого количества изображений. Давайте посмотрим, как мы можем использовать его для представления нового изображения, которое вы видите ниже.

Как видите, на изображении изображена дама, едущая на велосипеде. Как обычно, мы разрезаем изображение на части, отбрасываем ненужные части и оставляем только те части, которые представлены в визуальном словаре. В этом случае у нас есть две части, связанные с лицом, и четыре, связанные с велосипедом.

Последнее, что нам нужно сделать, это поставить нужный объект на нужное место в нашем визуальном словаре.

И это все! Получив изображение, мы представили его через визуальный словарь в очень компактном и простом формате, понятном компьютеру.

Итак, в заключение, сегодня мы узнали три вещи. Во-первых, мы узнали, что Мешок визуальных слов — это мощная техника для классификации изображений. Во-вторых, мы узнали о важности визуального словаря для интерпретации визуальных сигналов вокруг нас. В-третьих, мы также узнали, как компьютеры используют этот визуальный словарь для представления изображения во внутренней памяти.

Мы надеемся, что вам понравилась эта запись в блоге и видео — не забудьте подписаться на наш канал YouTube!

Узнайте, как улучшить свою работу по исследованию рынка с помощью ИИ — запланируйте демонстрацию с нами.