Современная технология поиска изображений использует как обработку естественного языка, так и компьютерное зрение. Традиционные задачи НЛП, такие как классификация, распознавание именованных сущностей и перевод, объединяются с достижениями в области компьютерного зрения, чтобы автоматизировать такие задачи, как добавление субтитров к изображениям и создание веб-сайтов. Какими бы захватывающими ни были эти достижения, их использование в основном ограничивалось крупными технологическими фирмами и интернет-гигантами. Эти задачи, которые необходимо выполнять с любой точностью, чтобы быть полезными, требуют очень больших наборов данных и масштабируемости. Это часто бывает и является основным барьером для входа на рынок небольших фирм и стартапов.

[Статья по теме: интеграция текстовой и визуальной информации в мощную систему визуального поиска]

В своем выступлении на ODSC West 2018 Мэтью Рубашкин рассматривает некоторые из различных подходов, которые обычно используются при создании систем поиска изображений. Первый, о котором он упоминает, известен как сквозной режим, в котором в качестве базовой линии используется одно изображение, которое создает оценки сходства для всего набора данных. Этот процесс быстр и эффективен для наборов данных, содержащих всего несколько сотен изображений. Однако, как только данные превышают определенный объем, проблемы с масштабируемостью вызывают быстрое ухудшение полезности.

Другой вариант - использовать сиамские сети для создания оценки попарного сходства между двумя изображениями и использовать эту оценку в качестве основы для набора данных. Это процесс, обычно используемый более крупными фирмами, поскольку он масштабируется до более крупных наборов данных. Для его использования требуется значительная вычислительная мощность, он медленный и дорогостоящий с точки зрения вычислений, что делает его маловероятным вариантом для всех, кроме самых крупных и богатых компаний. Еще одним недостатком этой модели является то, что она не может использовать текст в качестве функции поиска.

Третий подход, как объяснил Рубашкин, использует встраивание изображений для заблаговременного вычисления сходства, минуя трудоемкий и несовершенный процесс создания оценок подобия. Этот подход является гибким, быстрым и масштабируемым для нескольких архитектур. Помимо этого, он способен не только генерировать похожие изображения из входного изображения или распознавать слова, похожие на входное слово, но может быть подвергнут перекрестному обучению в достаточной степени для создания тегов для изображений и поиска изображений на основе текста.

Этот метод не идеален: Рубашкин отмечает, что сортировка путем встраивания изображений помещает изображения в определенные категории, что может ограничить результаты поиска и привести к неточностям. Одним из способов решения этой проблемы было использование «полууправляемого» подхода, который, по сути, сводится к смещению модели после начального обучения по мере того, как становятся очевидными конкретные ошибки. Более многообещающим для крупномасштабного исправления кажется использование текста с использованием НЛП, чтобы подчеркнуть различия или сходства между изображениями, которые считаются похожими в моделях только с изображениями. В его нынешнем виде модель Рубашкина добавляет слой, который классифицирует изображения по типу, так что на его примере модель может понять, что разница между «собакой» и «самолетом» больше, чем между «собакой» и «самолетом». "Кот." Без обучения на основе текста компьютер не способен различать уровни различий.

[Статья по теме: 7 советов по визуальному поиску в масштабе]

Подход Рубашкина к поиску изображений предоставляет возможности для широко используемого моделирования поиска изображений, а достижения в области НЛП обещают сделать гибридные модели еще более эффективными. Посмотрите полный текст выступления ниже и обязательно посетите ODSC East 2019, чтобы узнать о других интересных событиях.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.