Open AI CLIP: изучение визуальных концепций под контролем естественного языка

Нейронная сеть на основе преобразований, которая использует предварительное обучение Contrastive Language – Image для классификации изображений.

DALL-E, кажется, привлек к себе наибольшее внимание на этой неделе, но я думаю, что CLIP может оказаться еще более значимым. На этой неделе мы экспериментировали с ним, и результаты кажутся слишком хорошими, чтобы быть правдой. он даже смог довольно хорошо классифицировать виды грибов на фотографиях из моей фотопленки.

Автор Брэд Дуайер на Facebook

Несколько дней назад OpenAI выпустила 2 впечатляющие модели CLIP и DALL-E. В то время как DALL-E может генерировать текст из изображений, CLIP классифицирует очень широкий диапазон изображений, превращая классификацию изображений в проблему подобия текста. Проблема с существующими сетями классификации изображений заключается в том, что они обучаются по фиксированному количеству категорий, CLIP не работает таким образом, он учится непосредственно из необработанного текста об изображениях и, следовательно, не ограничивается ярлыками и контролем. Это впечатляет, CLIP может классифицировать изображения с высочайшей точностью без какой-либо специальной подготовки к набору данных.

Главный аргумент в пользу CLIP

OpenAI пытается отойти от традиционных методов обучения с учителем. Например, ImageNet (самый большой набор данных изображений) может классифицировать только изображения, принадлежащие классам, на которых он был обучен. Нет смысла продолжать добавлять новый класс в набор данных и повторно обучать сеть в долгосрочной перспективе.

Набор данных ImageNet, одна из крупнейших работ в этой области, потребовал более 25 000 рабочих для аннотирования 14 миллионов изображений для 22 000 категорий объектов. Напротив, CLIP учится на парах текст – изображение, которые уже общедоступны в Интернете. Снижение потребности в дорогостоящих больших помеченных наборах данных было тщательно изучено в предыдущей работе.

Источник: OpenAI

Только представьте, сколько стоит нанять 25 000 рабочих!

Основным преимуществом CLIP является классификация изображений с нулевым кадром, это означает, что вы можете взять фрагмент текста и изображение, отправить их по сети и получить прогноз того, насколько вероятно, что они будут похожи.

Это означает, что вы можете выполнять классификацию без какого-либо предварительного обучения набору данных для вашего индивидуального варианта использования, и это действительно впечатляет, потому что до этого были построены практически все сети классификации, поскольку у вас был бы собственный набор данных, который представляют те вещи, которые вы хотите классифицировать, и тогда у вас будут изображения, которые соответствуют этим, и вы должны отправить их через процедуру обучения и в конечном итоге вывести свою сеть в конце, в то время как clip позволяет вам обойти.

Быстрый обзор: сравнительное обучение

Контрастное обучение - это подход к формулировке задачи поиска похожих и непохожих вещей для модели машинного обучения. Используя этот подход, можно обучить модель машинного обучения классифицировать похожие и разнородные изображения.

Источник: АналитикаВидыха

Чтобы понять силу этой модели, вы должны понять, что такое контрастное обучение. В контрастном обучении наблюдается всплеск интереса к методам обучения с самоконтролем, особенно в области компьютерного зрения, с такими статьями, как Simclr и Moco.

Вы можете думать о контрастном обучении как о проблеме сопоставления. Если бы вам пришлось сопоставить изображение кошки с другим похожим изображением, вы легко это сделаете. Сначала узнайте первую кошку, затем найдите изображение другой кошки. Таким образом, вы можете противопоставить похожие и непохожие вещи.

Как оно это делает?

Я думаю, что одна из основных причин, по которой эта модель превосходит другие современные модели, заключается в том, что в ней используется смесь методов НЛП и компьютерного зрения.

Контрастная предварительная тренировка

Методы предварительной тренировки становятся все более популярными в последние несколько лет и произвели революцию в НЛП.

Модель начинается с контрастного предварительного обучения, когда пары текста изображения сопоставляются с подобием из пакета изображений. Это делается с помощью кодировщика изображений и кодировщика текста. Контрастное предварительное обучение пытается изучить представления инвариантных к шуму последовательностей, которые поощряют согласованность между изученными представлениями и исходной последовательностью.

Они черпали вдохновение из VirTex, который представляет собой подход к предварительному обучению с использованием семантически плотных субтитров для изучения визуальных представлений. Было показано, что этот подход превосходит другие контролируемые подходы, такие как классические высокопроизводительные сети ImageNet.

2. Прогнозирование нулевого выстрела (как описано выше)

Это довольно круто, если вы хотите попробовать это сами, я рекомендую проверить этот замечательный пост в блоге:

Как попробовать CLIP: OpenAI's Zero-Shot Image Classifier
Ранее на этой неделе OpenAI сбросил бомбу в мир компьютерного зрения: две новые революционные модели, которые намекают на… blog.roboflow.com

CLIP потрясающий и революционный, но ...

У каждой отличной модели есть свои ограничения. Хотя CLIP превосходит современные модели, у него есть несколько недостатков.

Во-первых, он не очень хорошо справляется с систематическими задачами, такими как подсчет количества объектов на изображениях.
Возможность недельного обобщения изображений, не включенных в набор данных до обучения.
Чувствителен к формулировкам и фразам

Заключительные мысли и вывод

Цель этой статьи - не преувеличивать CLIP, поскольку это обычно делается со многими новыми моделями машинного обучения. Однако всегда приятно видеть инновации и новые идеи. Надеюсь, вы уловили, что разработчики CLIP пытались отойти от традиционных методов машинного обучения к более новым. Я думаю, что первый шаг к более новому подходу всегда оказывается более трудным, и я уверен, что в будущем мы будем искать более эффективные подходы, основанные на CLIP. Если вы хотите узнать больше о технических деталях CLIP, я предлагаю взглянуть на их статью здесь.

Если вы хотите получать регулярные обзоры последних статей в области искусственного интеллекта и машинного обучения, добавьте сюда свой адрес электронной почты и подпишитесь!

Https://artisanal-motivator-8249.ck.page/5524b8f934