Введение

CLIP (предварительное обучение изображению на контрастном языке) — это мультимодальная нейронная сеть, созданная OpenAI, которая обладает нулевыми возможностями. Мультимодальная нейронная сеть способна интерпретировать модальности, которые называются чем-то, что происходит или переживается.

В настоящее время типовые модели зрения трудоемки, так как требуют обучения многих параметров. Другая проблема, которая здесь возникает, заключается в том, что обучаемая вами модель зрения специально обучена для определенного набора данных. Поэтому он будет показывать низкую производительность на других наборах данных. Для конкретных наборов данных потребуются конкретные модели. Это решение плохо подходит для решения реальных задач, поэтому многие исследователи работают над обучением с нуля.

Обучение Zero Shot означает, что вы обобщаете модель таким образом, чтобы она могла хорошо работать на многих различных типах этикеток. Эти метки могут быть невидимыми метками, поскольку наша нулевая модель не обучалась на данных этих меток.

Набор данных

Чтобы сделать CLIP нулевым классификатором, он был обучен на 400 миллионах изображений с парными текстовыми описаниями (ImageNet состоит всего из 1,28 миллиона изображений!). Данные для CLIP были взяты из Интернета. В наборе данных было 32 678 случайно выбранных текстовых фрагментов. Эти фрагменты в основном описывают изображение, отсюда и слово «мультимодальная нейронная сеть». Классы в наборе данных были преобразованы в подписи, если они еще не были в этом формате. Например:

  1. Собака → Фото собаки
  2. Яблоко → Фото яблока
  3. Объект → Фотография {объекта}

Задача, которую выполняет CLIP, заключается в маркировке изображений текстом. CLIP будет давать более точные прогнозы, когда целевыми классами являются фразы, а не отдельные слова, потому что данные взяты из Интернета, и они таковы, что удаленные изображения содержат фразы, которые их описывают, а не отдельные слова. Другая известная модель OpenAI, называемая DALL-E, делает обратное. Он генерирует изображения на основе текстового описания.

Нейронная сеть CLIP

CLIP выполняет следующие операции:

Изображение → Кодировщик изображения (IE) → Закодированное изображение (N представлений N изображений, где каждое представление является вектором)

Текст → Текстовый кодировщик (TE) → Закодированный текст (M представлений M текстовых фрагментов, где каждое представление является вектором)

Затем мы спрашиваем у модели, какой текст подходит для изображения «X» из N текстов. Вот почему это называется контрастной целью. Контрастное обучение основано на интуиции, что вы можете противопоставить/различить похожие и непохожие вещи. Мы будем обучать его таким образом, чтобы изображение было ближе всего к соответствующей ему текстовой метке, а не к любому другому тексту.

Модель обучается, минимизируя косинусное расстояние между правильной парой изображение-текст (N реальных пар) и максимизируя косинусное расстояние между неправильными парами (N²-N). Сходство между двумя векторами увеличивается, когда косинусное расстояние между двумя векторами уменьшается. Так обучался CLIP.

Оба энкодера являются трансформаторами. Кодировщик изображений — ResNet50 или Vision Transformer. Vision Transformer обеспечивает трехкратный прирост эффективности вычислений по сравнению со стандартным ResNet. Самая производительная модель CLIP обучалась на 256 GPU в течение 2 недель.

Классификация Zero-Shot

Zero-Shot CLIP превосходит линейный датчик на ResNet50 по 16 наборам данных, включая ImageNet. Если подумать, Zero-Shot CLIP — прекрасная вещь. Он был обучен на таких больших данных (взятых из Интернета), что превосходит многие современные сверточные нейронные сети, и он помнит, что мог никогда не видеть данные, на которых тестируется.

Существует очень небольшая разница в производительности, когда Zero-Shot CLIP используется в разных наборах данных ImageNet, но производительность значительно снижается, когда мы используем классификатор, специально обученный для ImageNet, но используемый в других версиях ImageNet. Это показывает нам, насколько CLIP гибок, поскольку его можно использовать в качестве общего решения для многих наборов данных.

Чтобы использовать CLIP с нулевым выстрелом, вам просто нужно передать целевые метки в модель в качестве заголовков, и она даст вам прогнозы. Он хорошо работает с большинством больших наборов данных изображений, но иногда может работать не так хорошо. Для некоторых наборов данных вы предпочтете классическую сверточную нейронную сеть или преобразователь вместо CLIP.

Но вы можете улучшить оценку, которую получаете, используя CLIP с нулевым выстрелом, используя Linear Probe. В CLIP с линейным зондом вы изменяете слой классификации, чтобы он лучше адаптировался к данным, которые вы хотите прогнозировать.

Существование мультимодального нейрона

Одним из самых интересных открытий CLIP является существование нейрона «Человека-паука». Подобно биологическому нейрону «Холли Берри», в клипе существует нейрон «Человека-паука», который реагирует на изображение паука, изображение текстового паука и знаменитого супергероя Человека-паука.

Это открытие показывает нам важную связь между нейронными сетями и нашей биологической нервной системой. Исследователи также обнаруживают, что высшие уровни CLIP организуют изображения как свободную семантическую коллекцию идей, что дает простое объяснение универсальности модели.

Ограничения и заключение

Как я уже сказал, CLIP является гибким и общим, но он не очень хорошо работает с некоторыми наборами данных. Некоторыми примерами таких задач являются подсчет количества объектов на изображении, классификация цветов, вариантов самолетов, моделей автомобилей и т. д. Он уступает MNIST, очень простой задаче глубокого обучения. CLIP также конкурентоспособен в обнаружении ненавистнических мемов, не нуждаясь в достоверном тексте.

CLIP — замечательная нейронная сеть, которая не перестает вас развлекать. Он также используется в DALL-E, еще одной удивительной сети, но да, здесь требуются дальнейшие исследования, и я верю, что однажды общий ИИ будет существовать с помощью большего количества данных и большего количества инноваций.

Рекомендации

[1] Алек Рэдфорд, Чон Вук Ким, Крис Халласи, Адитья Рамеш, Габриэль Гох, Сандхини Агарвал, Гириш Састри, Аманда Аскелл, Памела Мишкин, Джек Кларк, Гретхен Крюгер, Илья Суцкевер, Изучение переносимых визуальных моделей под контролем естественного языка ( 2021), исследовательская работа CLIP

[2] Габриэль Гох, Челси Восс, Даниэла Амодей, Шан Картер, Майкл Петров, Джастин Джей Ван, Ник Каммарата, Крис Ола, Мультимодальные нейроны в искусственных нейронных сетях (2021), CLIP Multi-Modal Neurons Blog

Пожалуйста, хлопайте, если вам понравилась эта статья!