# 57: DALL · E и CLIP, новые мультимодальные нейронные сети OpenAI

Привет всем, добро пожаловать в Dynamically Typed # 57! В сегодняшнем выпуске я написал о DALL · E и CLIP, двух новых мультимодальных нейронных сетях от OpenAI, которые учатся генерировать и классифицировать изображения на основе текстовых подсказок без промедления. Они оба очень крутые, поэтому они посвятили большую часть этого информационного бюллетеня, но у меня также есть по одной быстрой ссылке для каждого из них, посвященного продуктивному ИИ, исследованиям машинного обучения и климатическому ИИ, охватывающим другие интересные вещи, которые произошли.

Производимый искусственный интеллект 🔌

📸 Сайт обмена фотографиями Creative Commons Unsplash (где у меня также есть профиль!) Запустил новую функцию: визуальный поиск, аналогичный поиску Google по изображению. Если вы нашли фотографию, которую хотели бы включить, например, в сообщение в блоге или презентацию, но изображение защищено авторским правом, эта новая функция Unsplash поможет вам найти похожие на вид фотографии, которые можно использовать бесплатно. В публикации не подробно рассказывается о том, как работает визуальный поиск, но я предполагаю, что некоторая (сверточная) модель классификации извлекает элементы из всех изображений на Unsplash для создания многомерного вложения; то же самое происходит с загружаемым вами изображением, и сайт может затем предлагать вам фотографии, которые находятся близко друг к другу в этом пространстве для встраивания. (Вот пример того, как вы это построили в Керасе.)

Исследования в области машинного обучения 🎛

Новые мультимодальные модели OpenAI DALL · E и CLIP объединяют текст и изображения, а также знаменуют собой первый раз, когда лаборатория представила две отдельные большие работы вместе. В коротком сообщении в блоге, который я буду цитировать почти полностью на протяжении всей истории, потому что он также аккуратно представляет обе сети, главный научный сотрудник OpenAI Илья Суцкевер объясняет, почему:

Долгосрочная цель искусственного интеллекта - создание «мультимодальных» нейронных сетей - систем искусственного интеллекта, которые изучают концепции в нескольких модальностях, в первую очередь в текстовой и визуальной областях, чтобы лучше понимать мир. В наших последних исследованиях мы представляем две нейронные сети, которые приближают нас к этой цели.

Эти две нейронные сети - DALL · E и CLIP. Мы рассмотрим их один за другим, начиная с DALL · E.

Название DALL · E - дань уважения Сальвадору Дали, художнику-сюрреалисту, известному своей картиной плавящихся часов, и WALL · E, научно-фантастическому роману Pixar о роботе-уборщике мусора. Немного глупо называть энергоемкий ИИ для создания изображений в честь фильма, в котором ленивые люди сбежали с загрязненной Земли, чтобы парить в космосе и ничего не делать, кроме потребления контента и еды, но с учетом того, насколько хорошо работает портманто и насколько мило WALL · E роботы, я бы, наверное, сделал то же самое. В любом случае, помимо названия, вот введение Суцкевером того, что на самом деле делает DALL · E:

Первая нейронная сеть, DALL · E, может успешно превращать текст в подходящее изображение для широкого спектра концепций, выражаемых на естественном языке. DALL · E использует тот же подход, что и для GPT-3, в данном случае применяемый к парам текст-изображение, представленным как последовательности «токенов» из определенного алфавита.

DALL · E основывается на двух предыдущих моделях OpenAI, комбинируя способность GPT-3 выполнять различные языковые задачи без тонкой настройки с возможностью Image GPT генерировать согласованные дополнения и образцы изображений. В качестве входных данных он принимает один поток - сначала текстовые токены для предложения подсказки, затем токены изображения для изображения - до 1280 токенов, и учится предсказывать следующий токен с учетом предыдущих. Текстовые токены имеют форму байтовых парных кодировок букв, а токены изображений представляют собой фрагменты сетки 32 x 32 в форме скрытых кодов, найденных с помощью вариационного автокодировщика, подобного VGVAE. Эта относительно простая архитектура в сочетании с большим тщательно разработанным набором данных дает DALL · E следующий подробный список возможностей, интерактивные примеры каждой из которых есть в сообщении в блоге OpenAI:

Управляющие атрибуты
Рисование нескольких объектов
Визуализация перспективы и трехмерности
Визуализация внутренней и внешней структуры (например, запрос макроса или рентгеновского снимка!)
Вывод контекстных деталей
Объединение не связанных между собой концепций
Безупречное визуальное рассуждение
Географические и временные знания

Многие люди написали о DALL · E или поигрались с его интерактивными примерами. Некоторые из моих любимых включают:

NonCompositional исследователя DeepMind Феликса Хилла, сообщение в блоге о том, почему DALL · E хорош в композиции, не будучи очень систематизированным (он может нарисовать салат в форме ежа, но не зеленый кубик на красный куб на синем кубе)
Видео Кароли Жолнаи-Фехера Two Minute Papers на DALL · E, предыдущая работа OpenAI, которая привела к этому, и множество примеров создания
Веселые поколения из Twitter и за его пределами: Рассветы DALL-E Джанель Шейн; Дозатор мыла в форме ледника Ориола Виньялса; и улитка из штопора Кароля Хаусмана.

Я думаю, что DALL · E более интересна из двух моделей, но давайте также кратко рассмотрим CLIP.

Суцкевер:

CLIP может надежно выполнять огромный набор задач визуального распознавания. Учитывая набор категорий, выраженных на языке, CLIP может мгновенно классифицировать изображение как принадлежащее к одной из этих категорий с нулевым выстрелом, без необходимости точной настройки данных, специфичных для этих категорий, как это требуется для стандартных нейронные сети. По сравнению с отраслевым эталоном ImageNet, CLIP превосходит хорошо известную систему ResNet-50 и намного превосходит ResNet в распознавании необычных изображений.

Вместо обучения на конкретном тесте, таком как ImageNet или ObjectNet, CLIP предварительно обучает большой набор данных текста и изображений, извлеченных из Интернета (то есть без конкретных человеческих меток для каждого изображения). Он выполняет задачу обучения прокси: «по изображению предсказать, какой из 32 768 произвольно выбранных фрагментов текста действительно был связан с ним в нашем наборе данных». Чтобы затем выполнить фактическую классификацию набора контрольных данных, метки преобразуются в более описательные (например, метка «кошка» становится «фотографией кошки»), а CLIP рассчитывает для каждой метки, насколько вероятно, что она будет соединена с меткой. изображение. Он предсказывает, что ярлык будет наиболее вероятным. Как видно из изображения выше, этот подход очень эффективен для наборов данных. Это также очень эффективно, потому что, будучи моделью с нулевым выстрелом, CLIP не нужно (повторно) обучать или настраивать для разных наборов данных.

На данный момент мне больше всего нравится приложение CLIP от Travis Hoppe, который использовал его для визуализации стихов с использованием фотографий Unsplash - стоит щелкнуть! Еще один интересный момент - это то, как он используется в сочетании с DALL · E: после того, как DALL · E сгенерирует 512 правдоподобных изображений для подсказки, CLIP оценивает их качество, и в интерактивном средстве просмотра возвращаются только 32 лучших изображения. Вместо того, чтобы исследователи отбирали лучшие результаты, чтобы показать их в статье, эту задачу действительно может выполнить другая нейронная сеть!

Быстрое исследование машинного обучения + ссылки на ресурсы 🎛

⚡️ PlotNeuralNet - это пакет LaTeX с открытым исходным кодом для рисования глубоких нейронных сетей, также включающий оболочку Python. Раньше я часами делал это вручную в Figma, так что это очень долгожданное изменение. (Спасибо за подсказку, Тим!)

Я также собрал все 75+ инструментов исследования машинного обучения, ранее представленных в Динамически типизированном на странице с понятиями, для быстрого ознакомления. ⚡️

Искусственный интеллект в борьбе с климатическим кризисом 🌍

🗃 Стивен Расп сельскохозяйственной платформы адаптации к изменению климата ClimateAi запустил Pangeo ML Datasets, веб-сайт, который собирает наборы данных о погоде и климате для исследований искусственного интеллекта. Он включает в себя как необработанные наборы данных, так и наборы данных, уже предварительно обработанные специально для обучения моделей машинного обучения.

Спасибо за внимание! Если вам понравился этот выпуск журнала с динамическим вводом, подумайте о подписке, чтобы получать новый выпуск прямо в ваш почтовый ящик каждое второе воскресенье.

Первоначально опубликовано 3 января 2020 г. на https://dynamicallytyped.com.

# 57: DALL · E и CLIP, новые мультимодальные нейронные сети OpenAI

Производимый искусственный интеллект 🔌

Исследования в области машинного обучения 🎛

Искусственный интеллект в борьбе с климатическим кризисом 🌍

Вопросы по теме