Мир машинного обучения, несомненно, увлекательный, постоянно растущий и способный затронуть самые разные отрасли, от медицины до космических гонок, от общепита до крупного производства. Существует бесчисленное множество областей применения этой технологии и столько же методов, которые были разработаны на протяжении десятилетий, но все они имеют одну общую черту: данные.

Каждая модель машинного обучения существует и работает благодаря тому, что она так или иначе может учиться на данных. Однако эти данные могут принимать самые разные формы, например, большие объемы текста для обучения языковых моделей генерированию предложений, пониманию контекста или иронии или выявлению аномалий. Или миллионы изображений объектов, людей и животных для создания моделей классификации или обнаружения объектов и даже звуковых дорожек для выполнения таких задач, как определение песни или ее стиля.

Все это влечет за собой одну большую проблему: работа с такими разными данными требует разных методов, и поэтому возникли целые отдельные ветви машинного обучения, каждая из которых фокусируется на одном из этих типов данных. В частности, обработка естественного языка (NLP) для лингвистики, компьютерное зрение (CV) для изображений и видео и обработка аудиосигнала (ASP) для звуковых дорожек.

Проблема становится еще более очевидной при решении задач, требующих смешивания различных типов данных, таких как выяснение того, какое текстовое описание лучше всего соответствует изображению, или использование аудио и видео для выявления аномалий в нем.

Но давайте подробнее и попробуем проследить эволюцию ситуации с самого начала.

Пришествие Трансформеров

В прошлом среди десятков и десятков архитектур глубокого обучения выделялись две: сети с долговременной памятью (LSTM) и сверточные нейронные сети (CNN).

Первый подход к анализу различных типов данных имел место между текстом и аудио благодаря LSTM. Эти сети предназначены для эффективного анализа данных в виде последовательностей. Было вполне естественно работать с текстом, рассматривая предложения как последовательности слов, а также рассматривать звуковые дорожки как последовательности.

В то же время сверточные нейронные сети набирали силу в области компьютерного зрения, которые, в отличие от LSTM, лучше фиксировали пространственные корреляции и, следовательно, больше подходили для манипулирования изображениями путем сканирования изображений с помощью движущихся окон.

Основываясь на очень разных концепциях, миры НЛП/АСП и CV развивались в основном независимо друг от друга в течение нескольких лет, признавая, что видение и текстовые/аудио поля не могут иметь общей архитектуры для использования из-за различной природы данных.

После стольких лет молчания решающий поворотный момент, казалось, наступил в области НЛП, где в 2017 году впервые была представлена ​​архитектура Трансформеров[1].

Эта архитектура также была разработана для анализа данных в виде последовательностей, но, в отличие от LSTM, смогла преодолеть некоторые важные ограничения:

  • Они смогли лучше уловить зависимости между очень удаленными частями входной последовательности;
  • Они используют механизм внимания, который обеспечивает большее распараллеливание вычислений;
  • Они способны анализировать даже очень длинные последовательности.

Глядя на пример в области обработки естественного языка, трансформеры анализируют предложение как последовательность, состоящую из слов, используя механизм внимания, который вычисляет своего рода реляционную релевантность между всеми возможными комбинациями слов в предложении. Таким образом, как показано на рисунке, внимание вычисляется между первым словом предложения и всеми остальными, между вторым и всеми остальными и так далее.

При этом каждая часть последовательности анализируется по отношению ко всем остальным, и, поскольку вычисления независимы, их также можно распараллелить!

Если вы хотите углубиться в архитектуру Трансформеров, я предлагаю вам прочитать мой предыдущий обзор.

Благодаря этим характеристикам за короткое время Transformers стали эталонной архитектурой в области обработки естественного языка, почти полностью заменив LSTM. Очевидно, как и следовало ожидать, даже в области обработки аудиосигналов трансформаторы стали использоваться все больше и больше, но вряд ли кто-то ожидал, что эта новая архитектура привлекла внимание и исследователей в области компьютерного зрения.

Если бы мы могли преобразовывать изображения в последовательности, смогли бы трансформеры анализировать их и собирать достаточно пространственной информации, чтобы конкурировать с традиционными свёрточными нейронными сетями?

Ответ - да! Идея так называемых Vision Transformers[4] состоит в том, чтобы разделить изображение на множество частей, называемых патчами, а затем линейно спроецировать их на токены. Эти токены в точности аналогичны полученным из слов и поэтому вся остальная архитектура Трансформеров может оставаться неизменной.

Как показано в предыдущей статье, трансформеры в области компьютерного зрения чрезвычайно эффективны благодаря архитектурным деталям, которые позволяют им, по сравнению со сверточными нейронными сетями, лучше фиксировать глобальные отношения, а также локальные закономерности.

Готово, Трансформеры официально стали необходимой нам общей архитектурой. Они могут манипулировать текстом, изображениями, видео, аудио и любым типом данных, которые можно превратить в токены!

Мультимодальное машинное обучение

Наличие единой архитектуры, способной работать с различными типами данных, представляет собой значительный прогресс в так называемой области мультимодального машинного обучения.

Эта дисциплина начинается с наблюдения за человеческим поведением. Люди могут комбинировать информацию из нескольких источников, чтобы делать собственные выводы. Они одновременно получают данные, наблюдая за миром вокруг себя глазами, а также вдыхая его запахи, слушая его звуки или прикасаясь к его формам. Для нас совершенно естественно работать, комбинируя вместе импульсы разных типов, но заставить нейронную сеть делать то же самое всегда было очень сложно.

Проблема заключается в одинаковой обработке всех различных входных данных без потери информации, и благодаря Transformers теперь мы можем построить универсальную архитектуру, способную обрабатывать любые данные!

VATT: Трансформеры для мультимодального самоконтролируемого обучения

Одним из наиболее важных применений Transformers в области мультимодального машинного обучения, безусловно, является VATT [3].

Это исследование направлено на использование способности Transformers обрабатывать различные типы данных для создания единой модели, которая может одновременно учиться на видео, аудио и тексте.

Для этого предлагаемая архитектура состоит из одного преобразователя-кодировщика, на котором выполняются три отдельных прямых вызова. Один вызов для каждого типа входных данных всегда преобразуется в последовательность токенов. Преобразователь принимает эти последовательности в качестве входных данных и возвращает три различных набора признаков. Затем признаки передаются на вход блоку контрастной оценки, который вычисляет одиночный убыток и выполняет обратное.

Таким образом, потеря является результатом ошибки, допущенной во всех трех рассматриваемых типах данных, и, следовательно, модель между эпохами научится уменьшать ее, лучше управляя информацией, поступающей из всех трех различных источников.

Таким образом, VATT представляет собой кульминацию того, чего мультимодальное машинное обучение пыталось достичь в течение многих лет, — единую модель, которая вместе обрабатывает совершенно разные типы данных.

ГАТО: универсальный агент

Но к каким впечатляющим результатам может привести исследование мультимодального машинного обучения? Можно ли реализовать нейронную сеть, способную получать входные данные разных типов, обрабатывать их и, возможно, даже выполнять множество задач разного характера?

Что бы вы подумали, если бы я сказал вам, что одна и та же сеть с точно такими же внутренними весами может получать разные входные данные из очень разных источников и иметь возможность играть в Atari, общаться как настоящий человек, записывать изображения, складывать блоки с помощью настоящей руки робота. и многое другое?

Теперь это возможно благодаря GATO[5], мультимодальному, многозадачному, многофункциональному универсальному средству, которое на сегодняшний день представляет собой одно из самых впечатляющих достижений в этой области.

Но как Гато все это делает? Внутри, опять же, есть Преобразователь, который принимает входные данные разных типов, преобразованные в последовательность токенов.

Благодаря такой унификации входных данных и архитектуре Transformer модель сможет получать информацию даже из очень разных источников, достигая беспрецедентного уровня обобщения.

Выводы

Мы взглянули на один из новых рубежей искусственного интеллекта, мультимодальное машинное обучение, и проанализировали роль трансформеров в этой революции. Благодаря этой новой архитектуре, способной эффективно работать с различными типами входных данных, путь к более универсальной нейронной сети стал более конкретным, чем когда-либо. Предстоит сделать еще много шагов вперед, но когда представлена ​​работа, подобная той, что обсуждается в этой статье, прогресс становится неоспоримым.

Может ли это быть первым сигналом общего искусственного интеллекта? Мы узнаем!

Ссылки и идеи

[1] Тадас Балтрусайтис и др.. «Мультимодальное машинное обучение: обзор и таксономия»

[2] Ашиш Васвани и др.. Внимание — это все, что вам нужно»

[3] Хасан Акбари и др.. «VATT: Трансформеры для мультимодального обучения с самоконтролем на основе необработанного видео, аудио и текста»

[4] Алексей Досовицкий и др.. «Изображение стоит 16x16 слов: трансформеры для распознавания изображений в масштабе»

[5] Скотт Рид и др.. «ГАТО: Агент широкого профиля»

[6] Давиде Коккомини. «О трансформерах, таймформерах и внимании»

[7] Давид Коккомини. «Обучение с самоконтролем в трансформерах зрения»