В этом посте мы углубимся в мета-трансформер, метод мультимодального обучения, который был представлен в исследовательской статье под названием «Мета-трансформер: унифицированная структура для мультимодального обучения». В статье исследователи показывают, что они смогли обрабатывать информацию из 12 (!) различных модальностей, которые мы видим на изображении выше, включая изображения, текст, аудио, инфракрасные данные, табличные данные и многое другое. Это вдохновлено человеческим мозгом, который способен обрабатывать информацию, поступающую из различных типов входных данных.

Разработка моделей, способных обрабатывать широкий спектр форматов данных, является сложной задачей, поскольку каждая модальность данных структурирована по-разному и имеет уникальные шаблоны данных. В приведенной выше таблице мы видим, что Meta-Transformer поддерживает значительно более широкий диапазон типов данных по сравнению с предыдущими моделями, и в этом посте мы объясним структуру Meta-Transformer, чтобы понять, как исследователи смогли это сделать.

Если вы предпочитаете видеоформат, то большая часть того, что мы здесь рассказываем, также представлена ​​в следующем видео:

Первоначально этот пост был опубликован здесь — https://aipapersacademy.com/meta-transformer/

Мета-трансформер Архитектура

Начнем с понимания архитектуры Мета-Трансформера. Мета-трансформатор имеет большую унифицированную мультимодальную модель, основанную на преобразователе, которая может обрабатывать различные модальности в качестве входных данных, таких как входные данные, которые мы видим слева на рисунке выше. Типы входных данных: текст, изображения, облако точек, которое представляет собой трехмерный объект, аудиоспектрограмма и многое другое.
Целью унифицированной мультимодальной модели является получение результатов для любого входного сигнала из любого поддерживаемого…