Чистое и простое решение, основанное на внимании, для достижения SOTA по классификации видео.

Меня не перестает удивлять машинное обучение. От перехода к классификации целых чисел 0–9 с помощью CNN до понимания языков с помощью трансформеров (эпоха после BERT). Итак, что будет следующим большим достижением ИИ 🤔 ?! На мой взгляд, это будет первая захватывающая речь (аудиоданные), которая началась с выпуска Wave2vec 2.0 от Facebook AI, переходя к видеоданным с TimeSformer от Facebook AI, а затем, наконец, к мультимодальным задачам, которые объединяют оба звука. и видеоданные. Кажется, довольно просто, да!

В этом блоге мы кратко обсудим статью TimeSformer Является ли внимание пространства-времени всем, что вам нужно для понимания видео? »Пользователя FaceBook AI. Согласно официальной статье в блоге Facebook AI, это первая видеоархитектура, основанная исключительно на трансформерах. In достигает производительности SOTA в нескольких тестах распознавания видео, включая kinetics-400, легко превосходя современные сверточные трехмерные нейронные сети (CNN), в 3 раза быстрее обучаясь и в 10 раз быстрее делая выводы.

ПРЕДУПРЕЖДЕНИЕ: Также, когда я говорю видео, мы имеем в виду только визуальную часть, только одну модальность, а не речь или аудиоданные.

Итак, давайте углубимся в статью и узнаем, как она работает. Я постараюсь не использовать случайный жаргон и вести блог на простом английском языке.

TimesSformer

Авторы объясняют название «TimeSformer», которое адаптирует стандартную архитектуру Transformer к видео, позволяя использовать пространственно-временное (Пространственное относится к пространству. Временное относится к времени. Пространственно-временное или пространственно-временное используется в анализе данных. когда данные собираются как в пространстве, так и во времени (например: видеоданные. Захват видеокадров по прошествии времени), обучение осуществляется непосредственно из последовательности патчей на уровне кадра.

В документе раскрыта концепция «разделенного внимания». Другой механизм самовнимания, при котором временное внимание и пространственное внимание применяются отдельно в каждом блоке, является лучшим способом классификации видео на основе точности.

😒 жаргоны!

Согласно Википедии, Внимание - это поведенческий и когнитивный процесс выборочного сосредоточения на дискретном аспекте информации, будь то субъективный или объективный, при игнорировании другой воспринимаемой информации. Другими словами, визуальное внимание - это способность, которая позволяет нам сосредоточиться на определенной области с высоким разрешением, а затем соответствующим образом настроить фокус или сделать вывод. (Это то, что мы обычно делаем, когда идентифицируем людей и вещи вокруг нас. Мы не обращаем внимания на все мельчайшие простые детали, а лишь на несколько важных, которые нужно идентифицировать, если вы не Шерлок Холмс.)

Визуально-пространственное внимание - это форма визуального внимания, которая включает в себя направление внимания на определенное место в пространстве. Визуальное временное внимание - это особый случай визуального внимания, который включает в себя направление внимания на определенный момент времени.

Насколько мы можем понять, «разделенное внимание» - это то, что касается улавливания деталей отдельно от приложения внимания в пространстве и во времени. (в нашем случае пространство - это видеокадры, а время - это время, когда проходят видеокадры)

Вот немного о наборе данных, в котором TimeSformer обеспечивает современную производительность, которая называется Kinetics 400/600. По сути, это набор крупномасштабных высококачественных наборов данных URL-ссылок, содержащих до 650 000 видеоклипов, охватывающих 400/600/700 классов действий человека. Видео включают взаимодействия человека и объекта, такие как игра на инструментах, а также взаимодействия человека и человека, такие как рукопожатие и объятия.

Теперь мы немного углубимся в работу TimeSformer. Авторы сначала проводят сходство между пониманием видео и НЛП. Оба они принципиально последовательны по своей природе. Они также придумали отличный пример, чтобы продемонстрировать это. Подобно тому, как значение слова часто можно понять, только связав его с другими словами в предложении, небольшие действия в видео, чтобы понять все видео, мы должны быть контекстуализированы с остальной частью видео. Таким образом, авторы приходят к выводу, что дальнодействующие модели самовнимания из НЛП очень эффективны для видеомоделирования.

Раньше для большинства моделей компьютерного зрения CNN были основным методом. Далее авторы объясняют причину, по которой они не выбирают традиционные CNN, а используют модели трансформаторов.

  • Хотя у CNN есть сильные индуктивные предубеждения (например, локальная связь и эквивалентность перевода), выигрыш в производительности при наличии достаточного количества данных невелик. По сравнению с CNN, трансформаторы имеют менее ограничительные индуктивные смещения. Это расширяет семейство функций, которые они могут представлять, и лучше подходят для задач с большими данными.
  • Во-вторых, ядра свертки могут захватывать только краткосрочную пространственно-временную информацию, поэтому все, что находится за пределами их рецептивного поля, не будет захвачено. В отличие от ядер свертки, механизм самовнимания может применяться для захвата как локальных, так и глобальных дальнодействующих зависимостей, выходящих далеко за пределы восприимчивого поля традиционных сверточных фильтров.
  • Кроме того, обучение CNN остается дорогостоящим, особенно для длинных видеороликов или видео высокого разрешения. Авторы приходят к выводу, что при том же вычислительном бюджете Transformer обладает большей способностью к обучению.

Вдохновленные приведенными выше наблюдениями, авторы предложили TimeSformer (от Time-Space Transformer), адаптированный из модели изображения Vision Transformer, которая рассматривает видео как последовательность фрагментов, извлеченных из отдельных кадров. Из-за наличия пространственно-временной структуры в видео, ViT не может быть напрямую применен к Трансформаторам. Для решения этой проблемы была разработана архитектура «разделенного внимания», которая отдельно применяет временное внимание и пространственное внимание в каждом блоке сети.

Итак, на этом мы подводим итог этой статьи. Сначала я подумал о полном изложении статьи, но блог был бы слишком длинным, чтобы читать, и утомлял многих людей. Надеюсь, тебе понравится.

Ресурсы, которые могут оказаться полезными