Изображение стоит 16 x 16 слов: трансформеры для распознавания изображений в масштабе

Ссылка на мой профиль блогаe: https://rakshithv-deeplearning.blogspot.com/

Почему:

Адаптация знаменитой архитектуры преобразователя NLP для задач видения и современного уровня техники была достигнута с относительно меньшими вычислительными ресурсами по сравнению со свертками.

Как:

Преобразуйте изображение в последовательность патчей и обработайте их как токены, как мы это делаем в приложениях NLP, и передайте вложение патча, как на входе преобразователя, а классификация происходит после головы MLP.

Что:

Это называется преобразователем видения, где изучается, сколько внимания нужно уделять между патчами.

TL: DR:

1. Это хорошо работает для большого набора данных по сравнению со средним набором данных, потому что он не фиксирует локальные свойства (ребра, общие для двух разных патчей и, следовательно, плохо обобщаются).

2. Предыдущие подходы, как правило, работают на уровне пикселей, фокусируясь на самоконтроле соседства или комбинации CNN + трансформатор.

3.Настоящая работа:

Вопросы для размышления:

1. Что, если мы изменим порядок, в котором мы даем урожай (один пример: случайное изменение порядка или перекрывающихся участков)

2. Как определить размер каждой культуры (только с точки зрения вычислений?)

Ссылка на статью: https://arxiv.org/pdf/2010.11929.pdf