Как далеко мы продвинулись с Vision Transformers part5

Реверсивные преобразователи зрения (arXiv)

Автор: Карттикея Мангалам, Хаоци Фан, Янхао Ли, Чао-Юань Ву, Бо Сюн, Кристоф Файхтенхофер, Джитендра Малик.

Аннотация: Мы представляем Reversible Vision Transformers, архитектуру с эффективным использованием памяти для визуального распознавания. Отделяя требования к памяти графического процессора от глубины модели, Reversible Vision Transformers позволяет масштабировать архитектуры с эффективным использованием памяти. Мы адаптируем две популярные модели, а именно Vision Transformer и Multiscale Vision Transformers, к обратимым вариантам и широко тестируем как модели размеров, так и задачи классификации изображений, обнаружения объектов и классификации видео. Реверсивные преобразователи зрения обеспечивают сокращение объема памяти до 15,5 раз при примерно одинаковой сложности модели, параметрах и точности, демонстрируя перспективность обратимых преобразователей зрения в качестве эффективной основы для режимов обучения с ограниченными аппаратными ресурсами. Наконец, мы обнаруживаем, что дополнительная вычислительная нагрузка, связанная с повторным вычислением активаций, более чем преодолена для более глубоких моделей, где пропускная способность может увеличиться до 2,3 раз по сравнению с их необратимыми аналогами. Полный код и обученные модели доступны по адресу https://github.com/facebookresearch/slowfast. Более простая, легкая для понимания и модификации версия также доступна на https://github.com/karttikeya/minREV.

2. IH-ViT: обнаружение дефектов внешнего вида интегральной схемы на основе трансформатора зрения (arXiv)

Автор: Сяойбинь Ван, Шуан Гао, Юньтао Цзоу, Цзяньлань Го, Чу Ван.

Аннотация: Для решения проблем низкой скорости распознавания и низкой скорости распознавания традиционных методов обнаружения дефектов внешнего вида ИС мы предлагаем алгоритм обнаружения дефектов внешнего вида ИС IH-ViT. Предлагаемая нами модель использует преимущества соответствующих сильных сторон CNN и ViT для получения характеристик изображения как с локальной, так и с глобальной точек зрения и, наконец, объединяет две функции для принятия решений для определения класса дефектов, тем самым обеспечивая более высокую точность распознавания дефектов IC. Для решения проблемы, заключающейся в том, что дефекты внешнего вида ИС в основном отражаются в различиях в деталях, которые трудно выявить традиционными алгоритмами, мы улучшили традиционный ВТ, выполнив дополнительную операцию свертки внутри пакета. Для решения проблемы информационного дисбаланса образцов из-за различных источников наборов данных мы используем двухканальную технику сегментации изображений для дальнейшего повышения точности дефектов внешнего вида ИС. Наконец, после тестирования предложенная нами гибридная модель IH-ViT достигла точности 72,51%, что на 2,8% и 6,06% выше, чем у моделей ResNet50 и ViT. Предложенный алгоритм может быстро и точно определить статус дефекта внешнего вида ИС и эффективно повысить производительность компаний, занимающихся упаковкой и тестированием ИС.

Как далеко мы продвинулись с Vision Transformers part5

Вопросы по теме