Однажды мудрая черепаха процитировала«Вы часто встречаете свою судьбу на том пути, по которому идете, чтобы избежать ее». Это утверждение в двух словах весьма точно описывает мою исследовательскую стажировку, которую я проходил в ИИТ Джамму. Теперь, прежде чем перейти к дальнейшему, небольшое введение от меня; Меня зовут Асфахан Шах, я студент третьего курса бакалавриата по специальности информатика в Университете Беннета, Индия. Теперь, с этими небольшими базовыми знаниями, давайте перейдем к сути дела и ответим на некоторые уместные вопросы: о чем была стажировка? что я делал на стажировке? и, что более важно, как вышеупомянутая мудрость соотносится с моей летней стажировкой?

Теперь ответы на первые два вопроса довольно просты и будут должным образом объяснены в следующих разделах блога, но как насчет последнего вопроса. Видите ли, IIT Jammu не был моим первым выбором для исследовательской стажировки, и это не было похоже на то, что я не мог пройти стажировку в других институтах Индии. На самом деле, у меня были хорошие возможности для научной стажировки, но в силу обстоятельств, обсуждение которых выходит за рамки блога, я оказался в ИИТ Джамму. Теперь вы можете себе представить, что я могу быть очень несчастным; Я мог бы поехать в другое место, но по неблагоприятным обстоятельствам не смог. Но именно здесь приведенная выше цитата описывает мой путь, и поэтому, оглядываясь назад, я должен сказать, что поездка в ИИТ Джамму на летнюю стажировку была одним из лучших решений в моей жизни. В вашей голове будет несколько вопросов. Но давайте отвлечемся и перейдем к деталям стажировки, потому что я уверен, что после этих разделов ниже все ваши запросы будут удовлетворены.

Итак, о чем стажировка, спросите вы.

Темой моей стажировки была «Оценка качества изображения с использованием методов глубокого обучения» под руководством доктора Винита Джахетия. Что такое оценка качества изображения? Проще говоря, это способ оценить качество изображений путем присвоения баллов каждому из присутствующих изображений. Это можно сделать как традиционными методами, так и с помощью глубоких архитектур. В этой стажировке я применил преобразователи зрения, которые представляют собой архитектуру глубокого обучения.

Теперь вы можете сказать, что такое визон-трансформер или, что еще более уместно, что, черт возьми, такое трансформер.

Transformer — это архитектура глубокого обучения, которая чаще всего используется в НЛП. Обычно трансформатор состоит из двух частей:

1) Энкодер

2) Декодер.

Теперь вы можете сказать, что это за две части:

Что ж, кодировщик состоит из нескольких меньших блоков, и каждый блок состоит из многоголового уровня самоконтроля и сети прямой связи.

То же самое и в случае декодера, где каждый меньший блок состоит из маскированного многозаголовочного уровня собственного внимания, многозаголовочного уровня внимания кодера-декодера и сети прямой связи.

Автор "Что такое внимание?" Я слышу, как ты говоришь

Механизм внимания основан на когнитивном внимании человека. Внимание пытается увеличить одни входные части, уменьшая другие части. Таким образом, позволяет нам больше сосредоточиться на небольших, но важных частях. Для вычисления внимания нам нужны три вектора Query(Q), Key(K) и Value.

Теперь может возникнуть вопрос, как эта трансформерная фигня связана с оценкой качества изображения?

Что ж, теперь приходит концепция преобразователя зрения.

Трансформатор Vision разбивает изображение на различные участки. Затем эти патчи линеаризуются и размещается позиционное кодирование. Затем эти патчи пересылаются на кодер преобразователя. Выход которого проходит через классификатор, такой как MLP, для получения результата.

Итак, почему мы должны разбивать образы на патчи, почему бы просто не поставить весь образ? Я слышу, как ты говоришь.

Ну, причина в том, что если вход представляет собой целое изображение, то во время фазы внимания (самостоятельности) каждый пиксель должен быть связан с другим. Таким образом, операция становится очень дорогостоящей и непригодной для реальных случаев.

Теперь перейдем к тому, что я на самом деле создаю на стажировке с помощью инструментов, о которых я говорил выше.

Я строю модель на основе таких концепций, как преобразователь зрения и CNN для оценки качества изображения на наборе данных RealSRQ**.

**В. Цзян и др., «Оценка качества одного изображения в сверхвысоком разрешении: набор данных реального мира, субъективные исследования и объективная метрика», в IEEE Transactions on Image Processing, vol. 31, стр. 2279–2294, 2022, doi: 10.1109/TIP.2022.3154588.

Ну что теперь?

В настоящее время работа продолжается. Я не могу сказать много об этом прямо сейчас, но вот небольшой краткий обзор:

На этом заканчивается мой блог о летней стажировке в IIT Jammu, где я не только узнал, но и познакомился с новыми технологиями. Действительно хороший и освежающий опыт.