Захват изображения — сложный процесс, в котором будут некоторые шумы, было бы неплохо, если бы у нас был способ удалить шум из захвата изображений.

Итак, это переход от шумового изображения к четкому изображению, можем ли мы сделать и наоборот? К таким проблемам относятся улучшение изображения, а также суперразрешения. CNN обычно используется в таких областях.

Есть много способов сделать это, и по сравнению с каждым методом есть хорошие и плохие. Уменьшение изображения не подходит для специальных атрибутов.

Они сочетают в себе оба мира, следовательно, как понижающую дискретизацию, так и однострочную.

Это очень интересно, новая архитектура, не так много работ будет принято. Но это другое, так как арка модели действительно другая.

Операция свертки выполняется с помощью многомасштабного суперкрутого режима. Консолидация функций. Используется выборочное слияние функций ядра, оно имеет меньше параметров, но является эффективным. Результаты показаны ниже.

Еще лучшие результаты для сверхвысокого разрешения изображения.

Так что эту единую архитектуру можно использовать для многозадачности, круто!



Мы используем свет как источник для получения информации из физического мира, но для быстро движущихся объектов это сделать сложно.

Большинство пикселей тратится только на статические изображения.

Они используют 1D-камеру для восстановления 2D-позиций, вау!

Используя дифракцию света, они могут это сделать, супер круто. В конце концов, кажется, что информация о местоположении кодируется по-другому, и они используют это для захвата позиций.



Как мы можем убедиться, что у людей все в порядке? Выспавшись и все такое, я могу позвонить ей и спросить. Но она плохо разбирается в технике и прочем, я хочу систему, которая фиксирует движение бабок?

Это довольно страшно, не уверен в конфиденциальности.

Без камер как мы можем это сделать? Мы можем использовать радиочастотные сигналы. Сигналы FR сохраняют конфиденциальность.

Так что информация на самом деле хорошо закодирована, это именно то, что мы хотим сделать.

Итак, нам нужно дать этой штуке какой-то план этажа, и она заработает? Итак, идея состоит в том, чтобы связать человеческий скелет с объектами, поэтому мы знаем, что делает человек.

Поскольку данных недостаточно, соберите небольшие данные как с видео, так и с RF. Таким образом, мы используем мультимодальное обучение.

Интересно, что подход умный и хороший способ обучения сети. Не уверен, что этот метод будет масштабироваться.

И это действительно работает, но не совсем уверен, что эта штука может обобщать.





И в приведенном выше видео, похоже, используются как изображение, так и видео для предсказания значимости. Но идея мультимодального обучения, следовательно, улучшить обобщение.



Что мы можем делать с помощью мобильных устройств при использовании DNN? Приложения реального времени довольно эффективны.

Мы можем сделать это двумя способами: сократить вес или оптимизировать компилятор.

Мы также можем выполнять передачу стилей в режиме реального времени, это довольно круто.

Не так в реальном времени, но это нормально.

Та же идея с передачей стилей, все еще довольно интересно!



GAN, который может видеть сквозь дождь, хорош для беспилотных автомобилей. Это важно, так как в реальном мире бывают времена, когда погода плохая. Но опять же, я предполагаю, что Тесла, а также мобильный глаз уже знают об этой проблеме.

Что делают исследователи в этом случае, они переводят изображение с помощью GAN, используют pix2pix.

ОГРОМНАЯ сеть, например, ОГРОМНАЯ, сколько графических процессоров нам вообще нужно для обучения этой штуке?



ВАУ, скопируйте позу и вставьте стиль, это действительно круто. Мы в основном переносим позу и стиль. Он состоит из четырех шагов.

Довольно сложный процесс, но упорядоченная работа выполнена хорошо. Играем с функциями и визуализируем их для вывода изображения хорошего качества.

Чтобы заставить эту модель работать, используется множество различных потерь.

Может также передавать движения.



Традиционными методами рисования видео являются оптические потоки, однако в последнее время внедряются методы, основанные на обучении.

Нос для ввода кадра? Вау, что происходит?

Мы делаем что-то сумасшедшее, но результаты потрясающие. Они действительно хорошо удаляют объекты.



Вау, мы генерируем представления из разреженных изображений, это безумие.

Текущий способ — разложить изображение на воксели и поиграть с этим. Но это не масштабируемый метод. Основная идея состоит в том, чтобы представить изображение в непрерывном пространстве.

Мы даже можем обучать их только с помощью 2D-изображений.

Таким образом, умный способ представления данных является основным вкладом этой статьи. Это разумная идея для повышения производительности. Пока данные могут быть подготовлены правильно.

Чтобы заставить всю эту структуру работать, нужно немного математики.