Я понял, что мы на самом деле делаем, когда пропускаем изображение через CNN.

Линейная алгебра в компьютерной графике используется как преобразование. Проще говоря, объект считает, что он находится в центре своего мира. Когда вы хотите переместить мяч куда-то в мире, вы превращаетесь из «пространства мяча» в «пространство мира». Если вы хотите переместить мяч в конец руки персонажа, вы переводите из пространства мяча в пространство персонажа, в пространство плеча и далее вверх по преобразованиям, вверх по руке, в руку, в пальцы, туда, где оно принадлежит.

Это преобразование может также включать в себя такие вещи, как повороты или масштаб. (И не забывайте, что преобразования должны выполняться в правильном порядке!! Перемещение, а затем вращение не то же самое, что сначала вращение, а затем перемещение! Попробуйте это с объектом. в вашей руке, и вы увидите, что я имею в виду.)

В компьютерной графике есть и другие преобразования, менее очевидные и менее интуитивные, например, преобразование декартовых координат в полярные.

Преобразование в частотную область

Например, вы можете выполнить преобразование Фурье для изображения. Вы выполняете преобразование по X, затем по Y и получаете два изображения — одно показывает частоту, а другое показывает фазу (имеется в виду место в синусоиде, с которого вы начинаете).

Это называется "преобразованием из пространства изображения в частотную область". Это преобразование точно такое же, как пространственное преобразование, только другая математика.

(Кроме забавного: в качестве домашнего задания по Advanced Computer Graphics II мы выполнили БПФ на двух изображениях и поменяли местами их частотные данные перед преобразованием обратно в пространство изображения. Теперь, что будет больше доминировать в изображении: амплитуда частот или фаза?? Совсем не интуитивно понятно, но фаза имела большее значение для изображения, чем амплитуда! Но если немного подумать, все становится логично: фаза — это частота белого или черного цвета на изображении. Амплитуда зависит только от того, насколько сильно. Хорошо, может быть, я потерял многих из вас, но поверьте мне, я испугался, когда впервые посмотрел на результат!
Сначала это не имело никакого смысла, и я надо еще уговорить себя поверить!)

Хорошо, если вы не запутались к этому времени, у меня есть еще одна попытка запутать:

Вероятностное пространство

После того, как я сделал свою первую CNN несколько месяцев назад, я проснулся на следующее утро и понял:

CNN — это преобразование из пространства изображений в пространство вероятностей!!!!!

Ебать!!! Теперь все совершенно ясно!

Вы превращаете изображение в предположение!!! Изображение в предположение, есть ли там кошка, самолет или грузовик!

Совершенно безумно думать, что вы можете использовать математику для аналитического преобразования изображения в довольно ненаучную и человеческую догадку!

Мне просто безумно так думать, но линейная алгебра — и преобразования в частности — мой родной язык. Мне действительно помогает думать обо всем этом как о математическом преобразовании из одного пространства в другое.

Мне кажется, что мой мозг похож на плату nVidia: всю жизнь создавался для программирования компьютерной графики, а теперь перепрофилирован для машинного обучения! Я всю жизнь любил технические аспекты компьютерной графики. Программист с 1979 года, я переписал Mac Paint для себя на BASIC для 2-битной графики в старшей школе в 1985 году (требовалась умная логическая математика), в том же году написал набор Мандельброта, а позже набор Джулии с моим парнем (нет, он не писал это для меня), выпускник уровня компьютерной графики I и II в колледже в качестве старшекурсника, включая написание трассировки лучей за день и одной из самых быстрых программ рисования линий в классе на ассемблере, и провел 3 года в Pixar в качестве технический директор. (Мне приходится говорить людям, что я инженер по компьютерной графике, иначе они думают, что я просто художник. :) Я тоже занимаюсь искусством, но даже это искусство-инженерия: искусство, которое горит или высокое. Напряжение". :) )