Как я изучаю компьютерное зрение — «Часть 2»

Предыдущий пост: https://igorcomune.medium.com/how-i-am-learning-computer-vision-pt-1-b1bf22804e0c

Я едва начал изучать компьютерное зрение, и мои математические навыки начали меня убивать… Я действительно не помню, изучал ли я линейную алгебру в школьные годы, но я уверен, что во время бакалавриата я этого не делал.

Собственные значения, матрицы, скалярные значения, диапазон… что это за вещи?

И цвета, что такое цвет? Ну, у меня есть некоторые сигналы, такие как RGB (красный, зеленый и синий), но я хочу лучше понять это. Почему они варьируются от 0 до 255? Почему RGB? Цветовая гамма… серый шнурок, канал, пора идти дальше.

вступление

Когда я начал этот самый пост, я начал писать о своем изучении линейной алгебры, но, наряду с линейной алгеброй, я столкнулся с несколькими проблемами при понимании векторов и матриц.

Я, наверное, написал шесть версий этого самого поста.

Самым сложным аспектом работы самоучки является: как спланировать свой путь обучения. Когда дело доходит до машинного обучения, все превращается в беспорядок. Итак, я решил остановить свой прогресс и внести некоторые изменения.

Путь обучения

Пора убрать это безобразие.

Как самоучка, я всегда всему учусь «по требованию».

Например, я ничего не знаю о беге. Итак, я сделал обзор про бег, понял, чего хочу и моя цель… 5 км, марафон? Железный человек? Каждый «класс» полностью изменит путь. В случае, если бы я выбрал 5k. Тогда я бы начал бегать, в то же время я бы начал читать все о 5k, затем слушать советы об осанке, боли, частоте сердечных сокращений… обо всем.

Почему я привел этот пример?

Потому что я всегда учусь на практике.

На этот раз я решил сосредоточиться на основах математики… Это не было пустой тратой времени, я многое узнал о линейной алгебре, но… это не мой метод обучения, не тот способ, которым я учился раньше, или метод обучения Я учился.

Смещение фокуса

Возвращаясь к своим корням, сегодня (24.07.2022) я решил, что снова буду учиться на практике. Я найду проблему и пойму ее, быстро, я больше не буду тратить часы и часы своих выходных на изучение основ математики.

Что будет сделано?

Итак, я купил 2 электронные книги:

Теперь, когда у меня будут какие-то сомнения по поводу математики, я буду изучать ее, ориентируясь на область знаний Data Science и, конечно же, на интернет-сайты о ней.

Методом проб и ошибок

Это самая важная «истина» о процессе обучения, вы всегда будете ошибаться, вы столкнетесь со многими проблемами, некоторые из них, даже если вы попробуете, сначала не поймете. И это вообще не проблема.

Следующее видео заставляет меня вернуться к своим корням:
https://www.youtube.com/watch?v=lt1nUfskq9E

Чтобы представить не только мой путь до сих пор, а также мои пробы и ошибки, я покажу вам, что происходило до того, как я полностью переписал этот пост:

Линейная алгебра

Я выбрал известный канал на Youtube, чтобы узнать о линейной алгебре, он называется 3Blue1Brown.

Сайт: https://www.3blue1brown.com
Ютуб-канал: https://www.youtube.com/3blue1brown
Плейлист по линейной алгебре: https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab

На этом канале есть плейлист под названием Суть линейной алгебры, в котором есть 16 видео о линейной алгебре.

Я начал изучать линейную алгебру, но это была плохая идея, мне пришлось вернуться к ее основам.

Векторы и матрицы

Ну, я знаю, это беспорядок, но попробуй представить, сколько времени я потерял, чтобы, наконец, узнать, как я буду продолжать свое планирование.

Это та часть, где я остановился и переосмыслил свой путь обучения.

Цвета

(Эта часть не редактировалась и не переписывалась)

Прежде чем мы поймем, как мы видим, мы должны понять, ЧТО мы видим. На изображении ниже показан электромагнитный спектр.

То, что мы видим, — это электромагнитная волна, и волны классифицируются в соответствии с их длиной. Человек может видеть только «видимый свет», который колеблется от 700 до 400 нм (от красного до фиолетового). С другими типами технологий можно «видеть» другие длины волн, но для простоты мы сосредоточимся на «видимом свете».

Как и любое человеческое чувство, они входят (в данном случае в наши глаза) и преобразуются в электромагнитные импульсы, которые наш мозг интерпретирует.

Трихроматизм — согласно Википедии […] или трихроматизм — это наличие трех независимых каналов для передачи информации о цвете, происходящих от трех различных типов >«колбочки в глазу»

Конусные клетки представляют собой фоторецепторные клетки в сетчатке глаз позвоночных, включая человеческий глаз. Обычно колбочки бывают одного из трех типов, каждый из которых имеет свой «пигмент, а именно: S-колбочки, M-колбочки и L-колбочки». — Википедия

L-колбочки содержат красный пигмент, M содержит зеленый, а S — синий. Итак, чтобы обработать изображение, наш мозг получает информацию от этих 3 колбочек, информацию об интенсивности красного, зеленого и синего. Или RGB.

Теперь все имеет смысл. Наши глаза видят красный, зеленый и синий цвета, поэтому камеры, экраны, компьютеры… тоже.

Цифровые изображения

Отвечая на один мой вопрос, изображения варьируются от 0 до 255, потому что они двоичные!

2⁸ = 256, поэтому интенсивность цвета равна 256 (в информатике мы считаем 0, поэтому он находится в диапазоне от 0 до 255, а не от 1 до 256)

Возвращаясь… цифровые изображения состоят из «пикселей». Каждый пиксель может содержать только один цвет, а его интенсивность варьируется от… 1 до 256.

Пиксельное слово состоит из «Pics» изображения и «El» элемента. Или самый маленький элемент изображения.

Длины волн и числа

Люди видят электромагнитные длины волн, а компьютеры видят числа.

Изображение с размером 25x25 имеет 625 пикселей. Изображение ниже имеет размер 25x25 пикселей.

С математической точки зрения изображения — это матрицы, как и географические координаты.

Если пиксель может содержать только один цвет, как мы можем использовать любой другой цвет, кроме красного, синего или зеленого (как в примере выше)?

Простой!

Цветные изображения обрабатываются в 3 слоя, красный, зеленый и синий, с их интенсивностью, а затем они накладываются друг на друга для представления любого цвета, как в следующем примере:

В цифровых изображениях эти слои называются «каналами».

Другой пример, вот как видит компьютер:

Человеческий глаз видит электромагнитные волны, компьютер видит столбцы, строки и каналы.

Каждое изображение обрабатывается с точки зрения математических операций с использованием столбцов, строк и каналов, каждое значение каждого пересечения между осями X и Y получает номер в соответствии с их каналом и интенсивностью в каждом канале.

Моя работа

Поскольку работа является моим главным приоритетом, в этом месяце я начну сосредотачиваться на двух других предметах (панели мониторинга с использованием Python и обработка естественного языка), которые необходимы для моей работы, поэтому я не знаю, как долго я буду держаться подальше от Компьютерное зрение и мои сообщения в блоге.

Хорошая часть этого заключается в том, что многие вещи, которые я узнаю в этом «спринте», будут полезны для компьютерного зрения, например НЛП.

Мне также есть чем поделиться обо всем, чему я научился на работе, возможно, скоро я смогу начать писать об этом.

Игорь Комун.

Как я изучаю компьютерное зрение — «Часть 2» — «Математика и цвета»