Предыдущий пост: https://igorcomune.medium.com/how-i-am-learning-computer-vision-pt-1-b1bf22804e0c
Я едва начал изучать компьютерное зрение, и мои математические навыки начали меня убивать… Я действительно не помню, изучал ли я линейную алгебру в школьные годы, но я уверен, что во время бакалавриата я этого не делал.
Собственные значения, матрицы, скалярные значения, диапазон… что это за вещи?
И цвета, что такое цвет? Ну, у меня есть некоторые сигналы, такие как RGB (красный, зеленый и синий), но я хочу лучше понять это. Почему они варьируются от 0 до 255? Почему RGB? Цветовая гамма… серый шнурок, канал, пора идти дальше.
вступление
Когда я начал этот самый пост, я начал писать о своем изучении линейной алгебры, но, наряду с линейной алгеброй, я столкнулся с несколькими проблемами при понимании векторов и матриц.
Я, наверное, написал шесть версий этого самого поста.
Самым сложным аспектом работы самоучки является: как спланировать свой путь обучения. Когда дело доходит до машинного обучения, все превращается в беспорядок. Итак, я решил остановить свой прогресс и внести некоторые изменения.
Путь обучения
Пора убрать это безобразие.
Как самоучка, я всегда всему учусь «по требованию».
Например, я ничего не знаю о беге. Итак, я сделал обзор про бег, понял, чего хочу и моя цель… 5 км, марафон? Железный человек? Каждый «класс» полностью изменит путь. В случае, если бы я выбрал 5k. Тогда я бы начал бегать, в то же время я бы начал читать все о 5k, затем слушать советы об осанке, боли, частоте сердечных сокращений… обо всем.
Почему я привел этот пример?
Потому что я всегда учусь на практике.
На этот раз я решил сосредоточиться на основах математики… Это не было пустой тратой времени, я многое узнал о линейной алгебре, но… это не мой метод обучения, не тот способ, которым я учился раньше, или метод обучения Я учился.
Смещение фокуса
Возвращаясь к своим корням, сегодня (24.07.2022) я решил, что снова буду учиться на практике. Я найду проблему и пойму ее, быстро, я больше не буду тратить часы и часы своих выходных на изучение основ математики.
Что будет сделано?
Итак, я купил 2 электронные книги:
Теперь, когда у меня будут какие-то сомнения по поводу математики, я буду изучать ее, ориентируясь на область знаний Data Science и, конечно же, на интернет-сайты о ней.
Методом проб и ошибок
Это самая важная «истина» о процессе обучения, вы всегда будете ошибаться, вы столкнетесь со многими проблемами, некоторые из них, даже если вы попробуете, сначала не поймете. И это вообще не проблема.
Следующее видео заставляет меня вернуться к своим корням:
https://www.youtube.com/watch?v=lt1nUfskq9E
Чтобы представить не только мой путь до сих пор, а также мои пробы и ошибки, я покажу вам, что происходило до того, как я полностью переписал этот пост:
Линейная алгебра
Я выбрал известный канал на Youtube, чтобы узнать о линейной алгебре, он называется 3Blue1Brown.
- Сайт: https://www.3blue1brown.com
- Ютуб-канал: https://www.youtube.com/3blue1brown
- Плейлист по линейной алгебре: https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab
На этом канале есть плейлист под названием Суть линейной алгебры, в котором есть 16 видео о линейной алгебре.
Я начал изучать линейную алгебру, но это была плохая идея, мне пришлось вернуться к ее основам.
Векторы и матрицы
Ну, я знаю, это беспорядок, но попробуй представить, сколько времени я потерял, чтобы, наконец, узнать, как я буду продолжать свое планирование.
Это та часть, где я остановился и переосмыслил свой путь обучения.
Цвета
(Эта часть не редактировалась и не переписывалась)
Прежде чем мы поймем, как мы видим, мы должны понять, ЧТО мы видим. На изображении ниже показан электромагнитный спектр.
То, что мы видим, — это электромагнитная волна, и волны классифицируются в соответствии с их длиной. Человек может видеть только «видимый свет», который колеблется от 700 до 400 нм (от красного до фиолетового). С другими типами технологий можно «видеть» другие длины волн, но для простоты мы сосредоточимся на «видимом свете».
Как и любое человеческое чувство, они входят (в данном случае в наши глаза) и преобразуются в электромагнитные импульсы, которые наш мозг интерпретирует.
Трихроматизм — согласно Википедии […] или трихроматизм — это наличие трех независимых каналов для передачи информации о цвете, происходящих от трех различных типов >«колбочки в глазу»
Конусные клетки представляют собой фоторецепторные клетки в сетчатке глаз позвоночных, включая человеческий глаз. Обычно колбочки бывают одного из трех типов, каждый из которых имеет свой «пигмент, а именно: S-колбочки, M-колбочки и L-колбочки». — Википедия
L-колбочки содержат красный пигмент, M содержит зеленый, а S — синий. Итак, чтобы обработать изображение, наш мозг получает информацию от этих 3 колбочек, информацию об интенсивности красного, зеленого и синего. Или RGB.
Теперь все имеет смысл. Наши глаза видят красный, зеленый и синий цвета, поэтому камеры, экраны, компьютеры… тоже.
Цифровые изображения
Отвечая на один мой вопрос, изображения варьируются от 0 до 255, потому что они двоичные!
2⁸ = 256, поэтому интенсивность цвета равна 256 (в информатике мы считаем 0, поэтому он находится в диапазоне от 0 до 255, а не от 1 до 256)
Возвращаясь… цифровые изображения состоят из «пикселей». Каждый пиксель может содержать только один цвет, а его интенсивность варьируется от… 1 до 256.
Пиксельное слово состоит из «Pics» изображения и «El» элемента. Или самый маленький элемент изображения.
Длины волн и числа
Люди видят электромагнитные длины волн, а компьютеры видят числа.
Изображение с размером 25x25 имеет 625 пикселей. Изображение ниже имеет размер 25x25 пикселей.
С математической точки зрения изображения — это матрицы, как и географические координаты.
Если пиксель может содержать только один цвет, как мы можем использовать любой другой цвет, кроме красного, синего или зеленого (как в примере выше)?
Простой!
Цветные изображения обрабатываются в 3 слоя, красный, зеленый и синий, с их интенсивностью, а затем они накладываются друг на друга для представления любого цвета, как в следующем примере:
В цифровых изображениях эти слои называются «каналами».
Другой пример, вот как видит компьютер:
Человеческий глаз видит электромагнитные волны, компьютер видит столбцы, строки и каналы.
Каждое изображение обрабатывается с точки зрения математических операций с использованием столбцов, строк и каналов, каждое значение каждого пересечения между осями X и Y получает номер в соответствии с их каналом и интенсивностью в каждом канале.
Моя работа
Поскольку работа является моим главным приоритетом, в этом месяце я начну сосредотачиваться на двух других предметах (панели мониторинга с использованием Python и обработка естественного языка), которые необходимы для моей работы, поэтому я не знаю, как долго я буду держаться подальше от Компьютерное зрение и мои сообщения в блоге.
Хорошая часть этого заключается в том, что многие вещи, которые я узнаю в этом «спринте», будут полезны для компьютерного зрения, например НЛП.
Мне также есть чем поделиться обо всем, чему я научился на работе, возможно, скоро я смогу начать писать об этом.
Игорь Комун.