КАК МАШИНА ЧИТАЕТ ИЗОБРАЖЕНИЯ И ИСПОЛЬЗУЕТ ИХ В КОМПЬЮТЕРНОМ ЗРЕНИИ?

Прежде чем мы углубимся в то, как машины считывают изображения и используют их в компьютерном зрении, важно понять, как мы можем считывать и хранить изображения в машинах. Это особенно важно, если мы работаем над приложениями компьютерного зрения. Итак, в этой статье мы обсудим изображения и посмотрим, как они на самом деле хранятся на компьютере. Мы рассмотрим два популярных формата, в которых сохраняются изображения — оттенки серого и формат RGB.

Что такое пиксель?

Пиксель — это основные строительные блоки цифровых изображений. Пиксель — это наименьший управляемый элемент изображения.

Как изображения хранятся в компьютере?

Сначала попытайтесь понять, как черно-белые изображения хранятся в компьютере, а затем мы увидим, как хранятся цветные изображения. Поскольку компьютерные схемы всегда предпочитают двоичные числа, будет лучше, если мы будем хранить изображения в двоичном формате!
Изображение ниже имеет размер 7x7 пикселей, т.е. (7 строк и 7 столбцов). Это означает, что размер изображения составляет 7x7.

Каждый из этих пикселей обозначается числовым значением, и эти числа называются Значения пикселей. Эти значения пикселей обозначают интенсивность пикселей. Для черно-белого изображения у нас есть значения пикселей в диапазоне от 0 до 1, что в двоичном формате 0 означает черный, а 1 — белый.

Если мы удалим цвет и поместим двоичное значение, это будет выглядеть так.
Теперь вы можете угадать форму этой матрицы? Ну, это будет то же самое, что и количество значений пикселей по высоте и ширине изображения. В этом случае форма матрицы будет 7x 7.

Поэтому каждое изображение на компьютере сохраняется в такой форме, где у вас есть матрица чисел, и эта матрица также известна как канал.

Что такое представление изображения в градациях серого

Изображения в градациях серого являются монохромными изображениями. Это означает, что они имеют только один цвет. Изображения в градациях серого не содержат никакой информации о цвете. В представлении в градациях серого вместо черного и белого мы можем иметь разные оттенки серого цвета. Отсюда и название оттенки серого!

Обычное изображение в градациях серого содержит 8 бит данных на пиксель, которые имеют 256 различных уровней серого. В медицинских изображениях и астрономии используются изображения с разрешением 12 или 16 бит/пиксель.

Для монохроматического изображения в градациях серого у нас есть значения пикселей в диапазоне от 0 до 255. Меньшие числа, близкие к нулю, представляют более темный оттенок, а большие числа, близкие к 255, представляют более светлый или белый оттенок.

Как цветные изображения хранятся на компьютере?

Цветное изображение состоит из нескольких цветов, и все цвета могут быть получены из трех цветов (красного, зеленого и синего). Поэтому цветные изображения представляют собой стопку из 3 цветовых каналов, расположенных в порядке каналов RGB.

Ниже показанная иллюстрация может ясно прояснить это.

Эта картинка представляет собой цветное изображение размером 7x7. Современные цветные цифровые изображения также следуют тем же принципам использования 3-х цветовых каналов, поскольку все цвета могут быть получены из смеси этих 3-х основных цветов.

Здесь желтый цвет пикселя (2,2) имеет значение пикселя в формате RGB (255,255,0), которое хранится в формате 3d-матрицы.

На следующих изображениях показано, как выглядит цветная матрица изображения.

Это наложенная или окончательная трехмерная матрица цветного изображения, где каждый пиксель находится в диапазоне от (0 до 255), и у нас есть 3 таких канала.

Итак, давайте посмотрим на пример цветного изображения, это изображение собаки-

Это изображение состоит из множества цветов, и почти все цвета могут быть получены из трех основных цветов — красного, зеленого и синего. Можно сказать, что каждое цветное изображение состоит из этих трех цветов или трех каналов. - Красный, зеленый и синий-

Это значит, что в цветном изображении количество матриц или количество каналов будет больше. В этом конкретном примере у нас есть 3 матрицы: 1 матрица для красного, известная как красный канал.

еще одна метрика зеленого цвета, известная как зеленый канал.

и, наконец, матрица для синего цвета, также известная как синий канал.

Каждая из этих метрик снова будет иметь значения в диапазоне от 0 до 255, где каждое из этих чисел представляет интенсивность пикселей или, можно сказать, оттенки красного, зеленого и синего. Наконец, все эти каналы или все эти матрицы накладываются друг на друга, поэтому форма изображения при загрузке в компьютер будет такой:

где N — количество пикселей по высоте, M — количество пикселей по ширине, а 3 — количество каналов, в данном случае у нас есть 3 канала R, G и B. В нашем примере форма цветного изображения будет 6 x 5 x 3, так как у нас есть 6 пикселей по высоте, 5 по ширине и присутствуют 3 канала.

Извлечение признаков изображений

Обработка третьего измерения изображений иногда может быть сложной и избыточной. Извлечение признаков становится намного проще, если мы сжимаем изображение до двумерной матрицы. Это делается с помощью шкалы серого или бинаризации. Масштабирование серого богаче, чем бинаризация, поскольку оно показывает изображение как комбинацию различных интенсивностей серого. В то время как бинаризация просто строит матрицу, полную нулей и единиц.

Поэтому при выполнении задачи CV в машинном обучении вы можете извлекать признаки, просто сжимая их, то есть преобразовывая их в оттенки серого или двоичный формат.