Линейная алгебра — это мощный инструмент для машинного обучения, науки о данных и других связанных областей, таких как компьютерное зрение, обработка естественного языка. В компьютерном зрении линейная алгебра имеет свои собственные реализации области, такие как использование матриц, векторов и тензоров, а также их операции, такие как линейное преобразование, операции с матрицами, линейная корреляция, зависимость переменных. PCA является наиболее важным инструментом, используемым для анализа данных и уменьшения размеров переменных и данных. PCA основан на математических концепциях линейной алгебры. Вычисление собственных значений и собственных граней — это основные понятия линейной алгебры. Наиболее яркими приложениями линейной алгебры в компьютерном зрении являются Flip/Flop изображений, вращение изображений, обнаружение объектов, распознавание лиц, используемое в целях безопасности организаций, фильтры, используемые в камерах или в приложениях социальных сетей, таких как Snapchat, Instagram, Facebook и т. д. Моделирование камеры, компьютерные игры, свертка, оценка позы и т. д.

Ключевые слова: линейная алгебра, компьютерное зрение, обработка изображений, анализ главных компонентов (PCA), обнаружение объектов, собственные векторы.

Концепции линейной алгебры и компьютерного зрения

В области науки о данных и машинного обучения концепции линейной алгебры прославляют достижения и изобретения в этой области. Поскольку это основа машинного обучения. В области компьютерного зрения линейная алгебра внесла большой вклад в сложные вычисления в компьютерном зрении. Сложное умножение матриц в методах компьютерного зрения требует сложных и больших вычислений/операций с матрицами. Сжатие, вращение, флип, флоп, свертка, удаление шума, обнаружение объектов, распознавание лиц и т. д. — это методы компьютерного зрения для извлечения информации из изображений. Анализ основных компонентов (PCA), операции с матрицами (умножение, инверсия, сложение, точка/перекрестное произведение), извлечение признаков, коэффициенты уменьшения размеров, линейное преобразование, собственный вектор и собственное значение, регрессионный анализ, матричная факторизация и т. д. — это методы линейной алгебры для работа над изображениями. Три основных понятия линейной алгебры: векторы, матрицы и тензоры и упомянутые операции над ними.

Компьютерное зрение и линейная алгебра

Компьютерное зрение — это исследование по извлечению знаний из изображений. А для извлечения используются основные понятия линейной алгебры (ЛА). Ранее мы обсуждали концепции LA — это векторы, матрицы и тензоры.

· Вектор: это одномерный массив, который обычно определяется таким образом, что имеет величину и направление.

· Матрица: это двумерный массив чисел. Например: представление изображения в пикселях в матричной форме. Операции с матрицами: проекция, перенос, вращение, масштабирование, аффинное преобразование, сходство (подмножество аффинного преобразования), евклидово преобразование. [1]

Тензор. Это обобщение векторов и матриц.

Обработка изображения

В области компьютерного зрения вычисления с изображениями и пикселями являются основными задачами. Реализации Flip/Flop, Rotation, свертки, шумоподавления, сжатия и т. д. выполняются при вычислении значений пикселей, а представление пикселей осуществляется в виде матриц, векторов и тензоров. Flip/Flop, Rotation:При реализации операций Flip/Flop подходит операция транспонирования матриц. Пиксели, хранящиеся в ячейках матрицы, перемещаются в другое место на другой матрице с теми же размерами и размером столбца/строки. Пиксельное представление изображений приведено ниже.

Фильтры приложений для социальных сетей:( (Snapchat, WhatsApp, Facebook, Instagram, Twitter и т. д.) использование фильтра на изображениях изменяет цвет, контрастность, яркость и т. д. картинки. Базовые функции для этой операции — матричные операции. Он умножает/увеличивает определенные значения пикселей изображений, чтобы изменить значение текущего пикселя.

Анализ главных компонентов (PCA)

Анализ главных компонентов — это метод уменьшения размерности данных или объектов. PCA проецирует данные в направлении отклонения, чтобы уменьшить направление. Это способ выявления закономерностей в данных и представления закономерностей на основе различий и сходств. Это мощный инструмент для анализа данных. Поскольку это также помогает уменьшить размеры данных и отбросить ненужные измерения в зависимости от производительности модели и результатов. Если есть набор изображений с кратными переменными. Чтобы сохранить лучшую производительность модели с подходящими переменными или размерами, PCA помогает отбросить изображения и уменьшить размеры. С математической точки зрения PCA — это вычисление собственных векторов. В python код PCA приведен ниже.

из sklearn.decomposition импортировать PCA

// скажем, вы хотите сократить до 2 функций

PCA = PCA (n_components = 2)

// получаем преобразованные данные

data_transformed = pca.fit_transform(данные)

Геометрическое обоснование PCA

Объекты данных представлены n точками в форме облака в многомерном пространстве с осью каждой переменной данных. Среднее значение каждой переменной выражается центроидом точек. Среднеквадратичное отклонение значений n от упомянутого выше среднего значения представляет собой дисперсию каждой переменной, как показано на рисунке 1. [2]

Ковариации переменных определяют линейную корреляцию переменных. Формула для ковариаций представлена ​​на рис. 2. [2]

Обнаружение объектов и распознавание лиц.Метод, который линейно проецирует пространство изображения на низкоразмерное пространство признаков изображения, известен как метод собственного лица. Этот метод также использует PCA для уменьшения размеров.При обработке изображений приложение для обнаружения объектов и распознавания лиц сравнивает каждый пиксель одного изображения с сохраненными пикселями на сервере других изображений. Если пиксели совпадают, доступ предоставляется. Сравнение пикселей двух матриц является основной концепцией, представленной здесь. [2], [3]

Заключение.

С развитием технологий линейная алгебра все больше помогает компьютерному зрению, эффективно визуализируя мир вокруг нас. В этой статье обсуждается базовый обзор линейной алгебры в компьютерном зрении. В компьютерном зрении существует множество других областей, где линейная алгебра помогает в развитии, таких как геонауки, виртуальная реальность, безопасность, наблюдение, дополненная реальность, обработка изображений, моделирование камеры и т. д. Некоторые из них уже обсуждались в этой статье, что очень полезно для студентам и исследователям, чтобы больше узнать о линейной алгебре.

использованная литература

[1] Аншул Гарг, Киран Каундал, «Исследование линейной алгебры для компьютерного зрения» (2017)

[2] Нирвикар, Нирадж Кумар, «Применение линейной алгебры для оптического распознавания изображений» (2013).

[3] Славкович и Евтич, «Распознавание лиц с использованием подхода Eigenface», СЕРБСКИЙ ЖУРНАЛ ЭЛЕКТРОТЕХНИКИ, Том 9, №1, 121–130, февраль 2012 г.

[4] Терк М. и Пентланд А., «Распознавание лиц с использованием собственных лиц», Конференция по компьютерному зрению и распознаванию образов, Мауи, Гавайи, США, стр. 586–591. 3–6 июня 1991 г.