Математические подходы к машинному обучению

Введение

Машинное обучение — это набор алгоритмов общего назначения, применяемых ко многим наборам данных для получения значения или предсказания путем проб и ошибок, достигнутых за счет использования данных, модели и обучения. Основная идея машинного обучения — автоматизм; следовательно, он направлен на разработку методов общего назначения для поиска значимых закономерностей из данных без каких-либо знаний в предметной области. И для этого требуется использование математических концепций, например, в нейронной сети, которая использует свойства исчисления для сходимости градиентного спуска, в наивном Байесе, который использует теорию вероятности для классификации, а также в сжатии данных или уменьшении размерности. , с помощью анализа основных компонентов, основанного на линейной алгебре.

Основы и предыстория

Нейронные сети: контролируемые алгоритмы машинного обучения, которые имитируют работу нейронов в биологическом мозге.

Градиентный спуск: алгоритм, зависящий от концепций производных, используемый для поиска оптимального набора параметров/весов, которые приводят к минимальному значению из функции стоимости, которая должна быть дифференцируемой.

Функция стоимости: метод оценки того, насколько хорошо алгоритм моделирует данные; чем меньше значение, которое он выводит, тем лучше модель.

θ: весовой параметр. η: скорость обучения размер шага, который мы используем при обновлении весов.

Наивный Байес: набор контролируемых алгоритмов машинного обучения с предположением об условной независимости между функциями.

Условная вероятность: вероятность одного или нескольких событий при наступлении другого события:

Совместная вероятность: вероятность нескольких одновременных событий 𝑃(𝐴 ∩ 𝐵).

Предельная вероятность: вероятность события независимо от результатов других случайных величин, например, 𝑃(𝐵).

Обсуждение

Исчисление

Исчисление — один из фундаментальных математических подходов, используемых в машинном обучении (Deisenroth et al., 2020, стр. 141). Из-за своих методов изучения скорости изменения и областей он используется в машинном обучении для итеративного улучшения поведения алгоритма, чтобы учиться и адаптироваться к данным, как в задаче оптимизации. Например, в обратном распространении в нейронных сетях градиентный спуск минимизирует функцию стоимости, находя оптимальные параметры/веса. Вначале алгоритм присваивает весам случайные значения, затем использует дифференциальное исчисление с несколькими переменными; он принимает функцию градиента, которая приводит к направлению наибольшего подъема, что максимизирует выход; следовательно, он принимает противоположное направление (отрицательное). Затем он одновременно обновляет параметры по спуску и пересчитывает градиент. Он продолжает делать это до тех пор, пока не достигнет минимума.

Уравнение градиентного спуска:

Линейная алгебра

Производительность алгоритмов машинного обучения может ухудшиться из-за слишком большого количества входных функций, следовательно, необходимо сжимать данные. Наиболее широко используемым методом уменьшения размерности является анализ основных компонентов, который использует основы линейной алгебры для выполнения линейного отображения данных в пространство более низкой размерности. PCA сначала центрирует данные по происхождению, вычитая среднее значение; затем вычисляет ковариационную матрицу и вычисляет собственные значения и соответствующие собственные векторы матрицы, а поскольку ковариационная матрица симметрична, собственные векторы ортогональны. Собственные векторы — это направление данных, а собственные значения — это величина; таким образом, собственный вектор с наибольшим соответствующим собственным значением является первым главным компонентом, который представляет большую часть дисперсии данных, он представляет важные закономерности в данных, а второй собственный вектор представляет менее важные закономерности и так далее. Итак, если у нас есть набор данных с n измерениями, который необходимо уменьшить до k измерений, мы проецируем данные на первые k ПК, представляющие большую часть данных.

Теория вероятности

Неопределенность — фундаментальная концепция машинного обучения; она возникает как из-за шума в измерениях, так и из-за конечного размера наборов данных. Теория вероятностей обеспечивает последовательную основу для количественной оценки и управления неопределенностью (Bishop, 2006, стр. 12). Более того, он лежит в основе нескольких алгоритмов машинного обучения, поскольку разработка алгоритмов обучения часто основывается на вероятностных предположениях о данных. Например, наивный байесовский метод — это вероятностная модель, основанная на теореме Байеса, которая определяет вероятность события (А) с учетом априорных знаний о другом событии (В), которое уже произошло, с предположением о независимости признаков. Теорема Байеса, полученная из условной вероятности, вычисляет условную вероятность без совместной вероятности. Это означает, что он использует альтернативный расчет совместной вероятности с использованием условной вероятности 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵) * 𝑃(𝐵) и поскольку совместная вероятность симметрична; таким образом, совместная вероятность может быть 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴) *P(A). Следовательно, по теореме Байеса условная вероятность принимает вид:

Однако, поскольку Наивный Байес предполагает независимость 𝑃(𝐵|𝐴)*𝑃(𝐴) 𝑃(𝐵) между функциями, 𝑃(𝐵), которая является предельной вероятностью, становится постоянной, поэтому ею пренебрегают, и с использованием предположения о независимости 𝑃(𝐵|𝐴) становится произведением всех других заданных признаков:

затем они умножаются на, что называется априорным или свидетельством, в результате чего:

Заключение

Все модели машинного обучения основаны на математических основах; Четыре основных столпа машинного обучения — исчисление, линейная алгебра, вероятность и статистика. Благодаря инструменту исчисления производных градиентный спуск может итеративно улучшать поведение модели. Методы линейной алгебры, собственной декомпозиции и матричной факторизации, позволили использовать несколько моделей машинного обучения, таких как PCA, для уменьшения размерности. Наконец, с помощью теоремы Байеса в теории вероятностей Наивный Байес может предсказать вероятность будущего события.