Для какого параметра θ наблюдаемые данные имеют наибольшую вероятность?

- это очень важный вопрос в машинном обучении, на который нужно ответить, поскольку, когда мы вычисляем параметр, мы можем найти вероятность данной точки данных, и если это так, мы можем классифицировать.

следующая строка гласит: «Если вероятность класса p с учетом точки данных x и параметра θ больше, чем вероятность класса q с учетом той же точки данных и параметра θ, следовательно, x принадлежит классу p».

Распределение Гаусса

Наша цель - найти параметр θ, первый шаг в нашем решении - найти распределение, из которого были сгенерированы данные, это распределение скажет нам, какие параметры мы должны решить, нормальное распределение (также известное как распределение Гаусса) имеет два параметра (среднее значение μ и стандартное отклонение σ), плотность вероятности нормального распределения по выборочному пространству X равна:

Пример

Давайте рассмотрим состояние одной точки данныхx = {5}, мы на самом деле не знаем значения μ и σ, используемые для создания этой точки данных, единственный способ, который я могу представить как решение найти хорошие значения для этих переменных «Численно» - попробуйте некоторое число для обеих переменных и найдите оптимальные значения, которые максимизируют вероятность этого числа, это квадратичное решение - поскольку для каждого значения μ мы должны попробовать все возможные значения σ — запустить недешево, но попробовать стоит.

мы можем прочитать предыдущий сюжет следующим образом:

Наилучшее значение, которое максимизирует вероятность точки данных «5», — установить среднее значение равным 4,91, а стандартное отклонение — равным 0,11.

Что, если у нас будет больше точек данных, таких как следующий вектор признаков, как нам максимизировать вероятность этих точек наблюдения:

Вероятность двух точек данных состоит в том, чтобы найти вероятность первой точки 5 и умножить ее на вторую точку 6. Однако нам все еще нужно найти две переменные (среднее значение μ и стандартное отклонение σ), ну, поскольку у нас есть код позволяет попробовать другое - плохое сложное - численное решение:

Единственное изменение, которое я сделал с предыдущим кодом, — это изменение уравнения Z:

Z = norm(X, Y).pdf(5) * norm(X, Y).pdf(6)

Как правило, с n точками данных мы добавляем термин n точек данных к вероятностной части уравнения и умножаем следующим образом:

Когда вектор признаков x становится все больше и больше, наше решение становится очень громоздким, и тогда мы должны начать искать «аналитическое» решение.

Частная производная в максимизации правдоподобия

  1. Если вы посмотрите на график с позиции «, вы увидите график №2, а если вы посмотрите на график с позиции «b», вы увидите график №3.

2. вывести σ из функции правдоподобия → берем частную производную функции по µ,

чтобы вывести µ из функции правдоподобия → мы берем частную производную функции по σ

пример: если мы возьмем производную по x в следующей функции, y будет константой, равной 0 — она больше не имеет значения —

3. Наклон в высшей точке на графиках 1, 2, 3 и 4 равен нулю, посмотрите, например, на график № 4, мы замечаем, что производная параболы будет генерировать прямую линию (синюю линию), интересующую x- ось в точке f(x) = 0 или y = 0, поэтому теперь мы можем решить область определения этой функции следующим образом:

Мы знаем, что самый высокий пик графика № 4 находится на уровне 1,667, где наклон равен нулю, мы можем применить ту же идею к графикам № 2 и № 3.

Давайте посмотрим, будет ли это работать так, как нам нужно, с нашим последним вектором признаков:

найти (среднее значение μ и стандартное отклонение σ)

Это сложно рассчитать, давайте посмотрим, как мы можем упростить это:

  1. очень полезно вести журнал обеих частей уравнения, журнал преобразует все умножение в сложение, «все предпочитают складывать, а не умножать».

Помните:

Вот так:

в зависимости от того, сколько точек данных у вас есть, результат вашего последнего шага может быть другим, для n чисел точек данных ваше упрощение будет выглядеть следующим образом:

Я думаю, что мы сейчас в хорошей форме, чтобы начать использовать производные, давайте начнем со среднего:

В общем случае n точек данных:

И сигма равна:

В общем случае:

Применив эти две формулы к нашему вектору признаков x, мы получим те же результаты:

Также

Вывод:

Плотность вероятности данных с учетом параметра θ равна вероятности параметра θ с учетом данных.