Для какого параметра θ наблюдаемые данные имеют наибольшую вероятность?
- это очень важный вопрос в машинном обучении, на который нужно ответить, поскольку, когда мы вычисляем параметр, мы можем найти вероятность данной точки данных, и если это так, мы можем классифицировать.
следующая строка гласит: «Если вероятность класса p с учетом точки данных x и параметра θ больше, чем вероятность класса q с учетом той же точки данных и параметра θ, следовательно, x принадлежит классу p».
Распределение Гаусса
Наша цель - найти параметр θ, первый шаг в нашем решении - найти распределение, из которого были сгенерированы данные, это распределение скажет нам, какие параметры мы должны решить, нормальное распределение (также известное как распределение Гаусса) имеет два параметра (среднее значение μ и стандартное отклонение σ), плотность вероятности нормального распределения по выборочному пространству X равна:
Пример
Давайте рассмотрим состояние одной точки данныхx = {5}, мы на самом деле не знаем значения μ и σ, используемые для создания этой точки данных, единственный способ, который я могу представить как решение найти хорошие значения для этих переменных «Численно» - попробуйте некоторое число для обеих переменных и найдите оптимальные значения, которые максимизируют вероятность этого числа, это квадратичное решение - поскольку для каждого значения μ мы должны попробовать все возможные значения σ — запустить недешево, но попробовать стоит.
мы можем прочитать предыдущий сюжет следующим образом:
Наилучшее значение, которое максимизирует вероятность точки данных «5», — установить среднее значение равным 4,91, а стандартное отклонение — равным 0,11.
Что, если у нас будет больше точек данных, таких как следующий вектор признаков, как нам максимизировать вероятность этих точек наблюдения:
Вероятность двух точек данных состоит в том, чтобы найти вероятность первой точки 5 и умножить ее на вторую точку 6. Однако нам все еще нужно найти две переменные (среднее значение μ и стандартное отклонение σ), ну, поскольку у нас есть код позволяет попробовать другое - плохое сложное - численное решение:
Единственное изменение, которое я сделал с предыдущим кодом, — это изменение уравнения Z:
Z = norm(X, Y).pdf(5) * norm(X, Y).pdf(6)
Как правило, с n точками данных мы добавляем термин n точек данных к вероятностной части уравнения и умножаем следующим образом:
Когда вектор признаков x становится все больше и больше, наше решение становится очень громоздким, и тогда мы должны начать искать «аналитическое» решение.
Частная производная в максимизации правдоподобия
- Если вы посмотрите на график с позиции «a», вы увидите график №2, а если вы посмотрите на график с позиции «b», вы увидите график №3.
2. вывести σ из функции правдоподобия → берем частную производную функции по µ,
чтобы вывести µ из функции правдоподобия → мы берем частную производную функции по σ
пример: если мы возьмем производную по x в следующей функции, y будет константой, равной 0 — она больше не имеет значения —
3. Наклон в высшей точке на графиках 1, 2, 3 и 4 равен нулю, посмотрите, например, на график № 4, мы замечаем, что производная параболы будет генерировать прямую линию (синюю линию), интересующую x- ось в точке f(x) = 0 или y = 0, поэтому теперь мы можем решить область определения этой функции следующим образом:
Мы знаем, что самый высокий пик графика № 4 находится на уровне 1,667, где наклон равен нулю, мы можем применить ту же идею к графикам № 2 и № 3.
Давайте посмотрим, будет ли это работать так, как нам нужно, с нашим последним вектором признаков:
найти (среднее значение μ и стандартное отклонение σ)
Это сложно рассчитать, давайте посмотрим, как мы можем упростить это:
- очень полезно вести журнал обеих частей уравнения, журнал преобразует все умножение в сложение, «все предпочитают складывать, а не умножать».
Помните:
Вот так:
в зависимости от того, сколько точек данных у вас есть, результат вашего последнего шага может быть другим, для n чисел точек данных ваше упрощение будет выглядеть следующим образом:
Я думаю, что мы сейчас в хорошей форме, чтобы начать использовать производные, давайте начнем со среднего:
В общем случае n точек данных:
И сигма равна:
В общем случае:
Применив эти две формулы к нашему вектору признаков x, мы получим те же результаты:
Также
Вывод:
Плотность вероятности данных с учетом параметра θ равна вероятности параметра θ с учетом данных.