В сегодняшнем блоге вы познакомитесь с математическими концепциями машинного обучения. Итак, давайте вспомним те дни в старшей школе, когда вы абсолютно «обожали» математику и задавались вопросом, как изучение этого материала может быть полезно в жизни.

Зачем нам нужно изучать математику?

Во-первых, людям необходимо понять, что знания библиотек, необходимых для алгоритмов машинного обучения, недостаточно. Чтобы улучшить реализацию и контроль машинного обучения, вам необходимо понимать, как работает алгоритм, и именно здесь на помощь приходит математика.

  • Это поможет вам понять, как определенные факторы, параметры и функции так же влияют на результаты.
  • Это поможет вам выбрать правильные метрики для оценки работы вашей реализации.
  • Это помогает выразить взаимосвязь между ответом и переменными-предикторами (ну, по крайней мере, в контролируемом обучении) и проанализировать, насколько ваша модель «соответствует» набору данных.

В заключение: математика в старших классах в конце концов не была бесполезной ...

Теперь, когда мы нашли время, чтобы оценить красоту математики, давайте перейдем к сути дела.

Четыре основных направления машинного обучения:

  • Линейная алгебра
  • Статистика
  • Исчисление
  • Вероятность

Этот блог познакомит вас с исчислением и вероятностью. Вы можете найти мои блоги по линейной алгебре и статистике ниже:

Многомерное исчисление

Вместо того, чтобы судить о влиянии одного фактора на нашу выходную переменную, мы смотрим на несколько факторов в многомерном исчислении. Calculus помогает оптимизировать реализацию моделей машинного обучения.

Большую часть времени мы используем дифференциацию в машинном обучении, например, во время градиентного спуска (используется для нахождения минимумов в нашей функции потерь в линейной и логистической регрессии).

Дифференциация

Это подполе исчисления, которое помогает нам определить, насколько чувствительна наша выходная переменная y к множественным факторам x₁, x₂,…, xₙ, где y = f (x₁, x₂,…, xₙ). Если вас смущает несколько факторов, просто поймите, что дифференциация по одному фактору означает,

(изменение y) / (изменение x) = ∆y / ∆x, где y = f (x) = функция x

Изображение выше показывает нам величину изменения y (∆y) при изменении x (∆x). Например, изменение расстояния относительно изменения времени дает нам скорость. В некотором смысле скорость зависит от расстояния по времени.

Если изменение x бесконечно мало (∆x - ›0), то мы называем приведенное выше выражение производной, и тогда оно представляется как dy / dx.

Другими словами, производная дает нам мгновенное изменение y относительно t x, которое является наклоном к касательной к кривой y = f (x) в точке x:

В случае многомерного дифференцирования мы видим изменение нашей функции f (x₁, x₂,…, xₙ) относительно любого из множителей x₁, x₂,…, xₙ с использованием частной производной.

Быстрая подготовка к дифференциации

Сначала мы изучим одномерное исчисление, а затем расширим его для многомерного исчисления.

Список деривативов на разные годы

  • y = x, dy/dx = 1
  • y = константа, dy/dx = 0
  • y = xⁿ, dy/dx = n*xⁿ⁻¹
  • y = a*xⁿ, dy/dx = a*n*xⁿ⁻¹
  • y = eˣ, dy/dx = eˣ
  • у = журнал (х), dy/dx = 1/x
  • y = x⁻ⁿ, dy/dx = -n*x⁻⁽ⁿ⁺¹⁾
  • y = 2ˣ, dy/dx = 2ˣ(log 2)
  • у = соз (х), dy/dx = -sin(x)
  • у = грех (х), dy/dx = cos(x)

Правило суммы для дифференциации:

Если y = first + second, тогда dy / dx = d (first) / dx + d (second) / dx

Например, пусть y = x³ + 2x⁵, тогда

dy/dx = d( x³ + 2x⁵)/dx = d(x³)/dx +d(2x⁵)/dx

dy/dx = 3x² + 2*5*x⁴

dy/dx = 3x² + 10x⁴

Правило продукта для дифференциации:

Если y = first * second, то dy / dx = (second) * d (first) / dx + (first) * d (second) / dx

Например, y = x * (cos (x)), тогда,

dy / dx = cos (x) * dx / dx + x * d (cos (x)) / dx = cos (x) + x (-sin (x))

Цепное правило дифференциации:

Давайте разберемся на примере y = sin (x²).

  1. dy / dx = d (sin (x²)) / dx = dsin (z) / dx, где z = x².
  2. Сначала мы находим производную sin (z) по t z = cos (z)
  3. Затем мы дифференцируем z (= x²) относительно t x, что дает нам 2 * x
  4. d (sin (x²)) = произведение шагов (2) и (3) = 2 * x * cos (z) = 2 * x * cos (x²).

Короче говоря, d (sin x²) / dx = d (sin z) / dz * dz / dx

Другой пример:

  1. Пусть y = (sin x) ², тогда мы предполагаем, что z = sin (x)
  2. Мы находим производную y (= z²) по t z, которая равна 2 * z.
  3. Теперь мы находим производную z относительно t x, что дает нам = cos (x)
  4. dy / dx = dy / dz * dz / dx = 2 * z * cos (x) = 2 * sin (x) * cos (x).

Распространяя вышеупомянутые концепции на многомерное исчисление, мы получаем понятие частичного дифференцирования.

Частичная дифференциация и как ее найти

Частичную дифференциацию можно понять на примере цен на жилье. Мы видим, что на стоимость жилья влияет множество факторов, таких как количество комнат, этажность, общая площадь и т. Д.

Но если мы хотим узнать, насколько тот или иной фактор (скажем, общая площадь) влияет на цену нашего дома (при условии, что все остальное остается таким же), то мы видим изменение цен относительно изменения общей площади. Этот факторный эффект можно выяснить с помощью частичной дифференциации.

Если вы знаете дифференциацию, это очень просто подсчитать. Предположим, мы дифференцируем f (x₁, x₂,…, xₙ) относительно x₁. Все, что вам нужно сделать, это предположить, что все независимые переменные являются константами (за исключением x₁ в этом случае), и дифференцировать только термины, содержащие x₁. Например,

y = 3*(x₁)² + 4*x₂

поэтому частичное дифференцирование по x₁ будет выглядеть так,

∂y/∂x₁ = ∂(3*(x₁)² + 4*x₂)/∂x₁

= ∂(3*(x₁)²)/∂x₁ + ∂(4*x₂)/∂x₁ = 6*x₁

результат первого члена будет 6 * x₁, а второго члена будет 0. Рассмотрим другой пример.

Пусть y = 3 * (x₁) ² + 4 * x₂ * x1. Потом,

∂y/∂x₁ = ∂(3*(x₁)² + 4*x₂*x1)/∂x₁ = ∂(3*(x₁)²)/∂x₁ + ∂(4*x₂*x1)/∂x₁

∂y/∂x₁ = 6*x₁ + 4*x₂

Вероятность

Это раздел математики, который занимается расчетом вероятности наступления события. Значение этой вероятности находится между 0 и 1, где 0 означает, что событие не происходит вообще, а 1 означает, что событие обязательно произойдет.

Вероятность наступления события = желаемый результат / общие результаты

Сумма всех вероятностей равна 1.

Например, когда мы подбрасываем монету,

вероятность получить голову = вероятность получить хвост = 1/2.

Это можно найти, поскольку у монеты только 2 стороны, и, таким образом, общий результат = 2, в то время как желаемый результат для обоих этих случаев = 1, что дает нам 1/2 при подстановке этих значений в формулу выше.

Важные термины

  • Случайный эксперимент: процесс, результат которого является «случайным» или неопределенным.
  • Примерный набор: набор всех возможных результатов для этого случайного эксперимента.
  • Событие: результаты данного эксперимента.

Типы мероприятий

  • Совместные события (A∩B): два события (A и B) могут иметь общие результаты. Например, мы бросаем два кубика. Пусть событие A получает четное число, а событие B - число меньше 5. Результаты для события A: {2, 4, 6} и для события B: {1, 2, 3, 4}, поэтому A∩B = {2, 4}.
  • Непересекающиеся события: у них нет общих результатов. В примере с игральными костями, если событие A получает нечетное число, а B получает четное число, тогда A∩B = ∅.
  • Независимые события: исход первого события не влияет на исход второго, и наоборот. Разница между независимыми и взаимоисключающими событиями заключается в том, что, поскольку взаимоисключающие события, два события не могут происходить одновременно.

Например, подбрасывая монету, мы не можем получить одновременно голову и хвост ...

Ну ладно, тогда ладно. Что касается независимых событий, даже если они произошли в одно и то же время, их соответствующие результаты не влияют друг на друга.

Типы вероятностей

  • Предельная вероятность: дает вероятность одного события без каких-либо условий, т.е. нас не волнует исход какого-либо другого события. Например, вероятность выбрать короля из колоды карт = 4/52 = 1/13.
  • Совместная вероятность: дает вероятность одновременного возникновения двух событий. Например, при броске кубика мы хотим найти вероятность получить четное число, которое меньше 5. Два события здесь - получение четного числа (событие A) и получение числа ‹5 (событие B). Итак, P (A∩B) = 2/6 = 1/3.
  • Условная вероятность: вероятность события при условии, что какое-то другое событие уже произошло. Например, вероятность того, что ребенок будет играть на улице, когда идет дождь. Здесь событие A «играет на улице», а событие B «идет дождь». В нашем примере условная вероятность обозначается как P (A | B) или P («игра на улице» | «дождь»).

Чтобы узнать условную вероятность:

Если два события A и B являются зависимыми, то их условная вероятность равна

P(A|B) = P(A∩B)/P(B)

Если A и B - независимые события (вы можете умножить вероятности A и B):

P(A|B) = P(A)*P(B)/P(B) = P(A)

Теорема Байеса

Это дает нам способ найти условную вероятность по следующей формуле:

P (A | B) = P (B | A) * P (A) / P (B) здесь,

  • P (B | A) дает нам отношение правдоподобия
  • P (A) известен как предшествующее, а P (A | B) известно как апостериорное значение.
  • P (B) известен как доказательство (во многих случаях оно нам не предоставляется).

Доказательства можно рассчитать с помощью следующего уравнения:

P (B) = P (B | A) * P (A) + P (B | не A) * P (не A)

Функции плотности вероятности (PDF)

Это не что иное, как графическое представление вероятностей и вероятностей, которые теперь можно описать как функцию. PDF имеет следующие свойства:

  • Площадь под кривой = 1
  • Все ценности непрерывны.
  • Вероятность того, что случайная величина принимает значение от x1 до x2, - это площадь под кривой, ограниченная x1 и x2 со сторон. Это можно найти, интегрировав pdf от x = x1 до x = x2, как указано ниже.

Биномиальное распределение

Он дает вероятность успеха или неудачи события, которое повторяется несколько раз. Формула для нахождения вероятности здесь имеет вид

Например, если ученик сдал 10 пробных тестов, какова вероятность того, что этот ученик пройдет 8 тестов?

Итак, для этого у нас есть x = 8, p = 0,5 (потому что студент может сдать или не сдать экзамен), n = 10. Мы подставляем эти значения в нашу формулу,

P = ⁿCₓ .pˣ.(1-p)ⁿ⁻ˣ = ¹⁰C₈.(0.5)⁸.(1–0.5)² = 45*(0.5)¹⁰ = 0.0439

Условия этого распространения:

  • Количество испытаний ограничено и фиксировано.
  • События должны быть независимыми.
  • Вероятность успеха должна быть одинаковой для каждого события.

Подробная информация о кривой нормального и стандартного распределения представлена ​​в моем блоге статистики.

Центральная предельная теорема

В нем говорится, что

Выборочное распределение среднего значения любой независимой случайной величины будет нормальным или почти нормальным, если размер выборки достаточно велик.

Другими словами, если мы возьмем достаточно большой размер выборки из нашей совокупности, то средние значения выборки (среднее значение каждой выборки) будут приблизительно нормально распределены. Увеличение размера выборки приводит к тому, что вероятностное распределение выборочных средних становится все больше и больше похоже на нормальные распределения.

Как показывает практика, размер выборки должен быть не менее 30, чтобы CLT работал.

Каковы его практические последствия?

Это полезно в том смысле, что даже если распределение вашей выборки имеет произвольную форму, среднее распределение вашей выборки будет почти гауссовой кривой (с учетом указанного выше ограничения размера выборки).

Это может быть очень полезно для выяснения природы населения без доступа ко всем точкам данных по населению.

Единственное условие CLT, помимо размера выборки, состоит в том, что начальное распределение должно быть таким, чтобы мы могли определить среднее значение выборки. Распределение Коши - один из тех примеров, когда мы не можем найти выборочное среднее.

Возьмем реальный пример:

Предположим, вы проводите опрос для определения доходов людей по всему штату. Однако все мы знаем, что для нас невозможно спросить каждого человека в штате об их доходе. Вот где мы можем применить CLT.

Итак, что мы можем сделать, так это взять несколько образцов из некоторых городов штата. Здесь в качестве выборки будет указано количество людей из каждого города. Учитывая это, мы можем затем вычислить среднее значение каждой из этих выборок и построить кривую распределения вероятностей на основе этого. Тогда мы сможем увидеть сходство кривой с нормальным распределением и, следовательно, использовать ее свойства для поиска необходимых данных.

Приложения вероятности:

  • Это помогает нам оптимизировать нашу модель
  • Убыток может быть рассчитан с использованием вероятности, что дополнительно помогает нам правильно классифицировать точки данных.

*****************************************************************

На этом наш блог завершается. Надеюсь, он помог вам понять эти математические концепции (даже если это немного). Спасибо, что прочитали мой блог, и хорошего дня 😄 !!!