Тема, которую часто упускают из виду специалисты по машинному обучению

Выборка данных лежит в основе науки о данных. Из данной совокупности f(x) мы выбираем точки данных. Все эти точки данных вместе называются случайными выборками и обозначаются случайной величиной X. Но, как мы знаем, наука о данных — это игра вероятностей, часто мы повторяем эксперимент много раз. В таком сценарии мы получаем nслучайных выборок X₁, X₂, … Xₙ (не путать с количеством точек данных в выборке). Часто эти случайные выборки независимы, но одинаково распределены, поэтому их называют независимыми и одинаково распределенными случайными величинами с pdf или pmf f(x) или iidслучайными величинами.

В этой статье мы говорим о дельта-методе, который обеспечивает математическую основу для расчета предельного распределения и асимптотической дисперсии для заданных выборок iid. Дельта-метод позволяет вычислить дисперсию функции случайной величины (с некоторым преобразованием, как мы увидим позже), дисперсия которой известна. Эта структура тесно связана с методом преобразования переменных в статистике, о котором я ранее говорил очень подробно.







Основы

Учитывая iid случайные выборки X₁, X₂, … Xₙ, их совместная плотность вероятности определяется выражением

В частном случае, если все iid выборки (мы отбрасываем «случайные», но предполагаем, что они есть) нормально распределены со средним значением и дисперсией как 0 и 1, то X² ~ χ²₁, т. е. хи-квадрат распределения степеней свободы равен до 1. (Это можно проверить, написав простой скрипт на Python, R или Julia).

Конвергенция

Сходимость распределения говорит нам, как Xₙ сходится к некоторому предельному распределению при n → ∞. Мы можем говорить о конвергенции на различных уровнях:

  1. Сходимость по вероятности: последовательность случайных величин X₁, X₂, … Xₙ →ₚ X, если для каждогоε› 0,

где →ₚ обозначает сходимость по вероятности. Одним из таких применений сходимости по вероятности является слабый закон больших чисел. Для iid X₁, X₂, … Xₙс 𝔼(X) = µ и var(X) ‹ ∞,тогда ( X +, X₂+ … + Xₙ)/n→ₚ μ.

2. Почти уверенная сходимость: мы говорим, что Xₙ → X п.н. (почти уверен), если

Почти наверняка сходимость подразумевает сходимость по вероятности, но наоборот неверно. Усиленный закон больших чисел является результатом сходимости почти наверное, где 𝔼(X) = µ, var(X) = σ²,тогда (X +, X₂+ … + Xₙ)/nμ, п.н.

3. Конвергенция в распределении:мы говорим Xₙ → X, если последовательность функций распределения F_{Xₙ} из Xₙ сходится к последовательности из X в соответствующем смысле: F_{Xₙ}(x) → F_{X}(x) для всех x,где F_{X} является непрерывным (Обратите внимание, что в моем стиле письма использовалась латексная нотация в отсутствие среды, не способной поддерживать сложные уравнения).

Сходимость в распределении — это свойство распределения, а не конкретной случайной величины, отличной от двух предыдущих распределений. Сходимость в функции генерации момента подразумевает сходимость в распределении, т. е. M_{X_n}(t) → M_X(t)для всех t в окрестности 0 .



Центральная предельная теорема – это одно из приложений сходимости в распределении, где для X₁, X₂, … Xₙ со средним значением µ и дисперсия σ²,

Еще одним следствием сходимости в распределении является теорема Слуцкого:

Если Xₙ → X в дистрибуции, и Yₙ → c в дистрибуции, с c константа, тогда Xₙ + Yₙ → X + c, Xₙ Yₙ → cX, и Xₙ /Yₙ → X/c, c ≠ 0, все в раздаче.

Дельта-метод

Дельта-метод за счет свойств сходимости и ряда Тейлора аппроксимирует асимптотическое поведение функций случайной величины. С помощью методов преобразования переменных легко увидеть, что если Xₙ асимптотически нормальна, то любая гладкая функция g(Xₙ) также асимптотически нормальна. В таких ситуациях можно использовать дельта-метод для расчета асимптотического распределения функций выборочного среднего.

Если дисперсия мала, то Xₙ сконцентрирован вблизи своего среднего значения. Таким образом, для g(x) должно иметь значение поведение вблизи среднего значения μ. Следовательно, мы можем разложить g(x)около μ, используя ряд Тейлора, следующим образом:

Это требует следующего асимптотического поведения, называемого Дельта-метод первого порядка:

Дельта-метод первого порядка

Пусть Xₙ — последовательность случайных величин, удовлетворяющая условию √n(Xₙ − μ) → N(0, σ²). Если g(μ) ≠0, то

которое можно записать, следуя упомянутой выше теореме Слуцкого.

Дельта-метод второго порядка

Если мы добавим еще один член к ряду Тейлора из уравнения, мы можем получить дельта-метод второго порядка, который полезен, когда g'(μ) = 0, но когда g''(μ) ≠0.

где χ²₁ — введенное ранее хи-квадратное распределение степени свободы, равной 1.

Давайте немного напишем код.

Рассмотрим случайную нормальную выборку со средним значением 1,5 и истинной выборочной дисперсией 0,25. Нас интересует аппроксимация дисперсии этой выборки, умноженной на константу c = 2,50. Математически дисперсия новой выборки будет равна 0,25 * (2,50²) = 1,5625 при использовании дельта-метода. Давайте сделаем образец эмпирически, используя код R:

c <- 2.50
trans_sample <- c*sample
var(trans_sample)

выход которого равен 1,563107, что довольно близко к результату, полученному с помощью дельта-метода.

Заключение

В этой статье я рассмотрел дельта-метод, который является важной темой для студентов, изучающих статистику, но обычно упускается из виду специалистами по науке о данных и машинному обучению. Дельта-методы используются в таких приложениях, как дисперсия произведения вероятностей выживания, дисперсия оценки частоты сообщений, совместная оценка дисперсии параметра и ковариации этого параметра с другим, а также усреднение модели для обозначения немного. Я предлагаю читателям просмотреть справочные материалы, чтобы лучше понять эту тему.

Было ли это полезно? Купи мне кофе.

Нравится, что я пишу? Присоединяйтесь к моему списку рассылки.

Хотите узнать больше о темах, связанных с STEM? Присоединяйтесь к Меду

Рекомендации

  1. https://web.archive.org/web/20220609034135/http://www.phidot.org/software/mark/docs/book/pdf/app_2.pdf
  2. https://web.archive.org/web/20220816054241/https://stats.oarc.ucla.edu/r/faq/how-can-i-estimate-the-standard-error-of-transformed-regression -параметры-в-r-с-использованием-дельта-метода/
  3. https://web.archive.org/web/20221014235612/https://cran.r-project.org/web/packages/modmarg/vignettes/delta-method.html
  4. https://web.archive.org/web/20220903164755/https://bookdown.org/ts_robinson1994/10_fundamental_theorems_for_econometrics/dm.html
  5. Вер Хоф Дж. М. Кто изобрел дельта-метод? Американский статистик. 2012 1 мая; 66 (2): 124–7.
  6. Нильсен Г.К., Мунте-Каас А.З., Скауг Х.Дж., Брун М. О дельта-методе для аппроксимации неопределенности в глубоком обучении. Препринт arXiv arXiv: 1912.00832. 2019 Декабрь; 3. Нильсен Г.К., Мунте-Каас А.З., Скауг Х.Дж., Брун М. О дельта-методе для аппроксимации неопределенности в глубоком обучении. Препринт arXiv arXiv: 1912.00832. 2019 дек;3.
  7. Нильсен Г.К., Мунте-Каас А.З., Скауг Х.Дж., Брун М. Количественная оценка эпистемической неопределенности в классификации глубокого обучения с помощью дельта-метода. Нейронные сети. 2022 г., 1 января; 145: 164–76.
  8. Нильсен Г.К., Мунте-Каас А.З., Скауг Х.Дж., Брун М. Сравнение дельта-метода и бутстрапа в классификации глубокого обучения. Препринт arXiv arXiv: 2107.01606. 2021 июл 4.

Список связанных тем в серии Статистические статьи:

  1. https://towardsdatascience.com/stat-stories-variable-transformation-to-generate-new-distributions-d4607cb32c30
  2. https://towardsdatascience.com/stat-stories-multivariate-transformation-for-statistical-distributions-7077a374b3b4
  3. https://towardsdatascience.com/stat-stories-normalizing-flows-as-an-application-of-variable-transformation-7b7beda7b03b
  4. https://towardsdatascience.com/stat-stories-why-is-moment-generating-function-important-25bbc17dad68
  5. https://towardsdatascience.com/stat-stories-common-families-of-statistical-distributions-part-1-2b704dd6a808
  6. https://towardsdatascience.com/stat-stories-common-families-of-statistical-distributions-part-2-4bdea86c3132