как я научился переставать волноваться и любить неопределенность

Это мои сводные заметки от Андре, Осера, Виттмана и Ли (их работы находятся в библиографии ниже) (: вся информация и знания взяты оттуда! Умоляю вас прочитать это!

Ученые измеряют данные и делают выводы о своих наблюдениях. Чтобы быть техническим, при изучении данных параметры оцениваются на основе данных и делаются выводы.

Вы ученый и стремитесь построить линию наилучшего соответствия данных. Ваш босс спрашивает вас, насколько вы уверены в том, что ваша линия подходит лучше всего:

Какую оценку ошибки следует присвоить наклону и точке пересечения этой подгонки? Как вы подходите к этой проблеме?

Вам не даются планки погрешностей. Вам не сообщают о распределении ошибок.

К концу статьи вы сможете рассказать своему боссу, как!

Часть I: Природа неопределенности

Откуда берется неуверенность? Случайные ошибки могут быть сделаны при измерении данных, а систематические ошибки могут быть сделаны моделью (например, переобучение).

Терминология

Параметр обозначается θ, тогда как оценка параметра выражается символом (тета-шляпа):

Например, видимая величина звезд или галактик: на основе изображения необходимо сначала оценить (параметр) поток (= количество «вещества», протекающего через площадь или объем), а затем мы можем сделать вывод о его величине. Параметр — это ступенька для вывода.

Распределение Пуассона может описывать поведение распределений астрономических вероятностей. Например, в фотометрии или спектроскопии, где процесс физического измерения заключается в подсчете фотонов в определенном пикселе, предполагается, что подсчет фотонов представляет собой процесс Пуассона, который следует соответствующему распределению Пуассона.

Если известно среднее значение µ фотонов в определенном пикселе, вероятность измерения nфотонов в этом пикселе равна:

Изменение среднего значения фотонов µ изменяет распределение Пуассона. Одной из прикладных задач является оценка среднего значения количества фотонов в пикселе.

Если вы увеличите количество измерений (например, количество фотонов), ожидаемое значение µ также будет увеличено: это улучшит отношение сигнал/шум, и распределение Пуассона приблизится к распределению Гаусса.

Оценка параметра

В задачах оптимизации (или «подгонки») целью является минимизация остатков или, точнее, максимизация функции правдоподобия.

Для данного набора измеренных данных D и модели M с параметрами θ функция правдоподобия определяется как:

MLE (оценка максимального правдоподобия) заключается в том, что мы выбираем параметр θ, который дает нашим измеренным данным наиболее вероятный результат. Набор параметров, отвечающих за это, называется оценкой максимального правдоподобия и обозначается следующим образом:

В байесовской статистике цель состоит не в том, чтобы максимизировать функцию правдоподобия, как указано выше, а в том, чтобы максимизировать апостериорную вероятность.

Центральная предельная теорема

Это говорит нам о том, что при одинаково независимых данных любая функция правдоподобия является асимптотически гауссовской вблизи своего максимума. Оценка функции правдоподобия и ее расширение по Тейлору позволяет журналу L(θ_max) исчезнуть, когда θ_max становится равным нулю; это оставляет квадратичную форму θ близкой к оптимуму.

Часть II: Оценка погрешности для параметров, основанных на модели

Сетки грубой силы

Таким образом, этот простой метод оценивает функцию правдоподобия в каждой точке прямоугольной сетки в пространстве параметров. Единственное предположение, которое делает этот метод, состоит в том, что распределение ошибок измеренных данных является правильным.

Для стандартных данных, приведенных ниже, сетки грубой силы оценивают ошибку: панель (а) предполагает распределение ошибки Пуассона, тогда как (б) предполагает распределение ошибки Гаусса. Обе функции правдоподобия L(u) (синие кривые) достигают пика при u = 10,07.

Варьируется χ²

Предполагая, что распределение ошибок набора измеренных данных является гауссовым, можно варьировать параметры модели вокруг минимизированного χ². Таким образом, математически исследуется, где χ² = χ²_ min + 1, что определяет оценку ошибки параметров модели.

Минимум χ² имеет место при µ-шляпе = 10,09, где здесь χ² равно 12,4; добавление единицы к минимальному значению χ² (= 13,4) дает вторую красную пунктирную линию. С этого момента результирующая оценка ошибки составляет 0,57.

Матрица Фишера

Матрица Фишера оценивает ошибку на основе предположения, что параметры модели подобраны к логарифмической вероятности (в случае оценки гауссовой ошибки, т. е. минимизации χ²). Этот метод основан на центральной предельной теореме, которая гласит, что любой i.i.d. функция правдоподобия асимптотически гауссова вблизи своего максимума.

Матрица Фишера позволяет заниматься экспериментальным проектированием. Это позволяет понять ковариацию между двумя оценками параметров. Диагностика ковариационной матрицы содержит оценки дисперсии каждого

Предполагается:

  1. Распределение ошибок измерений известно (т.е. функция правдоподобия определена правильно)
  2. Разложение Тейлора второго порядка является хорошим приближением

Матрица Фишера, F, выглядит следующим образом: для N параметров модели p_1, p_2, … p_N, F является симметричной матрицей N x N.

В этой матрице каждый элемент представляет собой сумму по наблюдаемым (что означает то, что мы измеряем!). Скажем, существует Bколичество наблюдаемых (то есть f_1, f_2, … f_B), поэтому каждый из них связан с параметрами модели некоторым уравнением f. Напоминаем, что именно поэтому матрица Фишера позволяет оценить ошибку для параметров, зависящих от модели.

Каждый параметр модели связан с наблюдаемым как f_b = f_b(p_1, p_2 … p_N); то элементы каждой матрицы Фишера:

Например, гипотетически, если анализировать семьи в мифической стране Хиллари-и-Боба — и под семьями, вы видите следующее:

Первого ребенка зовут Хиллари (=таким образом, в семьях с единственным ребенком есть только Хиллари)
Если есть еще один ребенок, то второго ребенка зовут Боб

Результирующая матрица Фишера для этого случая принимает вид (где h — холмистый, а b — боб):

И инвертирование матрицы 2x2 становится:

Это ковариационная матрица. Несмотря на то, как мало в этом примере наворотов, это объясняет следующее:

Есть два теста, чтобы убедиться, что эта ковариационная матрица действительна: во-первых, определитель ковариационной матрицы должен быть неотрицательным, чтобы быть действительным. Если вы диагонализируете ковариационную матрицу для определения собственных значений, то, если какое-либо собственное значение не является положительным, ковариационная матрица недействительна.

Методы Монте-Карло

Методы Монте-Карло являются наиболее интуитивными способами оценки ошибки, поскольку они предполагают минимальное количество допущений; единственное предположение состоит в том, что распределение ошибок измеренных данных известно правильно (что мы уверены в функции правдоподобия).

Методы Монте-Карло берут выборки из функции правдоподобия и проверяют, соответствуют ли они вероятности, определяемой соответствующим значением функции правдоподобия.

При выборе моделирования методом Монте-Карло учитывается количество параметров модели. Если он мал, например, 1 или 2, то мы можем использовать равномерную выборку, выборку по важности или выборку отклонения. Если количество параметров велико, то можно использовать алгоритм Монте-Карло с цепями Маркова (MCMC).

Часть III: Оценка ошибок для независимых от модели параметров

Оценка ошибки для параметров, зависящих от модели, связана с проблемой оптимизации, которая может быть сложной. Независимые от модели параметры обычно не связаны с оптимизацией и популярны в астрономии :)

Повторная выборка данных

Для этого делается единственное предположение, что известно правильное распределение ошибок измеренных данных. Для каждой точки данных x_n выбирается гауссовское значение со средним значением x_n и стандартным отклонением σ_n. По сути, он имитирует повторные измерения данных. Результат будет немного отличаться от реальных данных, но распределение (по крайней мере, после 100-кратной повторной выборки) позволит сделать вывод об ошибке.

Это обеспечивает только верхний предел неопределенности, поскольку

Начальная загрузка

В методе начальной загрузки можно вычислить распределения ошибок из самих данных. Затем используйте их для расчета ошибок при подгонке.

Вы начинаете с набора N независимых и одинаково распределенных наблюдений, и мы оцениваем некоторый параметр.

Затем вы создаете новый набор данных, выбирая N случайных наблюдений с заменой. Некоторые выбираются более одного раза, а некоторые вообще не выбираются. Этот новый набор данных — X’.

Для этого нового набора данных вы вычисляете новый параметр θ(X’)

Повторить не менее 100 раз.

Ширина распределения θ, рассчитанного по наборам данных с повторной выборкой, представляет собой ошибку θ.

Этот простой процесс имеет свои преимущества:

  1. Вам не нужно генерировать большой набор данных Монте-Карло
  2. Вам не нужно знать истинное базовое распределение ошибок

Чтобы ответить на начальный вопрос, вы можете рассчитать остатки (насколько далеко точки данных от линии наилучшего соответствия), как показано ниже:

Затем вы создаете новые наборы данных начальной загрузки в соответствии со следующим:

Получается следующее распределение:

Бутстрап из набора данных дал нам:

Принимая во внимание, что если бы кто-то провел анализ Монте-Карло для этого набора данных, то было бы сгенерировано следующее:

Несоответствие вызвано отсутствием большого набора данных. В 30 точках данных бутстрап не полностью эффективен.

Когда не следует использовать начальную загрузку

Таким образом, есть случаи, когда не использовать бутстрап:

  1. Небольшой размер выборки (N‹50)
  2. Распределения с бесконечными моментами
  3. Использование бутстрапов для оценки экстремальных значений

Часть IV: Резюме

В этой статье мы определили ключевую терминологию и представили резюме двух способов оценки погрешности. Мы обсудили методы начальной загрузки матрицы Фишера.

Часть V: Библиография

Скотт Осер, https://www.phas.ubc.ca/~oser/p509/Lec_20.pdf
Рене Андрэ, https://arxiv.org/pdf/1009.2755.pdf
> Дэвид Виттман, http://wittman.physics.ucdavis.edu/Fisher-matrix-guide.pdf
Александр Ли и др. ал, https://arxiv.org/pdf/1705.01064.pdf