Сравнение подхода начальной загрузки с традиционным подходом и понимание того, почему он полезен.

Статистика - это наука обучения на основе данных. Статистические знания помогают найти правильные методы сбора данных, использовать правильные методы анализа данных и эффективно представлять результаты, полученные на основе данных. Эти методы имеют решающее значение для принятия решений и прогнозов, будь то прогнозирование потребительского спроса на продукт; использование интеллектуального анализа текста для фильтрации спам-писем; или принятие решений в режиме реального времени в беспилотных автомобилях. В большинстве случаев при проведении исследований нецелесообразно собирать данные от населения. Это может быть связано, среди прочего, с ограничениями бюджета и / или времени. Вместо этого берется подмножество населения, и из этого подмножества собирается информация, чтобы узнать больше о популяции. Это означает, что можно быстро и относительно недорого получить достаточно точную информацию из надлежащим образом отобранной пробы. Однако многое может повлиять на то, насколько хорошо образец отражает генеральную совокупность; и, следовательно, насколько верными и надежными будут выводы. В связи с этим поговорим о статистике начальной загрузки.

«Бутстрапирование - это статистическая процедура, которая повторяет выборку одного набора данных для создания множества смоделированных выборок. Этот процесс позволяет вычислять стандартные ошибки, доверительные интервалы и проверять гипотезы »(Форст). Подход с начальной загрузкой - чрезвычайно полезная альтернатива традиционному методу проверки гипотез, поскольку он довольно прост и смягчает некоторые из ловушек, встречающихся в рамках традиционного подхода, которые будут обсуждаться позже. Статистический вывод обычно основан на распределении выборки и стандартной ошибке интересующего признака. При традиционном подходе (или подходе с большой выборкой) из совокупности берется одна выборка размером n, и эта выборка используется для расчета оценок совокупности, чтобы затем сделать выводы. Сейчас реально наблюдали только один образец. Тем не менее, существует идея выборочного распределения, которое представляет собой теоретический набор всех возможных оценок, если генеральная совокупность будет подвергнута повторной выборке. Теория утверждает, что при определенных условиях, таких как большие размеры выборки, выборочное распределение будет приблизительно нормальным, а стандартное отклонение распределения будет равно стандартной ошибке. Но что произойдет, если размер выборки недостаточно велик? Тогда нельзя обязательно предполагать, что теоретическое распределение выборки является нормальным. Это затрудняет определение стандартной ошибки оценки и делает труднее делать разумные выводы из данных.

Как и при традиционном подходе, выборка размером n берется из совокупности в рамках подхода начальной загрузки. Назовем этот образец S. Затем, вместо использования теории для определения всех возможных оценок, распределение выборки создается путем повторной выборки наблюдений с заменой из S, m раз, причем каждый повторно выбранный набор имеет n наблюдений. Теперь при правильной выборке S должен быть репрезентативным для генеральной совокупности. Следовательно, при повторной выборке S m раз с заменой это будет так, как если бы m выборок были взяты из исходной генеральной совокупности, а полученные оценки быть репрезентативным для теоретического распределения при традиционном подходе. Следует отметить, что увеличение количества повторных выборок, m, не приведет к увеличению количества информации в данных. То есть 100000-кратная повторная выборка исходного набора не более полезна, чем 1000-кратная повторная выборка. Количество информации в наборе зависит от размера выборки, n, который будет оставаться постоянным на протяжении каждой повторной выборки. Таким образом, преимущество большего количества повторных выборок состоит в том, чтобы получить лучшую оценку распределения выборки.

Теперь, когда мы понимаем подход начальной загрузки, необходимо отметить, что полученные результаты в основном идентичны результатам традиционного подхода. Кроме того, метод начальной загрузки всегда будет работать, поскольку он не предполагает какого-либо базового распределения данных. Это контрастирует с традиционным подходом, который теоретически предполагает, что данные распределяются нормально. Зная, как работает подход начальной загрузки, возникает логичный вопрос: «Не слишком ли полагается метод начальной загрузки на наблюдаемые данные?» Это хороший вопрос, учитывая, что повторные выборки взяты из исходной выборки. И поэтому логично предположить, что выброс исказит оценки, полученные при повторной выборке. Хотя это верно, если рассматривать традиционный подход, будет видно, что выброс в наборе данных также исказит среднее значение и приведет к увеличению стандартной ошибки оценки. Поэтому, хотя может возникнуть соблазн подумать, что выброс может несколько раз появляться в повторно дискретизированных данных и искажать результаты, что делает традиционный подход лучше, подход бутстрэппинга в такой же степени полагается на данные, как и традиционный подход. «Преимущества бутстрэппинга заключаются в том, что это простой способ получения оценок стандартных ошибок и доверительных интервалов, и он удобен, поскольку позволяет избежать затрат на повторение эксперимента для получения других групп выборочных данных. Хотя для большинства проблем невозможно узнать истинный доверительный интервал, бутстрэппинг является асимптотически согласованным и более точным, чем использование стандартных интервалов, полученных с использованием выборочной дисперсии и предположения о нормальности »(Cline).

Оба подхода требуют использования правильно составленных выборок, чтобы делать выводы о популяциях. Однако самое главное различие между этими двумя методами заключается в механизме оценки распределения выборки. Традиционная процедура требует наличия статистики теста, которая удовлетворяет определенным допущениям, чтобы получить достоверные результаты, и это в значительной степени зависит от плана эксперимента. Традиционный подход также использует теорию, чтобы сказать, как должно выглядеть распределение выборки, но результаты разваливаются, если предположения теории не выполняются. С другой стороны, метод начальной загрузки берет исходные данные выборки, а затем повторно дискретизирует их, чтобы создать множество [смоделированных] выборок. Этот подход не опирается на теорию, поскольку распределение выборки можно просто наблюдать, и не нужно беспокоиться о каких-либо предположениях. Этот метод позволяет получать точные статистические данные, что имеет решающее значение при использовании данных для принятия решений.

Цитаты:

Клайн, Грейсен. Непараметрические статистические методы с использованием Р. Соединенного Королевства, EDTECH, 2019.

Форст, Джим. Введение в начальную загрузку в статистике с примером. Статистика Джима. https://statisticsbyjim.com/hypothesis-testing/bootstrapping/. Дата обращения: 17 июня 2020 г.

Ссылки:

Браунли, Джейсон. Нежное введение в метод начальной загрузки. Machine Learning Mastery, 25 мая 2018 г. https://machinelearningmastery.com/a-gentle-introduction-to-the-bootstrap-method/. Дата обращения: 24 мая 2020 г.

Kulesa, Anthony et al. «Выборочные дистрибутивы и бутстрап». Природные методы т. 12,6 (2015): 477–8. DOI: 10.1038 / nmeth.3414

Другой полезный материал:

Http://faculty.washington.edu/yenchic/17Sp_403/Lec5-

Bootstrap.pdf https://web.as.uky.edu/statistics/users/pbreheny/764-F11/notes/12-6.pdf

Http://www.stat.rutgers.edu/home/mxie/rcpapers/bootstrap.pdf