Этот блог представляет собой обзор основных концепций логической статистики.

Прежде чем погрузиться в логическую статистику, давайте освежим в памяти некоторые термины:

Что такое население?

Проще говоря, население — это целая группа, вы можете думать о населении как о совокупности целой группы людей, вещей или объектов, которые изучаются. Например, мы можем назвать всех учеников в классе популяцией или все деревья в лесу популяцией и т. д.

Что такое образец?

Выборка — это доля населения, например, из всех учеников в классе, если мы выберем только несколько учеников, то эти несколько учеников называются выборками.

Что такое параметры и статистика?

Параметры и статистика — это числа, суммирующие любые измеримые характеристики совокупности или выборки соответственно. например, среднее время в пути всех сотрудников (населения) в компании считается параметром. С другой стороны, среднее время в пути выборки сотрудников считается статистикой.

Как вы думаете, параметры популяции всегда будут доступны? ответ - нет. иногда будет доступна только выборка, поэтому нам нужно придумать способ предсказать или вывести параметр генеральной совокупности с доступной статистикой выборки. И это называется Инференциальная статистика. Например, давайте рассмотрим компанию, в которой работает 10 000 сотрудников, и мы хотим узнать среднее время в пути всех 10 000 сотрудников, что является сложной и утомительной задачей, поэтому что мы можем сделать, так это собрать время в пути 500 сотрудников и сделать вывод о времени в пути для всего населения (10 000 сотрудников).

Когда мы выводим параметры совокупности из выборочной статистики, мы не можем гарантировать вывод со 100% уверенностью. поэтому, когда мы имеем дело с неопределенностью, мы можем выразить наш вывод в терминах вероятности. Давайте изучим некоторые понятия вероятности, которые используются в логической статистике.

Что такое случайная величина?

В теории вероятностей и статистике случайные величины используются для преобразования случайного эксперимента в числа, чтобы мы могли выполнять некоторые математические операции. Случайные величины должны быть измеримыми и, как правило, действительными числами. например, давайте предположим, что X представляет количество учеников, приносящих шоколад в класс, состоящий в общей сложности из пятидесяти учеников, и в этом случае X может быть любым числом от 0 до 50. Здесь количество учеников, приносящих шоколад в класс, состоит из пятидесяти учеников. класс представляет собой случайный эксперимент, поэтому мы сопоставили результаты с числами. Если пять учеников принесли в класс шоколадки, то X=5, где X — случайная величина (случайная величина всегда будет представлена ​​заглавными буквами, например, X, Y). Вы также можете вызвать случайную переменную как функцию, потому что она принимает случайный эксперимент в качестве входных данных и выдает числа в качестве выходных данных.

Типы случайных величин

Случайная величина может быть дискретной или непрерывной.

Дискретные случайные величины принимают счетное число различных значений в пределах конечного или бесконечного диапазона. например, рассмотрим случайную переменную X, которая представляет собой количество полученных спам-сообщений, и значения, которые принимает X, будут исчисляемыми, например, 5 или 6 или некоторыми исчисляемыми числами. Некоторые другие примеры - это количество побед команды по крикету и количество звезд в разных галактиках (может быть бесконечным, но исчисляемым, как дециллион или квиндециллион, или может быть центиллион). Если мы можем перечислить возможные результаты, их следует рассматривать как дискретную случайную величину.

Непрерывные случайные величины принимают бесконечное число значений в пределах конечного или бесконечного диапазона. например, среднее количество осадков в мм в час в районе, которое может принимать любое значение, например 3,1, 3,1541 или 3,1114565111. Некоторыми другими примерами являются масса объекта, время, за которое событие завершено, и т. д. Все они могут принимать любые числа в пределах диапазона.

Что такое вероятность?

Вероятность – это мера вероятности того, что событие произойдет в случайном эксперименте. В общем, вероятность есть не что иное, как отношение желаемого результата к выборочному пространству (все возможные результаты в случайном эксперименте).

например, давайте рассмотрим бросок игральной кости. Здесь выборочное пространство равно {1,2,3,4,5,6}, и если мы хотим узнать вероятность получения 6 после броска, нам нужно разделить количество раз, которое наш желаемый результат (6) составляет присутствует в выборочном пространстве по количеству общих результатов.

Не путайте с пространством выборки и случайной величиной. Позвольте мне рассказать вам пример, чтобы понять разницу. Давайте воспользуемся распространенным примером броска двух игральных костей. Здесь бросание двух игральных костей является случайным экспериментом. Пример пространства будет таким:

Из рисунка 2 мы можем сказать, что длина выборочного пространства равна 36. Но случайная величина — это функция, которая берет события из выборочного пространства и дает другой результат, который является числовым. Например, рассмотрим случайную величину A, которая отображает 1, если сумма двух игральных костей четна, иначе 0. Теперь длина случайной величины равна 2, т. е. теперь выборочное пространство равно {0,1 }.

что такое распределение вероятностей?

Распределение вероятностей — это представление всех возможных исходов случайной величины и соответствующих им вероятностей. Мы можем представить распределение в табличной или графической форме.

Например: рассмотрим случайный эксперимент, в котором бросают две игральные кости. И пусть случайная величина X будет суммой двух игральных костей. А возможные способы получения одинаковых значений суммы показаны ниже на рисунке 3.

Из рисунка-3 видно, что получение суммы 7 имеет более высокую вероятность. Мы можем представить детали в табличной форме или в графической форме, как показано ниже.

Типы распределения вероятностей

В зависимости от типа случайной величины мы можем разделить распределение на две категории.

  1. Функция массы вероятности (PMF):

Если случайная величина является дискретной, то распределение вероятностей случайной величины называется дискретным распределением вероятностей, также известным как Функция массы вероятности (PMF). Иногда ее также называют функцией вероятности или функцией частоты. Пример, который мы видели на рисунке 4 (графическая форма), также является функцией массы вероятности.

Из рисунка 5 мы можем сказать, что P[Случайная переменная (X)=5] = 4/36. В общем, мы можем сказать, что для дискретной случайной величины X и для любого значения x в выборочном пространстве (S) случайной величины X функция массы вероятности f (x) определяется как:

Каждая функция массы вероятности удовлетворяет двум условиям:

Приведенные выше два условия говорят нам, что для всех значений x, которые принадлежат выборочному пространству (S) случайной величины (X), вероятность будет равна или больше 0. И значения вероятности всех x, которые принадлежит выборочной сумме до 1. Это говорит нам, что минимальное значение будет равно 0, а максимальное значение будет равно 1.

2) Функция плотности вероятности (PDF):

С другой стороны, если случайная величина является непрерывной, она называется непрерывным распределением вероятностей, которое также известно как Функция плотности вероятности (PDF).

В случае функции плотности вероятности P[X=x] всегда будет равна нулю из-за непрерывного характера случайной величины. Вместо этого мы можем вычислить вероятность, лежащую в интервале (x, x+dx). Теперь, чтобы узнать вероятность в пределах интервала, мы можем использовать интегрирование.

Каждый PDF должен удовлетворять следующим условиям:

Приведенные выше два условия говорят нам, что значение вероятности должно быть равно или больше 0. А площадь между кривой плотности и горизонтальной осью X равна 1.

Что такое КДФ?

Помимо PDF и PMF, есть еще одна функция, которая используется как для дискретных, так и для непрерывных случайных величин, которая, в свою очередь, дает кумулятивную вероятность переменной и называется кумулятивной функцией распределения (CDF).

На рисунке 7 вы можете видеть, что в CDF (нижний график на рисунке 7) кумулятивная вероятность нанесена на ось y, которая колеблется от 0 до 1. Таким образом, вероятность (ось y) значения x в CDF сообщает нам общую аддитивную вероятность от 0 до x. CDF случайной величины X обозначается f (x) и определяется как:

Функция CDF должна удовлетворять следующим условиям:

Функция CDF должна иметь неотрицательное значение и находиться в диапазоне от 0 до 1, и она является неубывающей функцией x (т. е. значение кумулятивной вероятности всегда увеличивается).

Теперь, когда мы знаем, что такое распределение вероятностей. Мы можем сделать вывод о многих вещах из распределения вероятностей, таких как среднее значение, медиана, мода, дисперсия и стандартное отклонение.

Ожидаемое значение (или среднее) распределения вероятностей

Ожидаемое значение распределения вероятностей представляет собой средневзвешенное значение вероятности всех возможных значений случайной величины. Например, ожидаемое значение при броске игральной кости равно

Просто нам нужно умножить значения случайной величины и соответствующие теоретические вероятности и просуммировать все значения, чтобы получить ожидаемое значение. В общем случае ожидаемое значение E(x) представляется как:

Что такое дисперсия и стандартное отклонение?

И дисперсия, и стандартное отклонение являются мерами разброса распределения. Говоря простым языком, дисперсия — это мера того, насколько набор данных отличается от среднего или ожидаемого значения. Математически он рассчитывается как среднее значение суммы квадратов отклонений всех точек данных от их среднего значения. А стандартное отклонение — это не что иное, как квадратный корень из дисперсии.

Формула дисперсии и стандартного отклонения немного отличается для населения и выборки.

В выборке вместо деления на общую выборку (n) мы разделили с использованием (n-1), чтобы сделать ее беспристрастной. Это связано с тем, что разброс данных, которые мы рассчитываем с использованием выборки, будет меньше по сравнению с реальным разбросом соответствующей совокупности, поэтому, чтобы компенсировать это, мы попытались увеличить дисперсию выборки, разделив (n-1 ), который, как правило, становится более точной оценкой населения.

что такое выборочное распределение?

Представьте, что вам нужно узнать среднюю зарплату инженеров в Дели. Но мы не можем получить данные о зарплате всех инженеров в Дели, поэтому представьте, что мы получили данные о зарплате 100 (произвольно) случайных людей (выборка). Теперь, как вы думаете, будет ли средняя зарплата этих 100 случайных людей хорошей оценкой для всего населения? ответ - нет. По одному образцу мы ничего не можем сделать. Таким образом, вместо одной случайной выборки со 100 случайными людьми мы можем взять M случайных выборок, каждая из которых содержит 100 случайных людей. тогда у нас будет M средних значений, соответствующих этим M случайным выборкам. и среднее из этих средних будет лучшей оценкой населения.

Таким образом, распределение средних значений M случайных выборок называется выборочным распределением. И у этого выборочного распределения есть несколько интересных свойств:

  1. Среднее значение выборочного распределения будет лучшим приближением к среднему значению генеральной совокупности.
  2. Если размер выборки больше 30, то распределение выборки становится нормальным.
  3. Стандартное отклонение выборочного распределения равно отношению стандартного отклонения генеральной совокупности к квадратному корню из размера выборки.

Эти свойства вместе называются Центральная предельная теорема.

На рисунке 8 показано распределение выборки, которое представляет собой распределение средних значений, которые мы получаем каждый раз, когда получаем новую выборку, т. е. распределение выборочных средних значений совокупности. Распределение выборки будет нормальным распределением (колоколообразная кривая) независимо от формы исходного распределения данных населения. Мы получили приведенный выше график, используя количество случайных выборок, с помощью которых мы можем сделать вывод о параметре населения. Таким образом, в нашем случае среднее значение приведенного выше графика является наилучшим приближенным значением средней заработной платы инженеров в Дели.

что такое стандартная ошибка?

Стандартная ошибка — это не что иное, как стандартное отклонение выборочного распределения. Формула стандартной ошибки (SE):

В большинстве случаев, чтобы узнать стандартную ошибку, мы используем стандартное отклонение выборки вместо стандартного отклонения генеральной совокупности.

Нормальное распределение против стандартного нормального распределения

Поскольку мы знаем, что нормальное распределение симметрично, то есть среднее значение, медиана и мода будут тем же значением, которое лежит в центре. Единственное изменение стандартного нормального распределения заключается в том, что среднее значение будет равно нулю с 1 стандартным отклонением.

Как следует из названия, мы нормализуем значения, чтобы получить стандартное нормальное распределение. Нормализованное значение называется Z-показателем. Что мы можем рассчитать по формуле:

Некоторые из интересных свойств нормального распределения:

  1. 68,2% вероятность того, что случайная величина находится в пределах 1 стандартного отклонения от среднего.
  2. 95,4% вероятность случайной величины находится в пределах 2 стандартных отклонений от среднего значения.
  3. 99,7% вероятность случайной величины находится в пределах 3 стандартных отклонений от среднего значения.

С помощью этого свойства мы можем узнать кумулятивную вероятность случайной величины, если знаем ее положение в распределении. Например, если случайная величина лежит в одном стандартном отклонении справа от среднего стандартного нормального распределения, то кумулятивная вероятность будет равна 0,84, т.е. (0,5, что составляет всю левую половину + 0,682/2). Но, что полезно, нам не нужно выполнять вычисления, чтобы узнать кумулятивную вероятность, вместо этого мы можем использовать Z-таблицу, используя Z-показатель случайной величины.

В Z-таблице индекс строки представляет собой z-показатель до десятичного значения 01, а индекс столбца представляет значение Z-показателя после 01 десятичного знака. Допустим, если z-оценка равна -1,35 (знак минус представляет левую часть среднего), то пересечение -1,3 в индексе строки и 0,05 в индексе столбца будет кумулятивной вероятностью случайной величины, которая составляет 0,08851.

Представление вывода

Как мы видели, используя распределение выборки (среднее значение выборки населения), мы можем сделать вывод о параметрах населения. Но на самом деле мы берем выборку, вычисляем статистику выборки и выводим параметр генеральной совокупности с некоторой погрешностью. Граница погрешности говорит нам, насколько процентная доля статистики выборки отличается от параметра реальной совокупности. Но прежде чем научиться определять предел погрешности, давайте узнаем, что такое уровень достоверности.

Что такое уровень уверенности?

Когда какое-либо СМИ публикует опрос, уровень достоверности часто включается в результат, например, 90%, 95% или 99%. Но что именно это значит?

Давайте рассмотрим опрос, проведенный на случайной выборке людей в Бангалоре, чтобы проверить, какой процент людей поддерживает борьбу с курением, скажем, например, результат таков, что 75% людей поддерживают борьбу с курением с уровнем достоверности 95%. Это означает, что если бы опрос повторялся снова и снова, результаты совпадали бы с результатами фактического населения в 95% случаев. Обычно уровень достоверности следует устанавливать до проведения опроса или опроса.

Уровень достоверности 0 означает, что вы вообще не верите в то, что если вы повторите опрос еще раз, то получите тот же результат. С другой стороны, уровень достоверности 100 означает, что нет никаких сомнений в том, что если вы повторите опрос, вы получите те же результаты. Уровень достоверности 95% означает, что у вас есть 5%-й шанс ошибиться.

Итак, теперь мы знаем, что такое уровень достоверности. Теперь мы можем рассчитать погрешность. Формула погрешности:

Чтобы узнать z-показатель, связанный с уровнем достоверности, мы должны преобразовать уровень достоверности в площадь под распределением, используя простую формулу (1 + уровень достоверности)/2. И из Z-таблицы нам нужно узнать Z-оценку для соответствующей кумулятивной вероятности (область под распределением слева).

Найдя предел погрешности, мы должны представить выборочную статистику в виде интервала значений, который называется Доверительный интервал.

CI = (выборочная статистика - предел погрешности, выборочная статистика + предел погрешности)

Позвольте мне закончить этот блог, решив актуальную задачу, в которой мы будем выводить параметр совокупности из выборочной статистики.

Проблема. В компании 50 000 сотрудников, и нам нужно оценить их среднее время в пути. Итак, мы взяли выборку из 100 сотрудников и нашли их среднее время в пути, которое составляет 20,5 минут, а стандартное отклонение для 100 сотрудников составляет 7 минут. Найдите доверительный интервал среднего времени в пути для параметра населения.

Примем уровень достоверности за 95%.

По мере снижения уровня достоверности предел погрешности увеличивается, и, таким образом, диапазон доверительного интервала расширяется.

Спасибо за прочтение!