Статистика — это наука о сборе, организации и анализе данных, что также помогает нам принимать более эффективные решения. Это решающий метод, лежащий в основе того, как мы принимаем решения и делаем прогнозы в бизнесе. Данные могут быть любой частью информации, которая поддается измерению. Прогнозируется, что с развитием технологий данные будут расти еще больше, чем раньше, в ближайшие десятилетия. Поэтому он стал жизненно важной частью роста бизнес-процессов. Это помогает улучшить операции, улучшить обслуживание клиентов и увеличить доход или прибыль в бизнесе.

Статистику можно разделить на два типа: описательную статистику и логическую статистику. Описательная статистика больше связана с описанием данных, тогда как статистика вывода связана с анализом данных.

Население и выборка

Популяция — это вся группа, о которой вы хотите сделать выводы. Тогда как выборка — это конкретная группа, из которой мы собираем данные. Размер выборки (n) всегда меньше размера совокупности (N). Например, предположим, что после выборов в штате нам нужно знать опросы на выходе. для подсчета экзитполов. Для подсчета экзитполов мы не будем спрашивать каждого человека, за кого он проголосовал, а скорее возьмем выборку из голосующего населения и спросим, ​​за кого он проголосовал.

Выборка

Выборка - это выбор подмножества единиц из статистической совокупности для оценки характеристик всей совокупности. Существует множество методов выборки

  • Простая случайная выборка
  • Выборочное обследование
  • Стратифицированная выборка
  • Систематическая выборка
  • Удобная выборка

Простая случайная выборка — это тип выборки, при котором каждый элемент имеет равные шансы быть выбранным. Основа выборки здесь включает все население.

Стратифицированная выборка — это метод, при котором население делится на непересекающиеся группы. Он делит население на подгруппы, которые могут существенно различаться. Это позволяет правильно представить каждый тип в популяции. Например, чтобы обеспечить равное представительство каждого пола в обществе в социальном опросе, готовят разные наборы опросов для трех типов полов.

Систематическая выборка — это выборка, при которой из популяции N выбирается n-я особь. Например, при проведении опроса мы случайным образом выбираем человека через каждый регулярный интервал.

Кластерная выборка включает в себя разделение всего населения на кластеры со схожими характеристиками, а затем дальнейший выбор из этих кластеров для получения выводов о населении. Вместо случайного выбора индивидуумов здесь мы случайным образом выбираем кластеры.

Удобная выборка — это невероятностная выборка, которая просто включает выборки, наиболее доступные исследователю. Также в то же время выборка может не быть идеальным представителем генеральной совокупности. Например, чтобы провести исследование влияния повышения цен на продукты питания, мы можем встать перед продуктовым магазином и задать людям вопросы.

Распределение частоты

Математическая функция, показывающая количество случаев, когда переменная принимает каждое из возможных значений. Например, когда нам дают набор данных, мы пытаемся показать его в наглядной форме. Если нам дано

Частотное распределение — это представление в графическом или табличном формате, которое отображает количество наблюдений в заданном интервале. Размер интервала зависит от анализируемых данных и целей аналитика. Интервалы должны быть взаимоисключающими и исчерпывающими. - (Инвестопедия)

Распределение частот может быть представлено в виде гистограмм, гистограмм, круговых диаграмм и многоугольника частот.

Еще одна тема распределения частоты — Совокупная частота. Это частота, которая используется для определения количества наблюдений, лежащих выше (или ниже) определенного значения в наборе данных. Здесь частота суммируется на каждом уровне.

Гистограмма и гистограмма

Гистограмма — это графическое представление категориальных данных, где длина столбца прямо пропорциональна значению, которое они представляют. Принимая во внимание, что гистограмма представляет собой графическое представление данных, сгруппированных в непрерывные диапазоны чисел, и каждый диапазон соответствует вертикальной полосе.

Функция плотности вероятности и функция массы вероятности

В теории вероятностей и статистике распределение вероятностей — это математическая функция, которая дает вероятности появления различных возможных результатов эксперимента. — Википедия

Функция, представляющая дискретное распределение вероятностей, называется функцией массы вероятности, а функция, представляющая непрерывное распределение вероятности, называется функцией плотности вероятности.

Среднее, медиана и мода

Среднее — это среднее или наиболее распространенное значение в данных. Он рассчитывается путем суммирования всех значений и деления на количество наблюдений. Это один из показателей центральной тенденции помимо моды и медианы. Среднее значение рассчитывается как сумма терминов, деленная на количество терминов.

Другим названием вышеуказанного также может быть среднее арифметическое, которое является простейшей и наиболее широко используемой мерой среднего или среднего.

Медиана — это среднее значение в отсортированных данных, как в приведенном выше примере, если мы отсортируем данные в порядке возрастания, тогда средний член будет медианой. Но здесь у нас четное количество наблюдений. В порядке возрастания они будут (3,3,4,6,7,8,9,11,12,19). Итак, здесь два средних члена — это 7 и 8. В этом случае мы суммируем 7 и 8 и делим на 2, что дает 7,5. Следовательно, 7,5 является медианой данных.

Мода — это наиболее часто наблюдаемое значение в наборе значений данных. Например, в приведенном выше случае значение 3 наблюдается чаще, чем другие значения, поскольку оно повторяется дважды. Следовательно, 3 - это мода данных.

Меры рассеивания

Меры рассеяния указывают на рассеяние данных. Они помогают интерпретировать изменчивость данных, т. е. показывают, насколько сжаты или разбросаны данные. В статистике есть 3 меры дисперсии, то есть дисперсия, стандартное отклонение, межквартильное изменение.

дисперсия (σ^2) измеряет отклонение от среднего или среднего значения. Он рассчитывается путем получения разницы между каждым числом в наборе данных и средним значением, затем возведением в квадрат разницы, чтобы сделать ее положительной, и, наконец, делением суммы квадратов на количество значений в данных. Теперь есть разница между дисперсией населения и дисперсией выборки.

Почему выборочная дисперсия делится на n-1? По сути, деление выборочной дисперсии на n-1 дает нам несмещенную оценку дисперсии генеральной совокупности. В основном это использование концепции поправки Бесселя.

В статистике поправка Бесселя — это использование n-1вместо n в формуле выборочной дисперсии и выборочного стандартного отклонения, где n - количество наблюдений в выборке. Этот метод исправляет систематическую ошибку в оценке дисперсии генеральной совокупности. Это также частично исправляет погрешность в оценке стандартного отклонения генеральной совокупности. Однако коррекция часто увеличивает среднеквадратичную ошибку этих оценок. — Википедия

Предположим, что x — наша выборка из всего населения, а µ — среднее значение населения. Теперь, когда мы оцениваем выборочную дисперсию, очевидно, что она будет очень далека от фактической дисперсии генеральной совокупности. Когда мы разделим сумму разностей на n-1, а не на n, есть вероятность, что дисперсия выборки будет ближе к фактической дисперсии генеральной совокупности, поскольку значение знаменателя уменьшается при вычитании на 1.

Но почему только n-1, а не n-2 или n-3 и т. д.? Исследователи пытались разделить дисперсию на n-2, n-3, n-4 и т. д. Они проводили свои эксперименты, используя несколько итераций и выбирая несколько разных выборок. После тщательных экспериментов они обнаружили, что дисперсия населения и дисперсия выборки были примерно равны при использовании n-1, т.е. уменьшенной разницы (между фактической и расчетной дисперсией).

На приведенных выше рисунках дисперсия на рисунке 2 больше, чем дисперсия на рисунке 1, поскольку данные более разбросаны на рисунке 2, а не на рисунке 1. Мы также упомянули стандартное отклонение на рисунке выше, то есть стандартное отклонение. Стандартное отклонение — это мера количества вариаций или дисперсии набора значений. Предположим, что среднее значение для данных равно 2,5, тогда 1 стандартное отклонение вправо будет означать, что следующий элемент справа будет 2,5+1. Чтобы рассчитать стандартное отклонение, мы просто берем квадратный корень из дисперсии.

В чем основная разница между дисперсией и стандартным отклонением? С помощью дисперсии мы рассчитываем разброс, но со стандартным отклонением мы знаем, от 1 стандартного отклонения влево или вправо, какой диапазон данных мы можем ожидать.

Процентили и квартили

Процентили и квартили — это первый шаг в процессе поиска выбросов. Процентили делят данные на 100 равных частей, тогда как квартили делят данные на 4 равные части (также называемые четвертями). данные.

Предположим, нам дана выборка S = (1,2,3,4,5,6,7,8). Нам нужно найти, какой процентиль элементов является нечетным. Ответом на этот вопрос будет 1,3 и 5. Следовательно, (4/8)*100, т.е. 50 процентиль.

Допустим, набор данных содержит {2,2,3,4,5,5,5,6,7,8,8,8}. Процентиль 5 здесь будет следующим: (количество раз 5 появляется в наборе данных) / (общее количество наблюдений) * 100, т. Е. 3/12 * 100, что означает, что 25% всего распределения меньше 5

Процентиль — это значение, ниже которого лежит определенный процент наблюдений.

Если с теми же данными нас спросят, какое значение существует при процентильном ранжировании 50%, то мы будем использовать формулы, где value=(percentile/100)*(n+1). что в нашем случае равно (50/100)*(12+1), т.е. 6.5. Теперь это 6.5 является индексной позицией и порядком значения. В этом порядке значение должно лежать между 6-м и 7-м значением данных, то есть между 5 и 6.

Удаление выбросов в данных

Если набор данных = {1,2,2,2,3,3,4,5,5,5,9,27}, то мы можем явно сказать, что 27 является выбросом в данных. В статистике выброс — это точка данных, которая значительно отличается от других наблюдений. Выброс может вызвать серьезные проблемы в понимании и решении бизнес-задачи. Чтобы обнаружить выброс, мы можем использовать два метода: межквартильный диапазон или вычисление z-показателя.

Чтобы рассчитать выброс с IQR, давайте возьмем приведенный выше набор данных. Чтобы найти выброс, необходимо рассчитать два важных условия: нижний забор и верхний забор, которые в основном рассчитываются по следующим формулам.

НИЖНЯЯ ОГРАЖДЕНИЕ = Q1 - 1,5 (IQR)

ВЫШЕ ЗАБОРА=Q3 +1,5(IQR)

Здесь IQR в основном представляет собой межквартильный диапазон, который представляет собой разницу между Q3 и Q1, то есть 75-й квартиль и 25-й квартиль. С набором данных = {1,2,2,2,3, 3,4,5,5,5,9,27} Q3 равен 5, а Q1 равен 3.

ИКР =5–3=2

НИЖНИЙ ЗАБОР = 3–1,5(2) = 3–3=0

ВЫСОКИЙ ЗАБОР=5 +1,5(2)=5+3=8

Отсюда обобщение 5 чисел: минимальное значение = 0, Q1 = 3, медиана = Q2 = (3+4)/2 = 3,5, максимальное значение = 8.

Сводка пяти чисел является частью описательной статистики и состоит из пяти значений, которые помогают нам описать данные. Он состоит из минимального значения, 25-го процентиля или Q1, 50-го процентиля или Q2 или медианы, 75-го процентиля или Q3, максимального значения.

Кроме того, это резюме из 5 пунктов отображается на диаграмме. Мы рисуем его на питоне со следующим кодом

Как мы видим, вдали от диаграммы есть видимая точка, которая указывает на наличие выброса в наших данных.

Распределения

Обычно, когда мы говорим о распределениях в статистике, мы говорим о вероятностных распределениях. Распределения вероятностей — это математические функции, которые показывают вероятность возникновения различных результатов эксперимента.

Когда мы хотим отобразить данные, самый простой способ — нанести их на гистограмму. Когда мы сглаживаем гистограмму, мы получаем кривую распределения вероятностей.

Гауссово или нормальное распределение

Одним из наиболее широко используемых распределений является нормальное распределение. Это распределение вероятностей, симметричное относительно среднего, что указывает на то, что данные, близкие к среднему, встречаются чаще, чем данные, далекие от среднего. На графике это выглядит как кривая в форме колокола. Здесь среднее значение, медиана и мода такие же, как и в точке A.

Нормальное распределение следует эмпирическому правилу, которое является правилом 68–95–99,7%. Это правило означает, что

  • в пределах первого стандартного отклонения от среднего в левом и правом направлениях лежит 68% всего распределения (т.е. 1 стандартное отклонение вправо и влево)
  • в пределах второго стандартного отклонения от среднего лежит 95% всего распределения (т.е. 2 SD вправо и влево)
  • в пределах третьего стандартного отклонения от среднего лежит 99,7% всего распределения (т.е. 3 SD вправо и влево)

Примером нормального распределения является рост населения. Большинство людей в популяции среднего роста. Количество людей ниже и выше среднего роста почти одинаково, и очень немногие люди на самом деле очень высокие или очень низкие.

Нормализация и стандартизация

Предположим, у нас есть данные, которые включают в себя различные функции, такие как зарплата, вес, рост, возраст и т. д. Все эти функции будут иметь разные единицы измерения. При разных единицах измерения будет сложно сравнивать и анализировать данные. Вот вам и понятие нормализации. Нормализация помогает свести все измерения объектов к одной единице измерения.

Допустим, у нас есть среднее значение, равное 2, и стандартное отклонение, равное 1. В этом случае где будет лежать 2,5 с точки зрения SD? Ну 2,5 будет 0,5 SD вправо. Означает ли это, что 2,75 — это 0,75 стандартного отклонения вправо? Нет. Мы просто используем Z-показатель для понимания. Как здесь Z-счет = (2,75–2)/1 = 0,75 SD вправо.

Точно так же, если бы у нас был набор данных = {1,2,3,4,5,6} со средним значением 4 и стандартным отклонением 1, то оценка z для всех этих данных будет (-3,-2,-1,0,1 ,2,3). Теперь первоначальный набор данных был нормально распределенным набором данных, но путем применения Z-показателя данные преобразуются в стандартные нормальные данные (т. е. результирующий результат Z-показателя). Это также называется стандартизацией.