Введение

К настоящему времени каждый интеллектуал, пришедший из не-STEM областей и изучающий области науки о данных или анализа данных, должен был понять, что после этого статистика всегда будет частью их путешествия. Таким образом, всегда рекомендуется создать прочную базовую основу, прежде чем двигаться вперед.

Статистика, раздел математики, который занимается сбором, интерпретацией, анализом и представлением данных. Это больше рассматривается как нечто, что предоставляет вам инструменты и методы для проведения анализа и создания выводов на основе предоставленных данных.

Начнем с основных понятий

Начнем с основных понятий. В статистике среднее — это среднее значение набора данных, вычисляемое путем сложения всех значений в наборе данных и деления на количество значений. медиана – это среднее значение набора данных, когда значения упорядочены от наименьшего к наибольшему. режим — это наиболее часто встречающееся значение в наборе данных.

Например, рассмотрим следующий набор чисел: 3, 7, 8, 5, 7, 4, 1.

среднее этого набора данных будет (3+7+8+5+7+4+1)/7= 5

медиана этого набора данных (после упорядочения от меньшего к большему) будет средним элементом. В случае нечетного количества элементов = 5 (1,3,4,5,7,7,8) и в случае четного количества элементов = (5 + 7)/2 = 6 ( 1,3,4,5,7,7,8,9)

режим этого набора данных равен 7, так как это наиболее часто встречающееся значение. Как правило, в наборе данных существуют различные типы режима в зависимости от количества режимов, например: унимодальный, бимодальный, трехмодальный и мультимодальный. Удивительно, но иногда, когда набор данных содержит только уникальные элементы, говорят, что у него вообще нет моды.

Примечание. Стоит отметить, что среднее значение, медиана и мода — все это меры центральной тенденции, которые используются для описания «центра» набора данных. Среднее обычно является наиболее распространенным показателем центральной тенденции, но медиана и мода также могут быть полезны в определенных ситуациях, особенно когда в наборе данных есть выбросы (экстремальные значения) или нормально не распределяется.

Стандартное отклонение (σ , сигма) данного набора данных – это показатель разброса или изменчивости данных. Он количественно определяет, насколько отдельные точки данных в наборе данных отличаются от среднего (среднего) набора данных. Математически это записывается так:

σ = sqrt(σ²) = sqrt(Σ(x_i — μ)² / N) ; μ = среднее значение, x_i = точки данных, N = общее количество

σ вышеуказанного набора данных ( 3,7,8,5,7,4,1 ) = sqrt((4+4+9+0+4+1+9)/7) = 2,10

Точно так же у нас есть дисперсия, которая представляет собой квадратное значение стандартного отклонения (σ).
дисперсия (σ²)
приведенного выше набора данных= (2,10)² = 4,42

Как правило, в наборе данных с низким стандартным отклонением точки данных близки к среднему, а в наборе данных с высоким стандартным отклонением точки данных более разбросаны. .

Примечание. Стоит отметить, что когда набор данных асимметричен, среднее значение и стандартное отклонение могут не быть хорошими индикаторами центральной тенденции и распространения данных, в таких случаях могут использоваться другие меры, такие как медиана, межквартильный размах и т. д.

Статистика порядка, значения из набора данных, ранжированные в порядке. Они часто используются в статистическом анализе для описания характеристик набора данных. Например, в приведенном выше наборе данных (3,7,8,5,7,4,1) статистика первого порядка будет наименьшим значением (1), статистика второго порядка будет вторым наименьшим значением (3) и скоро.

минимальное и максимальноезначения (также называемые статистикой первого и последнего порядка) обычно используются для описания диапазона набора данных.

Другая часто используемая статистика порядка включает квартили (которые делят набор данных на четверти), децили (которые делят набор данных на десятые доли) и процентили (которые делят набор данных на сотые доли).

Примечание. Стоит отметить, что статистика заказов часто используется для выявления выбросов (экстремальных значений). В таких случаях может быть полезно обобщить распределение набора данных и визуализировать данные с помощью блочной диаграммы.

Спасибо, что прочитали. Я надеюсь, что приведенные выше пункты должны дать вам хорошее понимание основных концепций. Кроме того, дополнительные понятия будут объяснены в Часть 2. Пожалуйста, посмотрите.