Аналитика данных

Введение в статистику в Python

Статистика жизненно важна в аналитике данных. Мы рассмотрим некоторые основы статистики и способы ее применения на языке программирования Python.

Что такое статистика

Статистика - это дисциплина, которая касается сбора, организации, анализа, интерпретации и представления данных. При применении статистики к научной, промышленной или социальной проблеме принято начинать со статистической совокупности или статистической модели, которую необходимо изучить.

Центральные тенденции:

является центральным или типичным значением для распределения вероятностей. Его также можно назвать центром или местом распространения. В просторечии меры центральной тенденции часто называют средними.

Дисперсия:

- это степень растяжения или сжатия дистрибутива. Распространенными примерами мер статистической дисперсии являются дисперсия, стандартное отклонение и межквартильный размах.

Корреляция:

или зависимость - это любая статистическая связь, причинная или нет, между двумя случайными величинами или двумерными данными. В самом широком смысле корреляция - это любая статистическая ассоциация, хотя обычно она относится к степени линейной связи пары переменных.

Парадокс Симпсона:

который известен под несколькими названиями, представляет собой явление вероятности и статистики, в котором тренд появляется в нескольких различных группах данных, но исчезает или обращается вспять при объединении этих групп.

Что такое аналитика данных на высоком уровне

Решения Data Analytics предлагают удобный способ использования бизнес-данных. Но количество решений на рынке может быть устрашающим, и многие из них могут показаться охватывающими другую категорию аналитики. Как организации могут во всем этом разобраться? Начните с понимания различных типов аналитики, включая описательную, диагностическую, прогнозную и предписывающую аналитику.

  • Описательная аналитика расскажет, что происходило в прошлом.
  • Диагностическая аналитика помогает понять, почему что-то происходило в прошлом.
  • Predictive Analytics предсказывает, что, скорее всего, произойдет в будущем.
  • Предварительная аналитика рекомендует действия, которые вы можете предпринять, чтобы повлиять на эти результаты.

Прикладные методы статистики в Python

Представьте, что нам нужно провести некоторый анализ данных с количеством друзей для каждого члена нашего штата в работе. Количество друзей будет описано в списке Python, как показано ниже:

num_friends = [100, 49, 41, 40, 25, 100, 100, 100, 41, 41, 49, 59, 25, 25, 4, 4, 4, 4, 4, 4, 10, 10, 10, 10,
]

Мы отобразим num_friends в гистограмме с помощью matplotlib:

Увидеть гистограмму было бы

Центральные тенденции

  • значит

Мы хотели бы получить среднее количество друзей

def mean(x):
    return sum(x) / len(x)

Примените этот метод, чтобы получить значение количества друзей, таких как

35.791666666666664
  • медиана

Медиана - это простая мера центральной тенденции. Чтобы найти медиану, мы располагаем наблюдения в порядке от наименьшего к наибольшему значению. Если количество наблюдений нечетное, медиана является средним значением. Если количество наблюдений четное, медиана представляет собой среднее из двух средних значений.

Применение этого метода даст нам результат

25.0
  • квантиль

Обобщением медианы является квантиль, который представляет собой значение, меньшее, чем лежит определенный процентиль данных. (Медиана представляет собой значение, меньшее которого составляет 50% данных.)

def quantile(x, p):
    """returns the pth-percentile value in x"""
    p_index = int(p * len(x))
    return sorted(x)[p_index]

Применение метода квантиля с num_friends для процентиля 0,8 даст результат

59
  • режим (или наиболее распространенные значения)

Метод Apply Mode для num_friends вернет

[4]

Вывод

Изучение статистики помогает нам больше узнать об основах анализа данных или Data Science в целом. Я не останавливался на многих других статистических данных, таких как проверка гипотез, корреляция или оценка. Так что не стесняйтесь узнавать о них больше.

использованная литература

Наука о данных с нуля - Джоэл Грус