Аналитика данных
Введение в статистику в Python
Статистика жизненно важна в аналитике данных. Мы рассмотрим некоторые основы статистики и способы ее применения на языке программирования Python.
Что такое статистика
Статистика - это дисциплина, которая касается сбора, организации, анализа, интерпретации и представления данных. При применении статистики к научной, промышленной или социальной проблеме принято начинать со статистической совокупности или статистической модели, которую необходимо изучить.
Центральные тенденции:
является центральным или типичным значением для распределения вероятностей. Его также можно назвать центром или местом распространения. В просторечии меры центральной тенденции часто называют средними.
Дисперсия:
- это степень растяжения или сжатия дистрибутива. Распространенными примерами мер статистической дисперсии являются дисперсия, стандартное отклонение и межквартильный размах.
Корреляция:
или зависимость - это любая статистическая связь, причинная или нет, между двумя случайными величинами или двумерными данными. В самом широком смысле корреляция - это любая статистическая ассоциация, хотя обычно она относится к степени линейной связи пары переменных.
Парадокс Симпсона:
который известен под несколькими названиями, представляет собой явление вероятности и статистики, в котором тренд появляется в нескольких различных группах данных, но исчезает или обращается вспять при объединении этих групп.
Что такое аналитика данных на высоком уровне
Решения Data Analytics предлагают удобный способ использования бизнес-данных. Но количество решений на рынке может быть устрашающим, и многие из них могут показаться охватывающими другую категорию аналитики. Как организации могут во всем этом разобраться? Начните с понимания различных типов аналитики, включая описательную, диагностическую, прогнозную и предписывающую аналитику.
- Описательная аналитика расскажет, что происходило в прошлом.
- Диагностическая аналитика помогает понять, почему что-то происходило в прошлом.
- Predictive Analytics предсказывает, что, скорее всего, произойдет в будущем.
- Предварительная аналитика рекомендует действия, которые вы можете предпринять, чтобы повлиять на эти результаты.
Прикладные методы статистики в Python
Представьте, что нам нужно провести некоторый анализ данных с количеством друзей для каждого члена нашего штата в работе. Количество друзей будет описано в списке Python, как показано ниже:
num_friends = [100, 49, 41, 40, 25, 100, 100, 100, 41, 41, 49, 59, 25, 25, 4, 4, 4, 4, 4, 4, 10, 10, 10, 10, ]
Мы отобразим num_friends в гистограмме с помощью matplotlib:
Увидеть гистограмму было бы
Центральные тенденции
- значит
Мы хотели бы получить среднее количество друзей
def mean(x): return sum(x) / len(x)
Примените этот метод, чтобы получить значение количества друзей, таких как
35.791666666666664
- медиана
Медиана - это простая мера центральной тенденции. Чтобы найти медиану, мы располагаем наблюдения в порядке от наименьшего к наибольшему значению. Если количество наблюдений нечетное, медиана является средним значением. Если количество наблюдений четное, медиана представляет собой среднее из двух средних значений.
Применение этого метода даст нам результат
25.0
- квантиль
Обобщением медианы является квантиль, который представляет собой значение, меньшее, чем лежит определенный процентиль данных. (Медиана представляет собой значение, меньшее которого составляет 50% данных.)
def quantile(x, p): """returns the pth-percentile value in x""" p_index = int(p * len(x)) return sorted(x)[p_index]
Применение метода квантиля с num_friends для процентиля 0,8 даст результат
59
- режим (или наиболее распространенные значения)
Метод Apply Mode для num_friends вернет
[4]
Вывод
Изучение статистики помогает нам больше узнать об основах анализа данных или Data Science в целом. Я не останавливался на многих других статистических данных, таких как проверка гипотез, корреляция или оценка. Так что не стесняйтесь узнавать о них больше.
использованная литература
Наука о данных с нуля - Джоэл Грус
Статистика
Статистика - это дисциплина, которая касается сбора, организации, анализа, интерпретации и представления… Распространение en.wikipedia.org