Введение в статистику

Сфера статистики - это наука об обучении на основе данных. Статистические знания помогут вам использовать правильные методы для сбора данных, провести правильный анализ и эффективно представить результаты. Статистика - это важнейший процесс, определяющий то, как мы делаем открытия в науке, принимаем решения на основе данных и делаем прогнозы. Статистика позволяет гораздо глубже разобраться в предмете.

Чтобы стать успешным специалистом по данным, вы должны знать наши основы. Математика и статистика - это строительные блоки алгоритмов машинного обучения. Важно знать методы, лежащие в основе различных алгоритмов машинного обучения, чтобы знать, как и когда их использовать. Возникает вопрос, что такое статистика?

«Статистика - это математическая наука о сборе, анализе, интерпретации и представлении данных».

Зачем изучать статистику?

Одна из центральных концепций науки о данных - получение информации из данных. Статистика - отличный инструмент для получения такой информации. Статистика - это разновидность математики, в которой используются формулы, но это не должно быть так страшно, даже если вы никогда раньше с ней не сталкивались.

Машинное обучение пришло из статистики. Все алгоритмы и модели, используемые в машинном обучении, основаны на так называемом статистическом обучении. Знание некоторых базовых статистических данных чрезвычайно полезно независимо от того, глубоко ли вы разбираетесь в алгоритмах машинного обучения или просто следите за последними исследованиями в области машинного обучения.

Введение в типы данных

Хорошее понимание различных типов данных, также называемых шкалами измерений, является важной предпосылкой для выполнения исследовательского анализа данных (EDA), поскольку вы можете использовать определенные статистические измерения только для определенных типов данных.

Вам также необходимо знать, с каким типом данных вы имеете дело, чтобы выбрать правильный метод визуализации. Думайте о типах данных как о способе категоризации различных типов переменных. Мы обсудим основные типы данных и рассмотрим пример для каждого.

Качественные и количественные данные

Различие между качественными и количественными данными - это наиболее фундаментальный способ разделения типов данных. Можно ли объективно измерить эту характеристику с помощью чисел или нет?

1) Качественный

Информация представляет собой характеристики, которые вы не измеряете числами. Вместо этого наблюдения попадают в счетное число групп. Этот тип переменных может собирать информацию, которую нелегко измерить и которая может быть субъективной. Вкус, цвет автомобиля, архитектурный стиль и семейное положение - все это качественные данные. Аналитики также называют это категориальными данными.

i) Номинальные данные

Номинальные значения представляют собой дискретные единицы и используются для обозначения переменных, не имеющих количественного значения. Просто думайте о них как о ярлыках. Обратите внимание на номинальные данные, которые не имеют порядка. Следовательно, если вы измените порядок его значений, значение не изменится. Ниже вы можете увидеть два примера номинальных характеристик:

Методы визуализации. Для визуализации номинальных данных вы можете использовать круговую диаграмму или гистограмму.

В Data Science вы можете использовать быстрое кодирование для преобразования номинальных данных в числовую функцию.

ii) Порядковые данные

Порядковые комбинации числовых и категориальных данных. Данные делятся на категории, но числа, помещенные в категории, имеют значение. Например, оценка ресторана по шкале от 0 (низшая) до 4 (высшая) дает порядковые данные. Порядковые данные часто рассматриваются как категориальные, где группы упорядочиваются при построении графиков и диаграмм. Однако, в отличие от категориальных данных, числа имеют математическое значение. Таким образом, это почти то же самое, что и номинальные данные, за исключением того, что имеет значение порядок. Вы можете увидеть пример ниже:

Порядковые шкалы обычно используются для измерения нечисловых характеристик, таких как счастье, удовлетворенность клиентов, ранг учащихся в классе, уровень образования и т. д.

Поэтому вы можете суммировать свои порядковые данные с помощью частот, пропорций, процентов. И вы можете визуализировать это с помощью круговых и гистограмм. Кроме того, вы можете использовать процентили, медиану, режим и межквартильный размах для обобщения ваших данных.

Помимо порядковых и номинальных значений существует специальный тип категориальных данных, называемый двоичными.

Типы двоичных данных имеют только два значения - да или нет. Это может быть представлено по-разному, например «Истина» и «Ложь» или 1 и 0. Двоичные данные широко используются для классификации моделей машинного обучения. Примеры двоичных переменных могут включать, прекратил ли человек свою подписку или нет, купил ли человек автомобиль или нет.

2) Количественный:

Информация записывается в виде чисел и представляет собой объективное измерение или подсчет. Температура, вес и количество транзакций - все это количественные данные. Аналитики также называют этот тип числовыми данными.

i) Дискретные данные

Дискретные количественные данные - это подсчет наличия характеристики, результата, элемента или действия. Эти меры нельзя целенаправленно разделить на более мелкие части. Например, одна семья может иметь 1 или 2 машины, но не может иметь 1.6. Существует конечное число возможных значений, которые вы можете записать для наблюдения.

С помощью дискретных переменных вы можете рассчитать и оценить частоту появления или сводку подсчета, например среднее значение, сумму и стандартное отклонение. Например, в 2014 году у домохозяйств в США было в среднем 2,11 автомобиля.

Гистограммы - это стандартный способ графического отображения дискретных переменных. Каждая полоса представляет собой отдельное значение, а высота представляет ее долю во всем образце.

ii) Непрерывные данные

Непрерывные переменные могут принимать практически любое числовое значение и могут быть осмысленно разделены на меньшие приращения, включая дробные и десятичные значения. Вы часто измеряете непрерывную переменную по шкале. Например, когда вы измеряете рост, вес и температуру, у вас есть непрерывные данные.

Например, средний рост в Индии составляет 5 футов 9 дюймов для мужчин и 5 футов 4 дюймов для женщин.

В непрерывных данных есть 2 типа

а) Интервальные данные

Значения интервалов представляют собой упорядоченные единицы, которые имеют одинаковую разницу. Поэтому мы говорим об интервальных данных, когда у нас есть переменная, содержащая упорядоченные числовые значения, и где мы знаем точные различия между значениями. Примером может служить функция, которая содержит температуру данного места, как вы можете видеть ниже:

Проблема с данными значений интервалов в том, что они не имеют «истинного нуля».

б) Данные о соотношении

Значения коэффициента также являются заказанными единицами, имеющими одинаковую разницу. Значения отношения такие же, как значения интервалов, с той разницей, что они имеют абсолютный ноль. Хорошие примеры - рост, вес, длина и т. Д.

Когда вы имеете дело с непрерывными данными, вы можете использовать большинство методов для описания ваших данных. Вы можете суммировать свои данные с помощью процентилей, медианы, межквартильного размаха, среднего значения, режима, стандартного отклонения и диапазона.

Методы визуализации:

Чтобы визуализировать непрерывные данные, вы можете использовать гистограмму или коробчатую диаграмму. С помощью гистограммы вы можете проверить центральную тенденцию, изменчивость, модальность и эксцесс распределения. Обратите внимание, что гистограмма не может показать вам, есть ли у вас выбросы. Вот почему мы также используем коробчатые диаграммы.

Резюме

В этом посте вы узнали о различных типах данных, которые используются в статистике. Вы узнали разницу между дискретными и непрерывными данными и узнали, что такое номинальная, порядковая, двоичная, интервальная и пропорциональная шкалы измерения. Кроме того, теперь вы знаете, какие статистические измерения для какого типа данных можно использовать и какие методы визуализации являются правильными. Вы также узнали, какими методами можно преобразовать категориальные переменные в числовые. Это позволяет вам создать большую часть исследовательского анализа для данного набора данных.