Статистика и вероятность для науки о данных, первая часть

Вероятность и статистика являются основой науки о данных. Теория вероятности чрезвычайно полезна для предсказания. Оценки и прогнозы составляют неотъемлемую часть науки о данных. С помощью статистических методов мы создаем оценки для предварительного анализа. Таким образом, статистические методы в основном зависят от теории вероятностей. Статистика и вероятность зависят от данных.

Данные

Данные — это совокупность имеющейся у нас информации (наблюдений) об удивительных фактах и статистических данных, собранных вместе для анализа.

Данные – набор доказательств (слов, чисел, наблюдений, измерений и т. д.), преобразованных в форму, которую могут обрабатывать компьютеры.

Почему возникают проблемы с данными?

· Помогает лучше понять данные, определяя ассоциации, которые могут существовать между двумя переменными.

· Помогает предсказать возможность или прогноз на основе данных до тренда.

· Помогает в формировании шаблонов, которые могут существовать между данными.

· Помогает в обнаружении мошенничества или жульничества путем отображения аномалий в данных.

Сегодня данные имеют значение для группировки, поскольку мы можем сделать из них важную информацию. Теперь давайте рассмотрим, как характеризуются данные. Данные могут быть двух (2) типов: категориальные (пример — семейное положение, регионы, класс занятий, пол) и числовые (пример — возраст и баланс, кредитный рейтинг, возраст, месяцы пребывания в должности)

Примечание. Категориальные данные можно визуализировать с помощью диаграммы Парето, круговой диаграммы, гистограммы, числовые данные можно визуализировать с помощью гистограммы, линейного графика, гистограммы, диаграммы рассеяния.

Описательная статистика

Описательная статистика — это абстрактная статистика, которая обобщает характеристики или количественно описывает набор информации. Это помогает нам лучше осмысливать наши данные. Он используется для объяснения качества данных.

Качественные и количественные данные очень похожи на приведенные выше категориальные и числовые данные.

Номинальный: данные на этом уровне измеряются с использованием имен, меток или качеств. Пример: — Почтовый индекс, пол, торговая марка.

По порядку: данные можно упорядочивать или ранжировать, а также сравнивать. Пример: — Дата, Звездные отзывы, Оценки, Позиция в гонке.

Интервал: данные на этом уровне могут быть хорошо упорядочены, поскольку они находятся в диапазоне значений, и можно вычислить значительные различия между точками данных. Пример: — Температура в градусах Цельсия, Год рождения.

Отношение: данные на этом уровне аналогичны интервальному уровню с новым свойством встроенного нуля. По этим точкам данных можно выполнить численный расчет. Пример: — Рост, Возраст, Вес

Население или образцы данных

Перед выполнением любого исследования данных мы должны решить, являются ли данные, с которыми мы имеем дело, совокупностью или выборкой.

Население: совокупность всех элементов (N), включающая все и каждую единицу нашего исследования. Его невозможно определить, а мера качества, такая как среднее значение, мода, называется параметром.

Выборка: —подразделение населения (n), включающее лишь несколько единиц населения. Он выбирается случайным образом, и мера качества или класса называется статистикой.

Теперь, прежде чем смотреть на распределения данных. Давайте взглянем на меры данных.

Показатели центральной тенденции

Вычисление центральной тенденции — это отдельное значение, которое пытается объяснить набор данных, определяя центральное положение или точку в этом наборе данных. Таким образом, метод центральной тенденции иногда называют мерами центрального расположения. Они также классифицируются как сводная статистика.

Среднее. Среднее значение равно сумме всех значений в наборе данных, деленной на количество значений в наборе данных, т. е. расчетное среднее значение. Он восприимчив к выбросам, когда добавляются нечетные значения, он искажается, т. е. отклоняется от классического центрального значения.

Медиана. Медиана — это среднее значение для набора данных, упорядоченного по порядку величины. Медиана является лучшей заменой среднего значения, поскольку она менее искусственна из-за выбросов и асимметрии данных. Среднее значение намного ближе, чем репрезентативное центральное значение.

Мода: —мода — это наиболее часто встречающееся значение в наборе данных. Режим может, поэтому иногда считается, что режим является наиболее популярным выбором.

Например, в наборе данных, содержащем значения (5,8,6,4,7,1,2,4,5,7,5,8,2,5,6,8).

Показатели асимметрии

Асимметрия: — асимметрия – это неравномерность статистического распределения, при которой кривая кажется деформированной или смещенной влево или вправо. Асимметрия указывает, являются ли данные сильными с одной стороны.

Положительная асимметрия: -Положительная (+Ve) асимметрия — это когда мода›медиана›среднее. Хвост наклонен вправо. Выбросы искажены вправо.

Отрицательная асимметрия: —отрицательная (-Ve) асимметрия — это когда средняя‹медианная‹мода. Хвост наклонен влево. Выбросы смещены влево.

Асимметрия жизненно важна, поскольку она говорит нам о том, где распределяются данные.

Показатели изменчивости (дисперсии)

Мера центральной тенденции дает единственное значение, которое представляет все значение; однако центральная тенденция не может полностью объяснить наблюдение. Мера дисперсии помогает нам изучать изменчивость элементов, то есть разброс данных.

Помните: — данные совокупности содержат N точек данных, а данные выборки содержат (n-1) точек данных. (n-1) называется поправкой Бесселя и используется для уменьшения погрешности.

Диапазон. Разность или несоответствие между наибольшим и наименьшим значением данных называется диапазоном распределения. Диапазон не учитывает все значения ряда, т. е. он принимает только большие элементы, а средние элементы не измеряются значимыми. Пример: — Для (5,8,6,4,7,1,2,4,5,7,5,8,2,,5,6,8) диапазон равен 7, то есть (8–1).

Дисперсия.Дисперсия измеряет, насколько далеко находится сумма квадратов расстояний от каждой точки до среднего значения, которое является разбросом вокруг среднего значения.

Дисперсия – это среднее квадратов всех отклонений.

Примечание. -Единицы значений и дисперсия не эквивалентны, поэтому мы используем другую меру вариативности.

Стандартное отклонение: —Посколькудисперсия страдает от единичного несоответствия, используется стандартное отклонение. Стандартное отклонение представляет собой квадратный корень из дисперсии. Это говорит нам о применении данных вокруг среднего значения набора данных.

Коэффициент вариации (CV): — также называется относительным стандартным отклонением. Это отношение стандартного отклонения к среднему значению набора данных.

Изменчивость единственного набора данных представляет собой стандартное отклонение. Принимая во внимание, что коэффициент дисперсии можно использовать для сравнения двух наборов данных.

Показатели квартилей-

Квартили улучшаются при понимании каждой точки данных.

Показатели отношений: -

Меры отношения используются, чтобы найти связь между двумя переменными.

Ковариация: —Ковариация — это мера взаимосвязи между изменчивостью двух переменных, которая измеряет степень изменения переменных, когда изменяется одна переменная, будет ли такое же/подобное изменение в другая переменная. Ковариация не дает эффективной информации об отношении между двумя переменными, поскольку она не нормализована.

Корреляция. Корреляция дает лучшее понимание ковариации. Это нормированная ковариация. То, как переменные коррелируют друг с другом, измеряется Корреляция. Он называется коэффициентом корреляции Пирсона.

Значение корреляции от +1 до -1. -1 (минус один) указывает на отрицательную корреляцию, т. е. с увеличением 1 независимой переменной происходит уменьшение другой зависимой переменной. 1 (один) указывает на положительную корреляцию, т. е. с увеличением 1 независимой переменной происходит увеличение другой зависимой переменной. 0 (ноль) указывает, что переменные не зависят от каждого из первых.

Лучший курс по науке о данных:

Лучший профессиональный сертификат в области науки о данных | Handson
Обзор курса Эта программа Data Science включает в себя как тематическое исследование, так и завершающий проект. Мы покрываем важные…www.handsonsystem.com

Лучший курс по аналитике данных

Лучший курс SAS в Индии | Handson
Обзор курса SAS — мировой лидер в области аналитики. Благодаря инновационному программному обеспечению и услугам SAS расширяет возможности и…www.handsonsystem.com

Другие блоги:

"Связь"

https://www.handsonsystem.com/blogs

Статистика и вероятность для науки о данных, первая часть

Вопросы по теме