Статистика машинного обучения.

Часть 1 из 4.

Статистика является основой машинного обучения. В этой серии статей мы изучим и обсудим статистику, используемую в машинном обучении.

Эта часть будет проходить через:

Что такое статистика в машинном обучении?
Различные виды статистики.
Различные типы типов данных.
Мера центральной тенденции
Мера рассеивания
Население и выборка
Среднее значение генеральной совокупности/дисперсия генеральной совокупности против среднего значения выборки/дисперсии выборки

Что такое статистика?

Статистика — это наука, которая занимается методологиями сбора, обзора, анализа, визуализации, понимания и вывода из данных.

Различные типы статистики

Описательная статистика
Выведенный статистика

Описательная статистика:

Описательная статистика, также известная как сводная статистика, предназначена для обобщения, визуализации и анализа данных.
Гистограмма, столбчатая диаграмма, круговая диаграмма, блочная диаграмма.

Выводная статистика:

Логическая статистика относится к выборке данных и выводу данных о населении.
Цель логической статистики состоит в том, чтобы сделать выводы из выборки и обобщить их на совокупность.
Регрессионный анализ, проверка гипотез.

Различные типы типов данных

Числовые данные: дискретные данные, непрерывные данные.
Категорические данные: номинальные данные, порядковые данные.

Числовые данные

Дискретные данные. Когда значения в наборе данных являются счетными и могут принимать только определенные значения, это называется дискретными данными. Пример: - Количество человек в семье

Непрерывные данные: непрерывные данные могут принимать любое значение (в пределах диапазона). Пример :- Рост, Возраст людей

Категорические данные

Номинальные данные: обозначают ярлыки или категории (например, светлые волосы, каштановые волосы).

Порядковые данные: относятся к данным, которые можно классифицировать, а также ранжировать в соответствии с каким-либо порядком или иерархией (например, низкий доход, средний доход, высокий доход, ранг в классе).

Мера центральной тенденции

Среднее, медиана, мода.

Среднее. Среднее арифметическое заданных данных представляет собой сумму всех наблюдений, разделенную на количество наблюдений.

Медиана. Медиана — это среднее значение набора данных. Сначала расположите числа в числовом порядке, затем найдите среднее число. Если n(общее количество значений) является нечетным (7) числом, то (7 + 1)/2 = 4-е число будет медианой. Если n (общее количество значений) равно четному (8) числу, то (8 + 2)/2 = 5-е число будет медианой (мы также можем взять половину суммы двух средних чисел).

Mode .Mode – это наиболее распространенное значение в наборе данных.

Эффект асимметрии и использование центральной тенденции

Режим в основном используется для категориальных функций

Мера рассеивания

Дисперсия помогает понять распределение данных. Пример : Данные1 = 1,3,5 : среднее =3 . Данные2 = 1,2,6 : среднее значение =3 . В таком случае мера центральной тенденции (среднее значение) одинакова, но распределение не одинаково. Итак, как мы можем различить распределение обоих данных? Мера дисперсии поможет нам провести различие между ними.

Диапазон.Разница между самым маленьким и самым большим наблюдениями в выборке называется диапазоном. Хмакс — Хмин. Пример: 1, 3,5, 6, 7 => Диапазон = 7 -1= 6
Дисперсия. Другой лучший метод измерения дисперсии в наборе данных. Пример. На приведенном ниже рисунке показано, как далеко в среднем точка распределяется от среднего значения (x̄). Здесь (слева) дисперсия высока, потому что от среднего (x̄) точки распределены на большем расстоянии по сравнению с правой стороной, где расстояние немного меньше.

Стандартное отклонение. Квадратный корень из дисперсии известен как стандартное отклонение. Стандартное отклонение говорит нам о концентрации данных вокруг среднего значения набора данных. Если стандартное отклонение мало, данные небольшой разброс (т. е. большинство точек падают очень близко к среднему). Если стандартное отклонение = 0, разброса нет. Это происходит только тогда, когда все элементы данных имеют одинаковое значение.