Часть 1 из 4.
Статистика является основой машинного обучения. В этой серии статей мы изучим и обсудим статистику, используемую в машинном обучении.
Эта часть будет проходить через:
- Что такое статистика в машинном обучении?
- Различные виды статистики.
- Различные типы типов данных.
- Мера центральной тенденции
- Мера рассеивания
- Население и выборка
- Среднее значение генеральной совокупности/дисперсия генеральной совокупности против среднего значения выборки/дисперсии выборки
Что такое статистика?
Статистика — это наука, которая занимается методологиями сбора, обзора, анализа, визуализации, понимания и вывода из данных.
Различные типы статистики
- Описательная статистика
- Выведенный статистика
Описательная статистика:
- Описательная статистика, также известная как сводная статистика, предназначена для обобщения, визуализации и анализа данных.
- Гистограмма, столбчатая диаграмма, круговая диаграмма, блочная диаграмма.
Выводная статистика:
- Логическая статистика относится к выборке данных и выводу данных о населении.
- Цель логической статистики состоит в том, чтобы сделать выводы из выборки и обобщить их на совокупность.
- Регрессионный анализ, проверка гипотез.
Различные типы типов данных
- Числовые данные: дискретные данные, непрерывные данные.
- Категорические данные: номинальные данные, порядковые данные.
Числовые данные
Дискретные данные. Когда значения в наборе данных являются счетными и могут принимать только определенные значения, это называется дискретными данными. Пример: - Количество человек в семье
Непрерывные данные: непрерывные данные могут принимать любое значение (в пределах диапазона). Пример :- Рост, Возраст людей
Категорические данные
Номинальные данные: обозначают ярлыки или категории (например, светлые волосы, каштановые волосы).
Порядковые данные: относятся к данным, которые можно классифицировать, а также ранжировать в соответствии с каким-либо порядком или иерархией (например, низкий доход, средний доход, высокий доход, ранг в классе).
Мера центральной тенденции
- Среднее, медиана, мода.
Среднее. Среднее арифметическое заданных данных представляет собой сумму всех наблюдений, разделенную на количество наблюдений.
Медиана. Медиана — это среднее значение набора данных. Сначала расположите числа в числовом порядке, затем найдите среднее число. Если n(общее количество значений) является нечетным (7) числом, то (7 + 1)/2 = 4-е число будет медианой. Если n (общее количество значений) равно четному (8) числу, то (8 + 2)/2 = 5-е число будет медианой (мы также можем взять половину суммы двух средних чисел).
Mode .Mode – это наиболее распространенное значение в наборе данных.
Эффект асимметрии и использование центральной тенденции
Режим в основном используется для категориальных функций
Мера рассеивания
Дисперсия помогает понять распределение данных. Пример : Данные1 = 1,3,5 : среднее =3 . Данные2 = 1,2,6 : среднее значение =3 . В таком случае мера центральной тенденции (среднее значение) одинакова, но распределение не одинаково. Итак, как мы можем различить распределение обоих данных? Мера дисперсии поможет нам провести различие между ними.
- Диапазон.Разница между самым маленьким и самым большим наблюдениями в выборке называется диапазоном. Хмакс — Хмин. Пример: 1, 3,5, 6, 7 => Диапазон = 7 -1= 6
- Дисперсия. Другой лучший метод измерения дисперсии в наборе данных. Пример. На приведенном ниже рисунке показано, как далеко в среднем точка распределяется от среднего значения (x̄). Здесь (слева) дисперсия высока, потому что от среднего (x̄) точки распределены на большем расстоянии по сравнению с правой стороной, где расстояние немного меньше.
- Стандартное отклонение. Квадратный корень из дисперсии известен как стандартное отклонение. Стандартное отклонение говорит нам о концентрации данных вокруг среднего значения набора данных. Если стандартное отклонение мало, данные небольшой разброс (т. е. большинство точек падают очень близко к среднему). Если стандартное отклонение = 0, разброса нет. Это происходит только тогда, когда все элементы данных имеют одинаковое значение.
Население и выборка
- Население. Население — это вся группа, о которой вы хотите сделать выводы.
- Выборка: часть или часть интересующей нас совокупности.
Среднее значение генеральной совокупности/дисперсия генеральной совокупности против среднего значения выборки/дисперсии выборки
- Среднее значение генеральной совокупности и среднее значение выборки:
- Дисперсия генеральной совокупности по сравнению с дисперсией выборки:
Бонусные очки
Спасибо за прочтение статьи. Надеюсь, вам понравилась статья, и вы получили некоторые знания. Продолжай учиться :) .