Часть 1 из 4.

Статистика является основой машинного обучения. В этой серии статей мы изучим и обсудим статистику, используемую в машинном обучении.

Эта часть будет проходить через:

  • Что такое статистика в машинном обучении?
  • Различные виды статистики.
  • Различные типы типов данных.
  • Мера центральной тенденции
  • Мера рассеивания
  • Население и выборка
  • Среднее значение генеральной совокупности/дисперсия генеральной совокупности против среднего значения выборки/дисперсии выборки

Что такое статистика?

Статистика — это наука, которая занимается методологиями сбора, обзора, анализа, визуализации, понимания и вывода из данных.

Различные типы статистики

  • Описательная статистика
  • Выведенный статистика

Описательная статистика:

  • Описательная статистика, также известная как сводная статистика, предназначена для обобщения, визуализации и анализа данных.
  • Гистограмма, столбчатая диаграмма, круговая диаграмма, блочная диаграмма.

Выводная статистика:

  • Логическая статистика относится к выборке данных и выводу данных о населении.
  • Цель логической статистики состоит в том, чтобы сделать выводы из выборки и обобщить их на совокупность.
  • Регрессионный анализ, проверка гипотез.

Различные типы типов данных

  • Числовые данные: дискретные данные, непрерывные данные.
  • Категорические данные: номинальные данные, порядковые данные.

Числовые данные

Дискретные данные. Когда значения в наборе данных являются счетными и могут принимать только определенные значения, это называется дискретными данными. Пример: - Количество человек в семье

Непрерывные данные: непрерывные данные могут принимать любое значение (в пределах диапазона). Пример :- Рост, Возраст людей

Категорические данные

Номинальные данные: обозначают ярлыки или категории (например, светлые волосы, каштановые волосы).

Порядковые данные: относятся к данным, которые можно классифицировать, а также ранжировать в соответствии с каким-либо порядком или иерархией (например, низкий доход, средний доход, высокий доход, ранг в классе).

Мера центральной тенденции

  • Среднее, медиана, мода.

Среднее. Среднее арифметическое заданных данных представляет собой сумму всех наблюдений, разделенную на количество наблюдений.

Медиана. Медиана — это среднее значение набора данных. Сначала расположите числа в числовом порядке, затем найдите среднее число. Если n(общее количество значений) является нечетным (7) числом, то (7 + 1)/2 = 4-е число будет медианой. Если n (общее количество значений) равно четному (8) числу, то (8 + 2)/2 = 5-е число будет медианой (мы также можем взять половину суммы двух средних чисел).

Mode .Mode – это наиболее распространенное значение в наборе данных.

Эффект асимметрии и использование центральной тенденции

Режим в основном используется для категориальных функций

Мера рассеивания

Дисперсия помогает понять распределение данных. Пример : Данные1 = 1,3,5 : среднее =3 . Данные2 = 1,2,6 : среднее значение =3 . В таком случае мера центральной тенденции (среднее значение) одинакова, но распределение не одинаково. Итак, как мы можем различить распределение обоих данных? Мера дисперсии поможет нам провести различие между ними.

  • Диапазон.Разница между самым маленьким и самым большим наблюдениями в выборке называется диапазоном. Хмакс — Хмин. Пример: 1, 3,5, 6, 7 => Диапазон = 7 -1= 6
  • Дисперсия. Другой лучший метод измерения дисперсии в наборе данных. Пример. На приведенном ниже рисунке показано, как далеко в среднем точка распределяется от среднего значения (x̄). Здесь (слева) дисперсия высока, потому что от среднего (x̄) точки распределены на большем расстоянии по сравнению с правой стороной, где расстояние немного меньше.

  • Стандартное отклонение. Квадратный корень из дисперсии известен как стандартное отклонение. Стандартное отклонение говорит нам о концентрации данных вокруг среднего значения набора данных. Если стандартное отклонение мало, данные небольшой разброс (т. е. большинство точек падают очень близко к среднему). Если стандартное отклонение = 0, разброса нет. Это происходит только тогда, когда все элементы данных имеют одинаковое значение.

Население и выборка

  • Население. Население — это вся группа, о которой вы хотите сделать выводы.
  • Выборка: часть или часть интересующей нас совокупности.

Среднее значение генеральной совокупности/дисперсия генеральной совокупности против среднего значения выборки/дисперсии выборки

  • Среднее значение генеральной совокупности и среднее значение выборки:

  • Дисперсия генеральной совокупности по сравнению с дисперсией выборки:

Бонусные очки

Спасибо за прочтение статьи. Надеюсь, вам понравилась статья, и вы получили некоторые знания. Продолжай учиться :) .