Серия машинного обучения!

Здравствуйте, ребята, я надеюсь, вам понравилась моя первая статья Введение в машинное обучение. Сегодня я пишу эту статью с помощью моего друга Санкета Патела, который также работает со мной в области науки о данных. Я особенно благодарен sanket Patel за помощь в написании этой прекрасной статьи. Сегодня я обсуждаю данные и их тип. Я также обсуждаю некоторые вопросы, с которыми вы столкнулись или с которыми столкнетесь, понимая характер данных. Итак, я собираюсь чтобы обсудить этот момент в этой главе.

  1. Качественные и количественные данные
  2. Что такое переменная и типы данных
  3. Что такое параметрический и непараметрический тест?
  4. Что такое генеральная совокупность и выборка?
  5. Краткое руководство по данным

Определение данных

Форма единственного числа - это «данное», поэтому мы говорим, что «данное очень высокое».

«Данные» во множественном числе, поэтому мы говорим «данные доступны», но данные также являются набором фактов, поэтому «данные доступно »тоже хорошо.

Данные - это сбор или измерение, полученное из разных источников данных.

Единица данных - это одна сущность (например, физическое или юридическое лицо) в изучаемой совокупности, о которой собираются данные. Единица данных также называется единичной записью или записью.

Элемент данных - это характеристика (или атрибут) измеряемой или подсчитываемой единицы данных, например рост, страна рождения или доход. Элемент данных также называется переменной. потому что характеристики могут различаться между блоками данных и могут меняться со временем.

Наблюдение - это появление определенного элемента данных, который записан для единицы данных. Его также можно называть данными, что представляет собой единственную форму данных. Наблюдение может быть числовым или нечисловым (категориальным). Например, 173 - это числовое наблюдение элемента данных «рост (см)», тогда как «Австралия» - нечисловое (категориальное) наблюдение элемента данных «страна рождения».

Набор данных - это полный набор всех наблюдений.

1. Количественные и качественные данные

Количественный = Количество

Качественный = Качество

Количество количественных данных

Количественные данные могут быть дискретными или непрерывными:

  • Дискретные данные могут принимать только определенные значения (например, целые числа).
  • Непрерывные данные могут принимать любое значение (в пределах диапазона).

Качественные данные - это меры "типов", которые могут быть представлены именем, символом или цифровой код. Пример категориальных переменных (например, какого типа).

Данные, собранные о числовой переменной, всегда будут количественными, а данные, собранные о категориальной переменной, всегда будут качественными.

Например, если собираются данные о годовом доходе (количественный), данные о профессии (качественный) также могут быть собраны, чтобы получить более подробную информацию о среднем годовом доходе для каждого типа оккупация.

1.1 Как вы можете использовать количественные и качественные данные?

Частота:

Количество наблюдений (частота) для элемента данных (переменная) может отображаться как для количественных, так и для качественных данных.

На графиках ниже представлены количественные и качественные данные, чтобы показать частотное распределение данных.

Количественные данные

Качественные данные

Поскольку абсолютные частоты могут быть рассчитаны на основе количественных и качественных данных, также могут быть получены относительные частоты, такие как проценты, пропорции, скорости и отношения. Например, на графиках выше показано, что 4 человека (20%) работали менее 30 часов в неделю, а 6 человек (30%) - учителя.

2. Что такое переменная?

Переменная - это любые характеристики, число или количество, которые можно измерить или подсчитать.

A) Числовая переменная: значения, которые описывают измеримую величину в виде числа, например «сколько» или «сколько». Следовательно, числовые переменные являются количественными переменными.

  • Непрерывная переменная - это числовая переменная. Наблюдения могут принимать любое значение между определенным набором действительных чисел. Значение, присвоенное наблюдению для непрерывной переменной, может включать в себя настолько малые значения, насколько позволяет инструмент измерения. Примеры непрерывных переменных включают рост, время, возраст и температуру.
  • Дискретная переменная - это числовая переменная. Наблюдения могут принимать значение, основанное на подсчете из набора отдельных целых значений. Дискретная переменная не может принимать значение дроби между одним значением и следующим ближайшим значением. Примеры дискретных переменных включают количество зарегистрированных автомобилей, количество офисов и количество детей в семье, все из которых измеряются как целые единицы (т. Е. 1, 2, 3 машины).

Б) Категориальные переменные имеют значения, которые описывают «качество» или «характеристику» единицы данных, например, «какой тип» или «какая категория». Категориальные переменные относятся к взаимоисключающим (в одной категории или в другом) и исчерпывающие (включают все возможные варианты) категории . Следовательно, категориальные переменные являются качественными переменными и, как правило, представлены нечисловыми значениями.

Категориальные переменные могут быть далее описаны как порядковые или номинальные:

  • Порядковая переменная - это категориальная переменная. Наблюдения могут принимать значения, которые можно логически упорядочить или ранжировать. Категории, связанные с порядковыми переменными, могут иметь более высокий или более низкий рейтинг, чем другие, но не обязательно устанавливают числовую разницу между каждой категорией. Примеры порядковых категориальных переменных включают академические оценки (например, A, B, C), размер одежды (например, маленький, средний, большой, очень большой) и отношения (например, полностью согласен, согласен, не согласен, категорически не согласен).
  • Номинальная переменная - это категориальная переменная. Наблюдения могут принимать значение, которое невозможно организовать в логической последовательности. Примеры номинальных категориальных переменных включают пол, тип бизнеса, цвет глаз, религию и бренд.

3. Параметрические и непараметрические данные

А) Параметрический тест

параметрический тест - это проверка гипотезы, которая обеспечивает обобщение для утверждений о среднем значении родительской совокупности. t-тест на основе t-статистики Стьюдента, которая часто используется в этом отношении.

t-статистика основана на исходном предположении, что существует нормальное распределение переменной и среднее значение, которые известны или считаются известными. Дисперсия генеральной совокупности рассчитывается для выборки. Предполагается, что интересующие нас переменные в совокупности измеряются по интервальной шкале.

Б) Непараметрический тест

Непараметрический тест определяется как тест гипотез, который не основан на базовых предположениях, т. Е. не требует распределения населения. для обозначения конкретных параметров.

Тест в основном основан на различиях в медианах. Следовательно, он также известен как тест без распространения. Тест предполагает, что переменные измеряются на номинальном или порядковом уровне. Он используется, когда независимые переменные являются неметрическими.

C) Таксономия проверки гипотез

4. Что такое совокупность и выборка?

1. Население

Популяция - это любая полная группа, имеющая хотя бы одну общую характеристику. Популяции - это не просто люди. Население может состоять, помимо прочего, из людей, животных, предприятий, зданий, автомобилей, ферм, объектов или событий. популяция обозначает большую группу, состоящую из элементов, имеющих хотя бы один общий признак.

  1. Конечная популяция: когда количество элементов совокупности фиксировано и, таким образом, дает возможность пересчитать ее в целом, совокупность называется конечной.
  2. Бесконечное население: когда количество единиц в популяции неисчислимо, и поэтому невозможно наблюдать за всеми объектами вселенной, тогда популяция считается бесконечной.
  3. Существующее население. Население, состоящее из объектов, существующих в действительности, называется существующим населением.
  4. Гипотетическая популяция. Гипотетическая или воображаемая популяция - это гипотетическая популяция.

Примеры

  • Население всех рабочих, работающих на сахарном заводе.
  • Популяция мотоциклов, произведенных той или иной компанией.
  • Популяция комаров в городе.
  • Население налогоплательщиков Индии.

2. Образец

Выборка - это подмножество единиц в генеральной совокупности, выбранные для представления всех единиц в представляющей интерес генеральной совокупности. Это частичный подсчет, поскольку это подсчет от части численность населения.

Другими словами, респонденты, выбранные из совокупности, составляют «выборку», а процесс выбора респондентов известен как «выборка». Изучаемые единицы называются единицами выборки, а количество единиц в выборке называется размером выборки. .

5.Краткое руководство по данным

5.1 Типы данных
1. качественные (категориальные) данные
2. количественные (продолжающиеся) данные

5.2 Важный вопрос данных

В: как обрабатывать пропущенные значения в качественных и количественных данных?
В: какие методы используются для вменения пропущенных значений в качественные и количественные данные
В: что такое параметрические и неперматрические данные?
В: каковы идеальные условия для обоих типов данных, которые мы можем использовать в нашей науке о данных?

5.3 Данные с примером

1. Качественные данные имеют два класса - строка (объект) и обычно числовой, все строковые данные преобразуются в числовые на этапе обработки. Числовые категории качественных данных в двух классах

  1. номинальный: например, категории людей - мужчины и женщины (строка) - 0 и 1 (числовое номинальное) - 0 = мужчины / 1 = женщины в номинальных данных
    порядок между категориями отсутствует, поэтому он является номинальным, вы можете переключить 0/1 для соответствующих категорий
  2. порядковый номер, например кровяное давление: низкое, нормальное, высокое (строка) - (0,1,2) -0 = низкое / 1 = нормальное / 2 = высокий в порядковых данных существует порядок
    между категориями, поэтому он порядковый, вы не можете переключить 0/1/2 для соответствующих категорий
  3. бинарный - как в банке, вы неплательщик ссуды? - да / нет (строка) - (0,1) -0 = нет / 1 = да в двоичных данных

В: как преобразовать строковые категориальные данные в числовые?
В: влияет ли машинное обучение на категориальный дисбаланс?

2. Количественные данные, как правило, не имеют фиксированных границ, они имеют бесконечный диапазон с точки зрения контекста (проект по науке о данных), например Apple дает нам рекламные расходы и предыдущие проданные единицы и нацелены на прогнозирование проданных единиц в текущем году, поэтому оба являются количественными данными

В: какой тип количественных данных подходит для машинного обучения?
В: какой тест используется для проверки количественных данных?

3. Зачем нам нужны оба данных для машинного обучения?

1. Количественные данные: помогают машинному обучению установить логическую взаимосвязь контекстных данных
2. Качественные данные: поскольку количественные данные всегда лежит на предположениях и в статистике все реальные данные не соответствуют предположениям в 99% раз, поэтому стоит использовать качественные данные.

Примечание. Продолжение данных дает больше информации, чем категориальные (дискретные) данные

Ссылки:

  1. Www.abs.gov.au/websitedbs/a3121120.nsf/home/statistical+language
  2. Https://keydifferences.com/
  3. Https://www.mathsisfun.com/data/data.html
  4. Https://towardsdatascience.com/data-types-in-statistics-347e152e8bee