В области науки о данных в целом важно понимать различные типы данных по нескольким причинам. Не только потому, что тип данных поможет определить метод очистки и обработки этих данных, но и знание того, являются ли данные неструктурированными или, возможно, количественными, также может многое рассказать вам об измеряемом явлении реального мира.

Глядя на структурированные данные, мы поняли, что каждый столбец (функция) может быть одним из следующих четырех уровней:

  • Номинал.
  • Порядковый.
  • Интервал.
  • Соотношение.

Когда мы объясним вам каждый элемент этого списка, вы увидите структуру данных и варианты столбцов, каждый элемент этого списка поставляется с практическим руководством по его обработке и используемым для этого методам, но прежде чем мы начнем объяснять эти методы , мы введем небольшое статистическое определение, которое является измерением центра.

Подсказка: это продолжающийся книжный проект о Машинном обучении, вы можете поддержать меня, купив его.

Еще раз здравствуйте в одной из статей, в которой я рассказываю о некоторых интересных концепциях данных и машинного обучения. Если вы меня не знаете, я Хишам, и вы можете проверить мой профиль, чтобы узнать больше (не хочу тратить свое время).

Предыдущая статья в списке:

  1. Data 4 ML (Часть 1): Введение в конвейер данных.
  2. Данные 4 ML (Часть 2): Определение данных.

Измерение центра

Мера центральной тенденции (мера центра) — это значение, которое пытается описать набор данных, определяя центральное положение набора данных (как представитель «типичного» значения в наборе). данные стремятся к этому, и для каждого уровня данных изменяется мера центральной техники. Итак, давайте начнем объяснять эти уровни.

Примечание. Иногда меру центра элемента называют точкой баланса этого элемента.

Номинальный уровень

Начнем с самого простого для понимания, номинального уровня, который состоит из данных, описанных исключительно по имени или категории. Номинальные шкалы можно было бы просто назвать «метками». Основные примеры включают пол, национальность или вид. Они не описываются числами и поэтому являются качественными. Ниже приведены некоторые примеры:

Ваш пол находится на номинальном уровне данных. Вы либо мужчина, либо женщина.

Ответ на вопрос «Какой у тебя цвет волос?» также является номинальным, где ответ может быть «Коричневый, Черный, Блонд, Серый или Другой».

Математические операции разрешены для номинального

Мы не можем выполнять математические операции на номинальном уровне данных, за исключением базовых функций равенства и множественной принадлежности, как показано в следующих двух примерах:

Быть специалистом по данным — это то же самое, что работать в технологической отрасли, но не наоборот.

Фигура, описанная как квадрат, подпадает под описание прямоугольника, но не наоборот.

Примечание: подтип номинальной шкалы только с двумя категориями (например, мужской/женский) называется «дихотомическим».

Меры центра для номинального

Чтобы найти точку баланса номинальных данных, мы обычно обращаемся к режиму.

Мода определяется как наиболее часто встречающееся число в наборе данных. Этот режим наиболее полезен в ситуациях, связанных с категориальными (качественными) данными, измеряемыми на номинальном уровне.

Например, рассмотрим, что мы собрали всех учеников в определенной школе и указали там пол, будь то мужчина или женщина, следующим образом:

мужчина, женщина, мужчина, мужчина, женщина, мужчина, женщина, женщина, мужчина, женщина, мужчина.

Режим здесь мужской, где, если вы подсчитаете значения, вы обнаружите, что есть 6 мужчин и 5 женщин.

Примечание. Меры центра, такие как среднее значение и медиана, не имеют смысла на этом уровне, поскольку мы не можем упорядочить наблюдения или даже сложить их вместе.

Что значит быть типом номинального уровня

Данные на номинальном уровне в основном носят категоричный характер, как мы видели в последнем примере мужского/женского пола. Потому что обычно мы можем использовать только слова для описания данных.

Хотя данные на номинальном уровне, безусловно, могут быть полезными, мы должны быть осторожны с тем, какие выводы мы можем извлечь из них. Имея только моду в качестве основной меры центра, мы не можем делать выводы о среднем наблюдении. Это понятие не существует на этом уровне. Только на следующем уровне мы можем начать выполнять настоящую математику над нашими наблюдениями.

Порядковый уровень

Номинальный уровень не такой гибкий — мы не можем использовать большую часть математических операций над его наблюдениями — из-за того, что мы не можем упорядочить его наблюдения каким-либо естественным образом.

Таким образом, мы можем сказать, что данные, которые могут быть упорядочены или имеют ранг, относятся к категории нижнего порядкового уровня, хотя порядковый уровень дает нам ранговый порядок или возможность размещать одно наблюдение перед другим; однако он не дает нам относительных различий между наблюдениями, а это означает, что, хотя мы можем упорядочивать наблюдения от первого до последнего, мы не можем выполнять математические операции, такие как сложение или вычитание наблюдений, чтобы получить какое-либо реальное значение.

Примеры того, чтобы быть ординалом

Каждая шкала представляет собой добавочный уровень измерения, то есть каждая шкала выполняет функцию предыдущей шкалы и всех шкал опросных вопросов, таких как Лайкерта, семантического дифференциала, дихотомии и т. д.

Например, вопрос семантической дифференциальной шкалы, такой как: Насколько вы удовлетворены нашими услугами? и ответ один из следующих.

  • Очень не доволен — 1
  • Неудовлетворенный — 2
  • Нейтральный — 3
  • Доволен — 4
  • Очень доволен — 5

Как видите, порядок переменных важен, как и их маркировка. Очень неудовлетворенный всегда будет хуже, чем неудовлетворенный, а удовлетворенный будет хуже, чем очень довольный.

Примечание. На порядковом уровне нельзя рассчитать расстояние между переменными. Качества описания указывают на теговые свойства, аналогичные номинальной шкале, кроме того, порядковая шкала также имеет взаимное расположение переменных. Начало этой шкалы отсутствует, в связи с чем нет фиксированного начала или «истинного нуля».

На что похожи данные на порядковом уровне

Как мы сказали в данных номинального уровня, мы можем видеть то же самое здесь. Порядковый уровень в основном носит категориальный характер, как мы видели в последнем примере удовлетворенный/естественный/неудовлетворенный. Потому что обычно мы можем использовать слова для описания порядка данных в процессе.

Хотя данные на порядковом уровне, безусловно, могут быть полезны, мы должны быть осторожны с тем, какие выводы мы можем извлечь из них, как вы знаете, порядок имеет значение. Таким образом, выбор неправильного измерения техники центра может повлиять на ваши результаты и привести к тому, что все пойдет не так. Это понятие не существует на этом уровне. Только на следующем уровне мы можем начать выполнять настоящую математику над нашими наблюдениями.

Математические операции, разрешенные для порядкового номера

На порядковом уровне мы можем выполнять больше математических операций с данными, чем на номинальном уровне данных. Мы наследуем всю математику от номинального уровня (равенство и членство во множестве), а также можем добавить следующее в список операций, разрешенных на порядковом уровне:

  • Заказ
  • Сравнение

Упорядочивание относится к естественному порядку, предоставляемому нам данными; однако иногда это может быть сложно понять. Например, если вы создаете механизм рекомендаций, вы можете рассмотреть возможность заказа предметов с использованием каждого ранга предмета, чтобы более высокий ранг был первым для пользователя, или вы можете подумать о сортировке этих предметов по их стоимости или материалам и так далее. Это может изменить порядок данных, но пока мы последовательны в том, что определяет порядок, не имеет значения, что его определяет.

Сравнения — еще одна новая операция, разрешенная на порядковом уровне. На порядковом уровне не имеет смысла говорить, что мужчины лучше женщин или наоборот. На порядковом уровне мы можем проводить эти сравнения. Например, возвращаясь к примеру вопроса выше, мы можем говорить о том, что пометка «Неудовлетворительно» в опросе хуже, чем пометка «Нейтрально».

Меры центра для порядкового номера

На этом уровне медиана является подходящим способом определения центра данных. Однако среднее было бы невозможно, потому что на этом уровне деление не допускается. Но мы можем использовать режим так же, как и на номинальном уровне.

Возьмем небольшой пример, чтобы уточнить использование медианы:

Представьте, что мы провели опрос с использованием вопроса в разделе примеров выше, вы увидите следующие результаты:

5, 2, 5, 2, 4, 1, 2, 3, 1, 5, 4, 3, 4, 5, 3, 2, 
5, 3, 2, 1, 4, 5, 3, 4, 4, 4, 5, 4, 3, 2, 4, 5, 
4, 2, 1, 4, 5, 4, 3, 2, 1

Большинство людей могут возразить, что среднее значение этих оценок вполне подойдет. Причина того, что среднее значение не будет таким математически жизнеспособным, заключается в том, что если мы сложим два балла, скажем, четыре балла минус один балл, разница между ними на самом деле ничего не значит, и если вы разделите на то, скажем, два результат будет вне этих масштабных представлений. Если сложение/вычитание между оценками не имеет смысла, среднее значение также не будет иметь смысла.

Итак, давайте воспользуемся Python для вычисления среднего значения и медианы, чтобы увидеть влияние наблюдения на обе эти функции. Мы также рекомендуем использовать пакет numpy.

Как вы можете видеть в приведенном выше примере, использование медианы даст результат 4, и это существует в наблюдении, поэтому мы можем использовать его в качестве центра этих наблюдений, в то время как среднее значение выводит 3,33, и это вне масштаба наблюдения данных, а не существуют по наблюдениям — , и поэтому мы не можем использовать среднее значение на данных порядкового уровня.

Быстрый обзор и проверка

До сих пор мы представили вам два уровня данных из четырех:

  • Номинальный уровень.
  • Порядковый уровень.

На номинальном уровне мы имеем дело с данными, обычно описываемыми с помощью словаря, или вы можете сказать, что они просто названы, но иногда и с числами, без порядка и с небольшим использованием математики (равенство и членство во множестве). На порядковом уровне у нас есть данные, которые могут быть описаны числами, а также имеют «естественный» порядок, позволяющий нам ставить одно перед другим, и вы можете использовать для них сравнения и сортировку.

Интервальный уровень

Интервальный уровень определяется как числовая шкала, где известен порядок переменных, а также разница между этими переменными. Переменные, которые имеют знакомые, постоянные и вычислимые различия, классифицируются с использованием шкалы интервалов. Также легко запомнить основную роль этой шкалы: «Интервал» указывает расстояние между двумя объектами, что и помогает достичь шкала интервалов.

Интервальная шкала содержит все свойства порядковой шкалы, кроме того, предлагает вычисление разницы между переменными. Основной характеристикой этой шкалы является равноудаленная разница между объектами.

Примеры данных интервального уровня

Температура — отличный пример данных на уровне интервалов. Если в одной стране 100 градусов по Фаренгейту, а в другой 80 градусов по Фаренгейту, то в первой стране на 20 градусов теплее, чем во второй. Этот простой пример позволяет гораздо больше манипуляций на этом уровне, чем предыдущие примеры.

80 градусов всегда выше, чем 50 градусов, и разница между этими двумя температурами такая же, как разница между 70 градусами и 40 градусами.

Кроме того, значение 0 является произвольным, поскольку существуют отрицательные значения температуры, что делает температурную шкалу Цельсия/Фаренгейта классическим примером интервальной шкалы.

На что похожи данные на уровне интервала

Как вы можете видеть, эти уровни данных представлены числом, и это кажется немного проще для анализа, но на самом деле вы должны уделить некоторое внимание своим переменным, потому что выбор меры центральной техники, такой как среднее значение, и вы иметь много выбросов может повлиять на понимание, которое вы получите от него.

Математические операции, разрешенные для интервала

Мы можем использовать все операции, разрешенные на нижних уровнях (равенство, упорядочение, сравнение и т. д.), а также две другие примечательные операции:

Добавление

вычитание

Эти две новые операции позволяют нам красиво выразить наблюдение.

Меры центра интервала

На этом уровне мы можем использовать медиану и моду для описания этих данных; однако обычно наиболее точным описанием центра данных будет среднее арифметическое, которое чаще называют просто «средним». Напомним, что определение среднего требует от нас суммирования всех измерений. На предыдущих уровнях добавление было бессмысленным; следовательно, среднее значение потеряло бы экстремальное значение. Среднее арифметическое имеет смысл только на уровне интервала и выше.

Предположим, мы смотрим на температуру холодильника с новой вакциной фармацевтической компании. Мы измеряем температуру каждый час со следующими точками данных (в Фаренгейтах):

Обратите внимание, что среднее значение и медиана довольно близки друг к другу, и оба они составляют около 31 градуса. На вопрос, в среднем, насколько холодно в холодильнике?, около 31, однако

Заметьте, как минимум дважды температура опускалась ниже 29 градусов, но в итоге вы решили, что этого недостаточно, чтобы быть вредным. Именно здесь мера вариации может помочь нам понять, насколько плохой может быть ситуация с холодильником, а также как хорошо выбрать среднее значение или медиану в качестве представления центра наших данных.

Меры вариации для интервала

Это новое измерение, которое мы еще не обсуждали. В науке о данных в целом вы должны учитывать не только центр ваших данных, но и их вариации, очень важно упомянуть, насколько «разбросаны» данные. Меры, которые описывают это явление, называются мерами вариации или дисперсии.

Вероятно, вы уже слышали о «стандартном отклонении». Эта идея чрезвычайно важна, и мы должны остановиться на ней кратко. Мера вариации, как и стандартное отклонение, представляет собой число, которое пытается описать, насколько разбросаны данные. Наряду с мерой центра мера вариации может почти полностью описать набор данных только с двумя числами.

Среднеквадратичное отклонение

стандартное отклонение является наиболее распространенной мерой вариации данных на уровне интервала и за его пределами. Стандартное отклонение можно рассматривать как «среднее расстояние точки данных от среднего значения». Хотя это описание технически и математически неверно, это хороший способ подумать об этом. Формулу стандартного отклонения можно разбить на следующие этапы:

Найдите среднее значение данных.

Для каждого числа в наборе данных вычтите его из среднего, а затем возведите в квадрат.

Найдите среднее значение каждой квадратной разницы.

Извлеките квадратный корень из числа, полученного на третьем шаге. Это стандартное отклонение.

Примечание. Причина, по которой нам нужна «квадратичная разница» между каждой точкой и средним значением, а не «фактическая разница», заключается в том, что возведение значения в квадрат фактически делает акцент на выбросах — точках данных, которые находятся ненормально далеко.

Например, вернитесь к набору данных о температуре. Найдем стандартное отклонение набора данных:

Весь этот код привел к тому, что мы выяснили, что стандартное отклонение набора данных составляет около 2,5, что означает, что «в среднем» точка данных отличается на 2,5 градуса от средней температуры около 31 градуса, а это означает, что температура, вероятно, может упасть. ниже 29 градусов снова в ближайшем будущем.

Меры вариации дают нам очень четкое представление о том, насколько разбросаны или рассредоточены наши данные. Это особенно важно, когда нас интересуют диапазоны данных и то, как данные могут колебаться (например, процентная доходность акций). Большая разница между данными на этом уровне и на следующем уровне заключается в кое-чем неочевидном. Данные на интервальном уровне не имеют «естественной начальной точки или естественного нуля». Однако нахождение при нуле градусов по Цельсию не означает, что у вас «нет температуры».

Уровень соотношения

Наконец, мы рассмотрим уровень отношения. После прохождения трех разных уровней с разными уровнями разрешенных математических операций уровень отношения оказывается самым сильным из четырех.

Мало того, что мы можем определить порядок и различие, уровень отношения также позволяет нам умножать и делить. Может показаться, что это не так уж и много, но это меняет почти все в том, как мы рассматриваем данные на этом уровне.

Примеры

В то время как градусы Фаренгейта и Цельсия застряли на уровне интервала, шкала температуры Кельвина может похвастаться естественным нулем. Измерение нуля по Кельвину буквально означает отсутствие тепла. Это непроизвольный начальный нуль. На самом деле мы можем с научной точки зрения сказать, что 200 Кельвинов в два раза больше тепла, чем 100 Кельвинов. Деньги в банке находятся на уровне соотношения. У вас может не быть денег в банке, и вполне логично, что 200 000 долларов — это «вдвое больше, чем» 100 000 долларов.

Меры центра для уровня отношения

Среднее арифметическое по-прежнему имеет смысл на этом уровне, как и новый тип среднего, называемый средним геометрическим. Эта мера, как правило, не так часто используется даже на уровне отношения, но заслуживает упоминания. Это квадратный корень из произведения всех значений.

Например, в наших данных о температуре холодильника мы можем рассчитать среднее геометрическое, как показано здесь:

Обратите внимание еще раз, насколько он близок к среднему арифметическому и медиане, рассчитанным ранее. Это не всегда так, и об этом будет подробно рассказано в главе, посвященной статистике этой книги.

Проблемы с уровнем соотношения

Даже со всей этой добавленной функциональностью на этом уровне мы обычно также должны делать очень большое предположение, которое на самом деле делает уровень отношения немного ограничительным. Данные на уровне отношений обычно неотрицательны. Только по этой причине многие специалисты по данным предпочитают уровень интервалов уровню отношения. Причина этого ограничительного свойства в том, что если бы мы допускали отрицательные значения, отношение не всегда имело бы смысл.

Краткое содержание

Тип данных, с которыми вы работаете, — это очень большая часть науки о данных и машинного обучения. Это должно предшествовать большей части вашего анализа, потому что тип данных, которые у вас есть, влияет на тип анализа, который даже возможен! Всякий раз, когда вы сталкиваетесь с новым набором данных, первые три вопроса, которые вы должны задать о нем, следующие:

  1. Данные организованы или неорганизованы? Например, существуют ли наши данные в красивой, чистой структуре строк/столбцов?
  2. Является ли каждый столбец количественным или качественным? Например, являются ли значения числами, строками или представляют количества?
  3. На каком уровне данных находится каждый столбец? Например, являются ли значения номинальным, порядковым, интервальным или относительным уровнем?

Ответы на эти вопросы не только повлияют на ваше знание данных, но и определят следующие шаги вашего анализа. Они будут определять типы диаграмм, которые вы сможете использовать, и то, как вы их интерпретируете в своих будущих моделях данных. Иногда нам придется переходить с одного уровня на другой, чтобы получить больше перспективы.

В следующих статьях мы более подробно рассмотрим, как работать с данными и исследовать их на разных уровнях. К концу этой книги мы сможем не только распознавать данные на разных уровнях, но и будем знать, как обращаться с ними на этих уровнях.

Оставайтесь с нами для следующей статьи серии [Data 4 ML (Part 4)], куда мы отправимся и узнаем, как обращаться с этими типами данных, если мы с ними столкнулись.

Купи мне кофе

Еще раз спасибо за терпение, и надеюсь, что вы можете дать мне несколько хлопков 👏 для поддержки.

С 💗, Хишам.