Краткое описание типов данных

Данные могут рассказать важную историю. Они рассчитывают, что вы дадите им право голоса.

Прежде чем дать им голос, вы должны понять различные типы данных. Существуют разные способы категоризации данных в зависимости от способа их сбора или их структуры.

На основе сбора данных: данные можно разделить на три типа в зависимости от того, как данные были собраны.

  1. Поперечные данные. Любые точки данных / значения, полученные для нескольких переменных за один определенный период времени, называются перекрестными данными. Пример: атрибуты сотрудника, такие как возраст, зарплата, уровень, команда на 2019 год.
  2. Данные временного ряда. Любые точки данных / значения, полученные для одной переменной за несколько периодов, называются данными временного ряда. Пример: продажи смартфонов ежемесячно, ежеквартально, ежегодно.
  3. Панельные данные. Комбинация данных поперечного сечения и временных рядов называется панельными данными. Пример: ВВП разных стран за разные периоды.

На основе структуры. Другой важный способ классификации данных основан на их структуре. Его можно разделить на два типа.

  1. Структурированные данные. Все точки данных, которые имеют определенную структуру и могут быть расположены в табличной форме (также известной как матрица) со строками и столбцами, называются структурированными данными. Пример: зарплата сотрудников, указанная в идентификаторе сотрудника.
  2. Неструктурированные данные. Все точки данных, которые не упорядочены в какой-либо табличный формат, являются неструктурированными данными. Пример: электронные письма, видео, данные о кликах и т. Д.

70% доступных данных неструктурированы, и при анализе или построении любой аналитической модели необходимо преобразовать неструктурированные данные в структурированные.

Другая проблема, с которой сталкиваются большинство новичков в области анализа данных, заключается в том, что даже структурированные данные доступны, что с ними делать, как их использовать, как их можно измерить и как на их основе сделать выводы.

И для всего этого важными становятся шкалы измерений. Следует знать, что если структурированные данные доступны, как мы можем их измерить и как их можно дифференцировать на основе измерения.

Данные можно разделить на четыре части в зависимости от шкалы измерений.

  1. Номинальная шкала. В эту категорию попадают все качественные по своей природе точки данных. Их также называют категориальными переменными. Пример: семейное положение (холост, женат и т. Д.). С такими переменными нельзя выполнять арифметические операции (сложение, вычитание, умножение или деление).
  2. Порядковый масштаб: все точки данных из упорядоченного набора попадают в эту категорию. Пример: оценки по шкале от 1 до 5 (5 - самый высокий, а 1 - самый низкий). Здесь порядок набора фиксирован, но никакие арифметические операции не могут быть выполнены, например, как мы знаем, рейтинг 4 лучше, чем 2, но два рейтинга 2 не могут быть приравнены к рейтингу 4.
  3. Шкала интервалов: все точки данных, взятые из некоторого фиксированного набора интервалов. Пример: температура (в градусах Цельсия), уровень IQ. В таких переменных можно выполнять сложение или вычитание, но деление не имеет смысла. Как вы можете сказать, в Мумбаи на 10 градусов выше, чем в Бангалоре, но вы говорите, что в Мумбаи вдвое жарче, чем в Бангалоре, неправильно, поэтому здесь коэффициенты не имеют смысла.
  4. Масштаб отношения: все точки данных, которые являются количественными по своей природе, попадают в эту категорию. Пример: Продажи продукта, зарплата сотрудника и т. Д. Здесь могут быть выполнены все арифметические операции и сравнение может быть выполнено таким образом, что Рама зарабатывает вдвое больше, чем зарабатывает Шьям, поэтому соотношения имеют смысл.

Таким образом, глядя на данные, можно сделать вывод о том, какие данные доступны, например, номинальные, порядковые и т. Д., Что в конечном итоге помогает аналитику данных / ученому при построении любой аналитической модели для понимания различных переменных, выполнения исследовательского анализа данных, выполнения данных. вменение и выполнение горячего кодирования.

И это становится не только важным в прогнозной аналитике, но также помогает в описательной аналитике. Вы не можете провести исследовательский анализ данных, если у вас нет информации о типе данных. Как только вы определите тип данных, можно будет выполнить множество одномерных и двумерных анализов, визуализаций и вычислений, таких как среднее значение, режим, медиана и т. Д., Чтобы сделать вывод на основе данных.