В ДАННЫЕ можно превратить практически все. Глубокое понимание различных типов данных является важной предпосылкой для выполнения исследовательского анализа данных (EDA) и проектирования функций для моделей машинного обучения. Вам также необходимо преобразовать типы данных некоторых переменных, чтобы сделать правильный выбор для визуальных кодировок при визуализации данных и повествовании.

Большинство данных можно разделить на 4 основных типа с точки зрения машинного обучения: числовые данные, категориальные данные, данные временных рядов и текст.

Числовые данные

Числовые данные - это любые данные, в которых точки данных являются точными числами. Статистики также могут называть числовые данные количественными данными. Эти данные имеют значение как измерение, например цены на жилье, или как счетчик, например, количество жилых домов в Лос-Анджелесе или количество домов, проданных за последний год.

Числовые данные можно характеризовать как непрерывные, так и дискретные данные. Непрерывные данные могут принимать любое значение в пределах диапазона, тогда как дискретные данные имеют разные значения.

Например, количество студентов, изучающих класс Python, будет дискретным набором данных. Вы можете иметь только дискретные целочисленные значения, такие как 10, 25 или 33. В класс не может быть зачислено 12,75 учащихся. Учащийся либо присоединяется к классу, либо нет. С другой стороны, непрерывные данные - это числа, которые могут попадать в любой диапазон. Например, у студента может быть средний балл 88,25, который находится между 0 и 100.

Вывод состоит в том, что числовые данные не упорядочены по времени. Это просто цифры, которые мы собрали.

Категориальные данные

Категориальные данные представляют такие характеристики, как позиция хоккеиста, команда, родной город. Категориальные данные могут принимать числовые значения. Например, мы могли бы использовать 1 для красного цвета и 2 для синего. Но эти числа не имеют математического значения. То есть мы не можем сложить их или взять среднее.

В контексте суперклассификации категориальные данные будут меткой класса. Это также может быть что-то вроде того, является ли человек мужчиной или женщиной, или собственность является жилой или коммерческой.

Также есть так называемые порядковые данные, которые в некотором смысле представляют собой смесь числовых и категориальных данных. В порядковых данных данные по-прежнему попадают в категории, но эти категории упорядочены или ранжированы определенным образом. Примером может быть класс сложности, такой как начальный, средний и продвинутый. Эти три типа классов позволили бы нам пометить классы, и они имеют естественный порядок возрастания сложности.

Другой пример: мы просто берем количественные данные и разбиваем их на группы, так что у нас есть корзины или категории других типов данных.

Для построения графиков порядковые данные обрабатываются так же, как и категориальные данные. Но группы обычно упорядочиваются от низшего к высшему, чтобы мы могли сохранить этот порядок.

Данные временных рядов

Данные временного ряда - это последовательность чисел, собранная через равные промежутки времени в течение некоторого периода времени. Это очень важно, особенно в таких сферах, как финансы. К данным временных рядов прикреплено временное значение, поэтому это может быть что-то вроде даты или отметки времени, по которым вы можете искать тенденции во времени.

Например, мы можем измерить среднее количество продаж домов за многие годы. Разница между данными временных рядов и числовыми данными заключается в том, что вместо набора числовых значений, не имеющих временной упорядоченности, данные временных рядов имеют некоторый подразумеваемый порядок. Собирается первая точка данных и последняя точка данных.

Текст

Текстовые данные - это в основном просто слова. Часто первое, что вы делаете с текстом, - это превращаете его в числа, используя некоторые интересные функции, такие как формулировка пакета слов.

Это четыре типа данных с точки зрения машинного обучения. В зависимости от типа данных это может иметь некоторые последствия для типа алгоритмов, которые вы можете использовать для проектирования и моделирования функций, или для типа вопросов, которые вы можете ему задать.

Дайте мне знать, если у вас есть какие-либо вопросы или комментарии. Я хотел бы в будущем написать статью о разработке функций на основе разных типов данных. Спасибо за чтение.

Запишитесь на курс Udemy 🦞:

Рекомендательная система с машинным обучением и статистикой