Взгляд машинного обучения на типы данных

Одна из самых сложных частей начала работы с машинным обучением и искусственным интеллектом — это осознание основ. Может показаться, что существуют тысячи тем с миллионами поддоменов.

В этой статье я стремлюсь раскрыть одну из фундаментальных тем ML/AI и демистифицировать типы данных!

Почему важно понимать типы данных?

Просто невозможно избежать данных, если вы хотите понять ML/AI. Понимание типов данных, их использования и того, как правильно преобразовывать данные для машинного обучения, позволит лучше понять, как работают алгоритмы. Итак, приступим!

*Примечание. В зависимости от использования данные могут быть классифицированы таким образом, который лучше всего подходит для этой практики. Эта статья написана с точки зрения науки о данных.

Какие существуют типы данных?

На самом высоком уровне есть 2 основных типа данных

Числовой : данные, которые звучат так, как будто это число. Это также обычно называют количественными данными.
Категория: данные без математического смысла. Это также обычно называют качественными данными.

Внутри этих типов существует множество подтипов. Лучший способ понять разницу между подтипами — на примере.

Давайте углубимся в подтипы каждого типа данных…

Числовые данные и их подтипы:

Мне нравится думать о дискретных данных как о «фиксированном» числе. Под фиксированным я подразумеваю, что он может принимать только конечное количество чисел. Если хот-дог на бейсбольном матче стоит 4,75 доллара, это дискретное фиксированное число. Хот-дог практически не может стоить 4756 долларов.

Другой пример — проданные запасы. Продавец не может продать 52,5 подписки за день… он может продать 52 подписки. Поэтому он может продавать дискретное или фиксированное количество подписок.

Напротив, непрерывное число может содержать бесконечное количество чисел (в пределах диапазона)! Лучшее количество калорий, сожженных на велотренажере, может составлять 501,3849302… .. а лучшее время для преодоления мили может составлять 6 минут 45 секунд 32 миллисекунды и так далее. Получить дрейф?

Категориальные данные и их подтипы:

Номинальные переменные — это качественные переменные, которые являются взаимоисключающими. Взаимная исключительность означает, что одна переменная полностью независима от другой. Одна переменная не оказывает никакого влияния на другие переменные.

Ваша любимая кухня — номинальная переменная. Французская, итальянская, латинская, креольская, индийская - все это совершенно независимые кухни, не имеющие отношения (ради этого примера). Выбор одного не влияет на другой.

То же самое касается страны, в которой вы живете. Каждый раз, когда вы используете раскрывающееся меню для выбора страны проживания, вы выбираете номинальную переменную. Живете ли вы в Индии или Америке, это не влияет на ценность Китая или Великобритании.

Однако, если бы я попросил вас выбрать порядок стран, в которых вы предпочитаете жить, мы просто прыгнули бы на порядковую территорию! Порядковые значения – это те, которые имеют определенную организованную связь друг с другом. В этом случае я спрашиваю о предпочтениях… поэтому порядок выбранных значений имеет значение.

Дни недели и значения времени также являются порядковыми переменными. Понедельник приходит раньше вторника, среду вы просите в пятницу, а воскресенье вы хотите, чтобы это была суббота. Дело в том, что…. дни недели имеют порядок, который делает их порядковыми данными.

Есть ли другие типы данных?

Конечно! И в зависимости от того, кого вы спросите, некоторые термины могут измениться. Но это основные типы данных, которые позволят вам понять входные данные (входящие данные) модели машинного обучения.

Взгляд машинного обучения на типы данных

Вопросы по теме