Data 4 ML (часть 2): определение данных

Данные — это неорганизованный и необработанный факт, это могут быть необработанные числа, цифры, изображения, слова, звуки, полученные в результате наблюдений или измерений. Обычно данные являются статическими по своей природе, представляют собой набор дискретных, объективных фактов о событиях, и в данных нет внутреннего смысла.

В области науки о данных в целом важно понимать различные типы данных по нескольким причинам. Не только потому, что тип данных поможет определить метод очистки и обработки этих данных, но и знание того, являются ли данные неструктурированными или, возможно, количественными, также может многое рассказать вам об измеряемом явлении реального мира.

Итак, то, о чем мы будем говорить в этой статье, называется характеристикой набора данных, а не всего набора данных. И мы будем очень четко понимать, к какому из них мы обращаемся в любой момент времени.

Подсказка: вот текущий книжный проект о Машинном обучении, вы можете поддержать меня, купив его.

Еще раз здравствуйте в одной из статей, в которой я рассказываю о некоторых интересных концепциях данных и машинного обучения. Если вы меня не знаете, я Хишам, и вы можете проверить мой профиль, чтобы узнать больше (не хочу тратить свое время).

Предыдущая статья в списке:

Data 4 ML (Часть 1): Введение в конвейер данных

Структурированные, полуструктурированные и неструктурированные данные

Первый вопрос, который вы можете задать о готовящемся наборе данных, заключается в том, структурированы они или нет. Позвольте показать вам разницу между структурированными, полуструктурированными и неструктурированными данными.

Структурированные данные легко упорядочиваются и обычно хранятся в базах данных или неструктурированных файлах, таких как CSV (неструктурированные файлы) и EXCEL. Структурированные данные обычно состоят из числовой информации и являются объективными.

Некоторые типы структурированных данных могут генерироваться машиной, например данные, поступающие от медицинских устройств (частота сердечных сокращений, кровяное давление), производственных датчиков (обороты в минуту, температура) или журналы веб-сервера (количество посещений страницы).

Структурированные данные также могут быть сгенерированы человеком — такие данные, как возраст, почтовый индекс и пол.

Неструктурированные данные: влияние на предприятия продолжает расти, поскольку организации пытаются использовать новые и появляющиеся источники данных. Эти новые источники данных в основном состоят из потоковых данных, поступающих с платформ социальных сетей, мобильных приложений, служб определения местоположения и технологий Интернета вещей.

Большинство данных, которые существуют в текстовом виде, включая журналы сервера и сообщения Facebook, неструктурированы. Кроме того, генетические последовательности химических нуклеотидов (например, ACGTATTGCA) неструктурированы, даже если порядок нуклеотидов имеет значение, поскольку мы не можем формировать дескрипторы последовательности, используя формат строки/столбца.

Полуструктурированные данные – это форма структурированных данных, которая не соответствует формальной структуре моделей данных, связанных с реляционными базами данных или другими формами таблиц данных, но, тем не менее, содержит теги или другие маркеры для разделения семантических данных. элементы и применять иерархии записей и полей в данных. Поэтому она также известна как самоописывающая структура.

полуструктурированные данные можно найти в файлах форматов JSON и XML.

Как специалист по данным или инженер по машинному обучению, вы всегда предпочтете работать со структурированными данными, а иногда и с частично структурированными. Большинство из нас, как специалист по данным/инженер по машинному обучению, строят статистические модели и модели машинного обучения на структурированных наборах данных, состоящих из столбцов и строк, что позволяет легко следовать шаблону модели и не может работать с неструктурированными данными, поскольку неструктурированные данные не имеют определенного шаблона или интерпретации, поэтому мы не можем ожидать, что наша модель будет работать с данными такого типа без надлежащей очистки.

Но что делает неструктурированные данные настолько важными, так это то, что они настолько распространены в Интернете, что почти 80%-90% данных в мире являются неструктурированными данными, и это делает 80%-90% мировых знаний скрытыми в них. Эти данные существуют во многих формах, таких как твиты, электронная почта, литература и журналы сервера, как правило, неструктурированные формы данных.

Позже мы увидим, как извлекать знания из неструктурированных наборов данных произвольной формы и как использовать методы предварительного анализа, называемые предварительной обработкой, которые превращают неструктурированные данные в чистые и организованные таблицы или, с другим значением, превращают их в структурированные данные.

Количественные и качественные данные

Ранее мы говорили о конкретных характеристиках и определяли их, и мы знаем, что структурированные данные поступают в виде таблиц или матриц, каждая из которых состоит из строк и столбцов. строки, представляющие реальное наблюдение или тематическое исследование, например биометрические данные определенного пациента. В то время как столбцы представляют собой поля данных, например поле пола пациента.

Каждый столбец данных имеет свои характеристики, которые определяют столбец, например, пол пациента может быть мужским или женским, если не пропущено значение. Таким образом, эти значения пола пациента следуют некоторому представлению, которое необходимо определить.

Примечание. Столбцы могут называться столбцами, характеристиками или даже переменными.

Все поля соответствуют одному из двух типов данных, которые определяются следующим образом:

Количественные данные. Эти данные могут быть описаны с помощью чисел, а на множестве возможны основные математические процедуры, включая сложение.
Качественные данные. Эти данные нельзя описать с помощью чисел и элементарной математики. Обычно считается, что эти данные описываются с использованием «естественных» категорий и языка.

Пример — Титаник

Гибель «Титаника» — одно из самых печально известных кораблекрушений в истории. Скажем, мы обрабатывали наблюдения за тем, какие люди, скорее всего, выживут, используя следующие дескрипторы (характеристики). И каждую из этих характеристик можно классифицировать как количественную или качественную, и это простое различие может все изменить. Давайте рассмотрим каждый из них:

`PassengerId` — Количественный: идентификатор наблюдения, обычно принимает числовые значения.
`Выжил` – Качественный: Выживание (0 = Нет; 1 = Да).
`Pclass` — Qualitative: пассажирский класс (1 = 1-й; 2 = 2-й; 3 = 3-й)
`Имя` — Качественный: имя пассажира
`Пол` — Качественный: пол пассажира
`Возраст` — Количественные данные: возраст пассажира.
`SibSp` — Количественный: количество братьев и сестер/супругов на борту
`Parch` — Количественный: количество родителей/детей на борту
`Заявка` — Качественный: номер заявки
`Тариф` — Качественный: Пассажирский тариф
`Каюта` — Качественный: ID каюты
`Отправлено` — Качественно: порт отправления (C = Шербур; Q = Квинстаун; S = Саутгемптон).

Итак, после того как мы классифицировали каждый столбец как количественный или качественный, вы можете задаться вопросом, почему эти столбцы относятся к этой категории. Я мог бы привести еще один быстрый пример для большей проработки.

Давайте рассмотрим столбец Имя, который представляет имя пассажира, этот столбец не выражается числом, и мы не можем выполнять математические операции с именем пассажира, поэтому он является качественным.

Также возраст представляет возраст пассажира в цифрах, и мы можем выполнять базовые операции, такие как суммирование возраста всех пассажиров и деление его на общее количество пассажиров, чтобы получить средний возраст пассажира, поэтому столбец «Возраст» помещается под Количественный зонтик.

Примечание. Несмотря на то, что номер заявки описывается цифрами, он не является количественным. Это потому, что вы не можете говорить о сумме всех номеров билетов или среднем количестве билетов. Это бессмысленные описания.

Примечание. Практически всякий раз, когда слово используется для описания характеристики, это качественный фактор.

Краткое содержание

Тип данных, с которыми вы работаете, — это очень большая часть науки о данных и машинного обучения. Это должно предшествовать большей части вашего анализа, потому что тип данных, которые у вас есть, влияет на тип анализа, который даже возможен!

Следите за следующей статьей из серии [Data 4 ML (Part 3)], где мы рассмотрим типы данных, с которыми мы можем столкнуться в нашем конвейере.

Купи мне кофе ☕

Еще раз спасибо за терпение, и надеюсь, что вы можете дать мне несколько хлопков 👏 для поддержки.

С 💗, Хишам.

Data 4 ML (часть 2): определение данных

Структурированные, полуструктурированные и неструктурированные данные

Количественные и качественные данные

Краткое содержание

Вопросы по теме