Структурированные, неструктурированные и полуструктурированные данные

Понимание разницы между структурированными, полуструктурированными и неструктурированными данными

Введение

По оценкам, только в 2021 году 2,5 квинтиллиона байтов данных было сгенерировано, а потреблено 79 зеттабайтов данных (источник: Statista), в то время как эти цифры растут в геометрической прогрессии с каждым годом. Но у вас может возникнуть вопрос: что мы на самом деле имеем в виду, говоря о термине данные?

Данные бывают разных типов; от электронных таблиц до текста и видео или даже аудиофайлов. В сегодняшней статье мы обсудим основные различия между структурированными, неструктурированными и полуструктурированными данными и приведем несколько реальных примеров. Кроме того, мы обсудим, где в организации предполагается хранить каждый тип данных, чтобы установить и поддерживать надлежащую стратегию управления данными.

Структурированные данные

Структурированные данные — это тип данных, которые, как ожидается, будут иметь некоторую предопределенную структуру до того, как будут сохранены в средствах хранения. Эту структуру часто называют схемой при записи.

Этот тип данных может быть сгенерирован человеком или машиной. Простейшим примером структурированных данных является электронная таблица, созданная аналитиком (сгенерированная человеком). Примеры машинно-генерируемых структурированных данных включают в себя сетевые журналы или записи данных, созданные по событиям (например, когда продукт покупается покупателем, создается новая запись о продаже, содержащая цену, количество и, возможно, многие другие поля, связанные с этой конкретной покупкой). Другими примерами систем, генерирующих структурированные данные, являются системы резервирования или управления запасами.

Структурированные данные обычно хранятся в системах управления реляционными базами данных (RDBMS). Реляционная база данных обычно состоит из множества таблиц, каждая из которых имеет предопределенную схему, которой должна соответствовать каждая запись. Например, каждое поле связано с ожидаемым типом данных (например, ожидается, что поле имени будет строкового типа определенной длины). Затем к сохраненным данным можно выполнить дальнейшие запросы, чтобы получить записи, соответствующие заданным условиям.

Неструктурированные данные

Неструктурированные данные относятся к данным, которые нельзя хранить в реляционных базах данных, поскольку для них отсутствует заранее определенная модель данных. Такие данные не обрабатываются до момента их фактического использования. Эта концепция также известна как схема при чтении.

Типы данных, которые считаются неструктурированными, включают видео- или аудиофайлы, текст, веб-сайты, презентации, данные, собранные с различных датчиков, или даже спутниковые снимки.

Неструктурированные данные обычно находятся в озерах данных внутри организации. Другие средства хранения неструктурированных данных включают нереляционные базы данных, такие как NoSQL.

К пользователям, которые используют неструктурированные данные в организации, относятся ученые и инженеры, работающие с данными, машинным обучением и искусственным интеллектом, которые применяют специальные методы для извлечения смысла (или даже какой-либо высокоуровневой структуры) из этого типа данных.

Полуструктурированные данные

Теперь полуструктурированные данные относятся к определенному типу данных, которые на самом деле неструктурированы, но в то же время они также содержат некоторую форму метаданных, которые позволяют пользователям определять некоторую частичную структуру или иерархию. .

В качестве примера рассмотрим язык разметки XML. XML — это набор правил кодирования, которые применяются к документам как в человекочитаемой, так и в машиночитаемой форме. Каждая часть данных вводится с помощью тегов, которые позволяют пользователям получать доступ к определенной информации на определенных уровнях. Другие часто используемые полуструктурированные данные включают электронные письма и JSON (обозначение объектов JavaScript).

Современные базы данных NoSQL, такие как Couchbase и MongoDB, могут хранить частично структурированные данные в формате JSON.

Разница между структурированными и неструктурированными данными

Помимо очевидного различия между структурированными и неструктурированными данными в отношении схемы (или отсутствия схемы в случае неструктурированных данных), самым большим преимуществом структурированных данных является простота обработки. Современные инструменты аналитики (обычно используемые Business, Insight, BI или аналитиками данных и учеными) предназначены для работы в основном со структурированными данными.

Как уже упоминалось, методы интеллектуального анализа данных обычно применяются ML и Data Scientist для извлечения полезной информации из неструктурированных данных, поскольку этот тип данных составляет более 80% данных, которые обычно находятся в организации. Поэтому для предприятий важно обрабатывать и извлекать неструктурированные данные, иначе они будут выбрасывать огромное количество ценной информации, которая потенциально может помочь им принимать более эффективные и своевременные решения на основе данных.

Последние мысли

В сегодняшней статье мы обсудили различные типы данных, а именно структурированные, неструктурированные и полуструктурированные. Мы видели несколько реальных примеров для каждого из этих типов и обсудили их основное использование в современных организациях.

Структурированные данные обычно хранятся в базах данных (которые, в свою очередь, включены в хранилища данных). С другой стороны, неструктурированные данные хранятся в озерах данных или нереляционных базах данных, поскольку они не имеют какой-либо предопределенной схемы, которая должна удовлетворять априори. Наконец, полуструктурированные данные, которые представляют собой неструктурированные данные с некоторой структурой или иерархией (метаданные), обычно хранятся в современных базах данных NoSQL, таких как MongoDB.

Стать участником и читать все истории на Medium. Ваш членский взнос напрямую поддерживает меня и других писателей, которых вы читаете. Вы также получите полный доступ ко всем историям на Medium.

Присоединяйтесь к Medium по моей реферальной ссылке — Giorgos Myrianthous
Как участник Medium, часть вашего членского взноса идет авторам, которых вы читаете, и вы получаете полный доступ к каждой истории… gmyrianthous.medium.com

Вам также может понравиться

Озера данных и хранилища данных
В чем разница между озерами данных и хранилищами?towardsdatascience.com

Управление версиями данных для эффективных рабочих процессов с помощью MLFlow и LakeFS
Создание устойчивых, атомарных и версионных операций озера данныхpub.towardsai.net

Эффективно ли объектное хранилище для больших данных?
Хранение, архивирование и управление данными с помощью объектных хранилищpub.towardsai.net