Мир данных растет со скоростью, и я столкнулся с этой концепцией больших данных как начинающий специалист по данным. Данные говорят об определенном событии больше, чем наш опыт может с большой уверенностью. Претенденты на предметную область должны знать различные типы доступных данных.

Что такое большие данные?

Данные настолько огромны, что наше человеческое сознание не в состоянии их уследить. Сегодня эти данные генерируются в огромном объеме, с огромной скоростью, а также с огромным разнообразием (я расскажу об этих трех V позже). Сегодня все, что мы делаем, генерирует данные в той или иной форме от мобильных устройств до фитнес-браслетов.

Источники данных

  1. Созданные людьми –данные, которые люди создают и которыми делятся.

Каковы примеры данных, созданных человеком?

  • Посты в социальных сетях
  • электронные письма
  • Таблицы
  • Презентации
  • Аудио файлы
  • Видео файлы

2. Машинно сгенерированныеданные, сгенерированные машинами, которые не зависят от активного вмешательства человека.

Приведите несколько примеров источников данных, созданных машиной?

  • Датчики на транспортных средствах, приборах и промышленном оборудовании
  • Камеры наблюдения
  • Спутники
  • Медицинское оборудование
  • Персональные инструменты, такие как приложения для смартфонов или фитнес-трекеры

3. Генерируемые организацией. Данные, генерируемые организациями в процессе ведения бизнеса.

Каковы примеры данных, созданных организацией?

  • Записи, генерируемые каждый раз, когда вы совершаете покупку в интернет-магазине или в обычном магазине, — такие сведения, как уникальные номера клиентов, приобретенные вами товары, дата и время покупки товаров, а также количество каждого товара, который вы приобрели.

Что делает большие данные большими?

Большие данные, как определено ранее, — это данные, которые невозможно поддерживать с использованием традиционного подхода с использованием компьютеров из-за их объема, скорости, с которой они генерируются, и разнообразия форматов, в которых они генерируются.

Объем — объем генерируемых данных.

Международная корпорация данных (IDC) прогнозирует, что объем существующих в мире данных вырастет с 33 зеттабайт в 2018 году до 177 зеттабайт к 2025 году. Для сравнения: компьютер, используемый для создания этого курса, имеет 256 ГБ памяти. место хранения. Это эквивалентно всего 0,000000000256 (9 нулей) зеттабайт.

Velocity — Скорость, с которой сгенерированы данные

Второй характеристикой, которая определяет большие данные, является скорость, которая относится к скорости, с которой генерируются новые данные, и скорости, с которой данные перемещаются. Хорошим примером скорости передачи данных является сообщение в социальных сетях, которое становится вирусным за считанные секунды.

Variance — Различный тип сгенерированных данных

Разнообразие данных относится ко многим различным типам данных, которые существуют сегодня: публикации в социальных сетях, транзакции по кредитным картам, юридические контракты, биометрические данные и географическая информация, и это лишь некоторые из них.

Типы больших данных

Данные можно разделить на три сегмента в соответствии с разнообразием генерируемых данных.

1. Структурированные данные

Данные, которые следуют определенному формату или схеме, или каким-либо способом, которым мы можем организовать данные.

Популярным примером структурированных данных является электронная таблица. В электронной таблице обычно есть четко обозначенные строки и столбцы, а информация в этих строках и столбцах соответствует определенному формату. Например, в приведенной ниже таблице мы видим, что месяцы записываются трехбуквенными словами, идентификаторы клиентов представляют собой пятизначные числовые значения, а цвета имеют формат «Имя|Имя».

Поскольку структурированные данные четко организованы, их, как правило, легче анализировать. Многие данные, с которыми организации работают каждый день, можно отнести к категории структурированных данных.

2. Полуструктурированные данные

Полуструктурированные данные занимают промежуточное положение между структурированными и неструктурированными данными. Полуструктурированные данные не хранятся в форматированной таблице, но имеют определенный уровень организации.

Хорошим примером полуструктурированных данных является код HTML. Если вы когда-либо щелкали правой кнопкой мыши в своем браузере и выбирали «проверить» или «проверить элемент», вы видели пример этого.

Эти данные имеют частичную организацию, а также частичную случайность.

3. Неструктурированные данные

Неструктурированные данные также называют «беспорядочными» данными. Он не следует какой-либо организации или схеме.

Неструктурированные данные являются наиболее распространенным типом данных. IDC сообщает, что почти 90% данных сегодня неструктурированы. Сегодня многим организациям сложно разобраться в неструктурированных данных, особенно когда они пытаются использовать их для бизнес-аналитики. Именно здесь различные области искусственного интеллекта становятся важной частью процесса анализа данных.

Примеры неструктурированных данных включают в себя:

  • Посты в социальных сетях
  • Фотографии
  • электронные письма
  • аудиофайлы и
  • Картинки
  • Видео