Характеристики больших данных

Большие данные обычно характеризуются с помощью ряда V. Первые три — это объем, скорость и разнообразие.

1] Объем – это огромные объемы данных, которые генерируются каждую секунду, минуты, час и день в нашем мире. Объем – это измерение больших данных, связанное с их размером и экспоненциальным ростом. проблемы при работе с большими объемами данных включают стоимость, масштабируемость и производительность, связанные с их хранением, доступом и обработкой. (объем == размер)

2] Разнообразие относится к постоянно растущему количеству различных форм, в которых могут поступать данные, например текст, изображения, голос и геопространственные данные. (Разнообразие==сложность)

→ Структурное разнообразие относится к различию в представлении данных. Пример: спутниковое изображение лесных пожаров от НАСА сильно отличается от твитов, отправленных людьми, которые видят распространение огня.

→ Разновидность носителя относится к носителю, на котором данные передаются. Звук речи по сравнению с расшифровкой речи может представлять одну и ту же информацию на двух разных носителях.

→Семантическое разнообразие означает использование различных единиц измерения величин, которые мы измеряем. Например, возраст может быть числом, или мы представляем его такими терминами, как младенец, несовершеннолетний или взрослый.

3] Скорость – это скорость, с которой генерируются данные, и скорость, с которой данные перемещаются из одной точки в другую (velocity==скорость).

По мере того, как мы обнаруживаем новые проблемы и способы определения больших данных, сообществу больших данных было представлено больше V. Это Правдивость и Валентность.

4] Достоверность относится к предвзятости, шуму и аномалиям в данных. Это относится к часто неизмеримым неопределенностям, правдивости и достоверности данных (достоверность == качество).

5] Валентность относится к связанности больших данных в форме графов, как и атомы. Чем больше связанных данных, тем выше их валентность. Слово валентность пришло из химии. Валентные электроны находятся во внешней оболочке, имеют самый высокий энергетический уровень и отвечают за связи с другими атомами. Эта более высокая валентность приводит к большему предчувствию, то есть к большей связанности. Для набора данных валентность измеряет отношение фактически связанных элементов данных к возможному количеству соединений, которые могут возникнуть в коллекции (валентность == связанность).

И наконец, 6] Ценность. Без четкой стратегии и цели с ценностью, которую они получают от больших данных. Легко представить, что организации будут отвлекаться на все эти проблемы, связанные с большими данными, и не смогут превратить их в возможности. рука.

Спасибо!!