Большие данные — это большие объемы, высокая скорость и/или разнообразие информационных ресурсов, требующих рентабельных, инновационных форм обработки информации, которые обеспечивают более глубокое понимание, принятие решений и автоматизацию процессов. Большие данные состоят из множества компонентов, и иногда бывает сложно быстро их понять.

Большие данные — это не что иное, как любые данные, которые очень велики для обработки и получения на их основе выводов. Слишком большие данные не обязательно означают только их размер. Есть 3 V (объем, скорость и достоверность), которые в основном квалифицируют любые данные как большие данные. Объем касается тех терабайтов и петабайтов данных, которые слишком велики для быстрой обработки. Скорость имеет дело с данными, перемещающимися с высокой скоростью. Непрерывные потоковые данные являются примером данных со скоростью, и когда данные передаются с очень высокой скоростью, это может быть около 10000 сообщений в 1 микросекунду. Veracity работает как со структурированными, так и с неструктурированными данными.

Hadoop

Hadoop — это платформа распределенной обработки с открытым исходным кодом, которая управляет обработкой и хранением данных для приложений больших данных, работающих в кластерных системах. Давайте разберемся в этом по частям.

Это платформа с открытым исходным кодом, которая относится к любой программе, исходный код которой доступен для использования или изменения по усмотрению пользователей.

Это распределенная обработка. В Hadoop мы вместо того, чтобы вычислять все на очень мощной вычислительной машине, мы разделяем работу между набором машин, которые совместно обрабатывают данные и выдают результаты. Это также известно как горизонтальное масштабирование.

Он имеет функцию распределенного хранилища. Здесь мы не храним все данные на большом томе, а храним данные на разных машинах. Извлечение больших фрагментов данных из одного тома связано с большой задержкой.

Понимание HDFS и Map-Reduce

HDFS является частью Hadoop, которая занимается распределенным хранилищем. Он позволяет хранить и считывать большие объемы данных в распределенных системах. Map-Reduce имеет дело с частью распределенной обработки Hadoop.

Приведение улья и свиньи на картинке

Hive и ping больше похожи на механизм извлечения данных для Hadoop. Они предлагают возможности, подобные SQL, для извлечения данных из нереляционных/реляционных баз данных в Hadoop или из HDFS.

Базы данных без SQL

NoSQL (обычно называемый «Не только SQL») представляет собой совершенно другую структуру баз данных, которая обеспечивает высокопроизводительную и гибкую обработку информации в больших масштабах. Другими словами, это инфраструктура базы данных, очень хорошо адаптированная к высоким требованиям больших данных.

Перейдите по ссылке, чтобы узнать больше о Big Data.