Начало работы с Apache Spark

Серия статей, которые помогут вам начать работу с Apache Spark!

Определение больших данных

С постепенным увеличением распределенных вычислений, вычислительной мощности и множества вариантов хранения, появившихся в последнее десятилетие, термин «большие данные» стал широко использоваться. Что такое большие данные и какие данные можно назвать большими данными?

По сути, мы можем описать это, используя
Объем
3V Объем генерируемых данных (измеряется в байтах, мегабайтах, гигабайтах, терабайтах…..)

Скорость
Скорость генерации данных в режиме реального времени, потоковой передачи или пакетов.

Разнообразие
Тип данных — структурированные или неструктурированные

Типы данных и источники

Данные могут поступать из различных источников данных и могут иметь различные типы данных, содержащиеся в данных, от вещественных до символьных и текстовых файлов. Данные могут принимать различные формы и поступать из разных источников. Некоторые из наиболее известных источников данных —

Данные приложений — могут содержать данные о транзакциях, данные CRM, данные о клиентах, данные о работодателе, данные о сотрудниках и т. д. из внутренних приложений или из определенных общедоступных приложений.

Журналы и мониторинг. В основном он состоит из событий, происходящих в устройствах IoT, метаданных из различных приложений и журналов запуска/сбоев из различных приложений. Он также может иметь некоторые данные проверок мониторинга.

Источники потоковой передачи и датчики Интернета вещей. Потоки в режиме реального времени, такие как события устройств Интернета вещей, потоковое видео, потоковое аудио и потоковые события.

Типы данных.
Данные могут принимать разные формы, но в основном они делятся на 3 категории:
1. Структурированные данные
2. Полуструктурированные данные
3 , Неструктурированные данные

Структурированные данные
Как правило, это табличные данные, представленные столбцами и строками в базе данных. Базы данных, содержащие таблицы в такой форме, называются реляционными базами данных. Математический термин «отношение» указывает на сформированный набор данных, хранящихся в виде таблицы. В структурированных данных все строки в таблице имеют одинаковый набор столбцов. Язык программирования SQL (Structured Query Language), используемый для структурированных данных.
Полуструктурированные данные
Данные — это информация, которая не состоит из структурированных данных (реляционная база данных), но все же имеет определенную структуру. Полуструктурированные данные состоят из документов, хранящихся в формате JavaScript Object Notation (JSON). Он также включает в себя хранилища пар "ключ-значение" и графыбазы данных.
Неструктурированные данные
Это информация, которая либо не организована заранее определенным образом, либо не имеет заранее определенной модели данных. Неструктурированная информация представляет собой набор текстовых данных, но может также содержать такие данные, как числа, даты и факты. Видео, аудио и двоичные файлы данных могут не иметь определенной структуры. Они назначаются как неструктурированные данные.

Распределенные системы

Система, компоненты которой расположены в нескольких местах в сети, которые взаимодействуют друг с другом, передавая сообщения между собой для достижения общей цели. Можно представить себе единый муравейник, внутри которого тысячи рабочих и бункеров. Выход из строя одного компонента не оказывает существенного влияния на всю систему.

Есть несколько преимуществ распределенных систем:

Горизонтальное масштабирование
Надежность
Параллельные вычисления
Более высокая производительность
Гибкость
Открытость

Наряду с этими преимуществами мы также сталкиваемся с некоторыми проблемами:

Мониторинг и обслуживание
Координация, зависимость, планирование

HDFS (распределенная файловая система Hadoop)

HDFS имеет архитектуру главного и подчиненного серверов. Главный узел управляет пространством имен файлов и регулированием доступа клиентов к файлам. Узлы данных управляют хранилищем, подключенным к узлам, данные хранятся в виде файлов. По умолчанию файл разбит на блоки данных размером 128 МБ. Каждый блок реплицируется 3 раза по умолчанию, чтобы иметь отказоустойчивую систему. Узлы данных периодически отправляют тактовый сигнал на узел имени.

Приведенный выше абзац в основном представляет собой упрощенную версию HDFS и архитектуры, которой она следует. Теперь мы должны сначала рассмотреть термины, используемые в предыдущем абзаце.

Архитектура Master-Slave. Архитектура Apache Hadoop HDFS следует архитектуре Master/Slave, где кластер состоит из одного узла NameNode (главного узла), а все остальные узлы являются узлами данных (подчиненными узлами). HDFS можно развернуть на широком спектре машин, поддерживающих Java.
NameNode работает как Master в кластере Hadoop. Ниже перечислены основные функции, выполняемые NameNode:
1. Сохраняет метаданные фактических данных. Например. Имя файла, путь, количество блоков данных, идентификаторы блоков, местоположение блока, количество реплик, конфигурация, связанная с ведомым устройством
2. Управляет пространством имен файловой системы.
3. Регулирует запрос клиентского доступа к фактическому файлу данных файла .
4. Назначить работу ведомым устройствам (DataNode).
5. Выполняет операции с пространством имен файловой системы, такие как открытие/закрытие файлов, переименование файлов и каталогов.
6. В качестве узла Name хранить метаданные в памяти для быстрого поиска, для его работы требуется огромный объем памяти. Это должно быть размещено на надежном оборудовании.
Data Node работает как Slave в кластере Hadoop. Ниже перечислены основные функции, выполняемые DataNode:
1. Фактически хранит бизнес-данные.
2. Это фактический рабочий узел, на котором выполняется чтение/запись/обработка данных.
3. По инструкции от Master он выполняет создание/репликацию/удаление блоков данных.
4. Поскольку все бизнес-данные хранятся на DataNode, для его работы требуется огромный объем хранилища. Для размещения DataNode можно использовать стандартное оборудование.
Heartbeat Signal — это сигнал от Datanode к Namenode, указывающий, что он активен. В HDFS отсутствие сердцебиения указывает на наличие какой-либо проблемы, а затем Namenode, Datanode не может выполнять какие-либо вычисления.

Надеюсь, эта статья послужит вводной статьей о концепциях BigData и Spark! Я буду публиковать последующие статьи и ссылки на них ниже. Ваше здоровье!

Следите за большим количеством контента!

Другие статьи, которые могут быть интересны:
— Часть этой серии:

Ура и следите за большим количеством такого контента! :)

Теперь вы тоже можете угостить меня кофе, если вам понравился контент!
samunderscore12 создает контент по науке о данных! (buymeacoffee.com)

Начало работы с Apache Spark — I

Определение больших данных

Типы данных и источники

Распределенные системы

HDFS (распределенная файловая система Hadoop)

Вопросы по теме