10 терминов, связанных с большими данными, которые вам нужно знать прямо сейчас

1. Алгоритм: набор правил, определяемых статистическим процессом, используемый для программирования компьютера для выполнения анализа данных.

2. Ученый по работе с большими данными: волшебник данных, обладающий знаниями и навыками оперативной обработки как структурированных, так и неструктурированных данных и генерирующий полезные идеи для бизнеса.

3. Облачные вычисления: новая парадигма вычислительной службы, предоставляемая через Интернет «в облаке». Это привело к заметному отходу от традиционного взгляда бизнеса на ИТ-ресурсы. Все вычислительные услуги, такие как серверы, хранилища, базы данных, сети, программное обеспечение, аналитика, аналитика и многое другое, находятся только в Интернете («облаке»), чтобы предлагать более быстрые инновации, гибкие ресурсы и экономические преимущества.

4. Озеро данных: репозиторий для хранения обширного пула необработанных данных (намного больше, чем хранилища необработанных данных), цель которого до сих пор неизвестна. Конечными пользователями обычно являются специалисты по данным, в отличие от хранилищ данных, к которым обращаются профессионалы в области бизнеса.

5. Хранилище данных: система хранения данных из нескольких источников с целью анализа и составления отчетов. Сгенерированные отчеты используются для принятия бизнес-решений.

6. Flume :Flume определяется как надежный, распределенный и доступный сервис для агрегирования, сбора и передачи огромных объемов данных в HDFS.

7. Hadoop: платформа программного обеспечения с открытым исходным кодом, управляет обработкой приложений для работы с большими данными, работающих в кластерных системах. Hadoop может обрабатывать различные формы структурированных и неструктурированных данных, предоставляя пользователям больше возможностей для сбора, обработки и анализа данных, чем реляционные базы данных и хранилища данных. предоставлять.

8. MapReduce : «MapReduce» = фаза сопоставления + фаза сокращения. Программная среда для простого написания приложений, обрабатывающих огромные объемы данных, обеспечивает масштабируемость на сотнях или тысячах серверов в кластере Hadoop.

9. Онлайн-аналитическая обработка (OLAP): позволяет пользователям одновременно проводить многомерный анализ бизнес-данных из нескольких систем баз данных. С помощью OLAP пользователи могут проводить сложные расчеты, анализ тенденций и сложное моделирование данных. Хранилища данных используются для оперативной аналитической обработки (OLAP), которая использует сложные запросы для анализа, а не для обработки транзакций.

10. (Apache)Spark: унифицированный аналитический механизм для крупномасштабной распределенной обработки данных и машинного обучения. Apache Spark предназначен для быстрого запроса, анализа и преобразования данных в больших масштабах. Чаще всего Spark используется для пакетных заданий ETL и SQL для больших наборов данных, обработки потоковых данных с датчиков, IoT или финансовых систем, а также задач машинного обучения. .

Ищете курс по большим данным? Запишитесь на Сертификационный курс Data Science and Big Data Analytics в IvyPro School и изучите новейшие инструменты работы с большими данными, чтобы вывести свою карьеру на новый уровень.

10 терминов, связанных с большими данными, которые вам нужно знать прямо сейчас

Вопросы по теме