Публикации по теме hadoop

Публикации по теме 'hadoop'

Масштабируемое машинное обучение с помощью Spark

Распределенные алгоритмы, парадигма Map-Reduce, масштабируемое машинное обучение с использованием Spark MLlib в автономном режиме, кластер AWS EMR с Docker и Nvidia RAPIDS. С начала 2000-х объем собираемых данных значительно увеличился из-за появления таких интернет-гигантов, как Google, Netflix, Youtube, Amazon, Facebook и т. Д. Близко к 2010 , еще одна «волна данных» возникло, когда мобильные телефоны стали чрезвычайно популярными. В 2020-х годах мы ожидаем еще одного..

Хранилище данных и озеро данных

Предприятия уже давно полагаются на BI, чтобы продвигать свой бизнес вперед. Несколько лет назад для преобразования BI в полезную информацию требовалась помощь экспертов по данным. Сегодня технологии поддерживают бизнес-аналитику, которая доступна людям на всех уровнях предприятия. Все эти данные BI должны где-то жить. Решение для хранения данных, которое вы выбираете для разработки корпоративных приложений, предоставляет вашему бизнесу доступ к данным, их защиту и использование..

Механизмы больших данных для построения конвейеров данных машинного обучения - Введение (часть 1)

Механизмы больших данных для построения конвейеров данных машинного обучения - Введение (часть 1) Из-за разнообразия источников данных и объема данных, которые необходимо обработать, традиционные инструменты обработки данных не соответствуют требованиям к производительности и надежности современных приложений машинного обучения и анализа данных. В первой части этой серии статей будут рассмотрены механизмы обработки больших данных - Hadoop , Spark , Presto и Airflow . В..

Придаем искру вашему алгоритму

Придать искру вашему алгоритму от Йорга Шнайдера и Йенса Ортманна Кластерные вычисления быстро набирают обороты во всех отраслях. Все больше и больше компаний получают доступ к распределенным вычислительным мощностям в облаке. Некоторые даже создают свои собственные кластеры. Хотя это открывает огромные новые возможности для комплексного анализа, возникает вопрос, как продолжить работу с существующими алгоритмами: как можно ускорить существующие алгоритмы в кластере?..

Архитектура Hadoop YARN

Программирование Архитектура Hadoop YARN YARN означает еще один переговорщик ресурсов. YARN стала частью экосистемы Hadoop с появлением Hadoop 2.x, и вместе с ней произошли основные архитектурные изменения в Hadoop. YARN управляет ресурсами в кластерной среде. Вот и все? Разве до Hadoop 2.x у нас не было диспетчера ресурсов? Конечно, до Hadoop 2.x у нас был менеджер ресурсов, он назывался Job Tracker . Итак, что такое Job Tracker ? JobTracker (JT) используется для..

Знакомство с большими данными: на языке начинающих

Отказ от ответственности: я только что получил диплом специалиста в области науки о данных со специализацией в области больших данных и потоковой аналитики, но я ни в коем случае не являюсь экспертом в этой области. Чего я надеюсь достичь с помощью этого поста, так это упростить то, что я узнал из программы, объяснить неспециалистам, желающим узнать больше об этой области. Я, конечно, не смогу рассказать все о больших данных в этом посте, но я хотел бы хотя бы провести параллели между..