Публикации по теме hadoop

Публикации по теме 'hadoop'

Расскажите об архитектуре Apache Flume.

Apache Flume — это устройство, которое используется для передачи больших объемов потоковых данных в HDFS. Компиляция лог-данных с веб-серверов в лог-файлы и их агрегация для просмотра в HDFS — типичный пример использования Flume. Flume поддерживает различные выходы, такие как следующие. «хвост» (который передает данные из локального файла и записывает через Flume в HDFS, аналогично команде «хвост» Unix) Логи с машины Apache log4j (позволяет Java-приложениям записывать события через..

Готовьтесь к экзамену на сертификацию инженера по данным Google Cloud Platform

Как не готовиться к экзамену GCP Data Engineer! На прошлой неделе я сдал свою первую профессиональную сертификацию и самый ожидаемый экзамен «Сертификация Google Cloud Data Engineer» после того, как не смог пройти экзамен Cloud Architect в декабре 2018 года. Как все вы, возможно, уже знаете, экзамен был обновлен 29 марта . В новой версии нет тематических исследований, есть несколько вопросов по новым сервисам, и она немного тяжелее на стороне машинного обучения. Один из подходов к..

Установка Hadoop и Mahout в Ubuntu 16.04 и 18.04

Após muitos testes mal sucedidos e ver diversos tutoriais incompletos, escrevo esse post para documentar o resultsado da minha pesquisa em sites e livros. É Importante Dizer Que instalação tratada aqui é uma instalação básica e support apenas o inicio de Experimentações e Testes. Чтобы установить приложение Hadoop, достаточно просто пройти через псевдо-распределенный кластер Hadoop, который не может быть выполнен в полной мере после того, как он будет использован для развития для..

Улучшение переменной расстояния временных рядов в больших данных

Мы сгенерируем синтетические данные трех случайных величин x1, x2 и x3 и оценим ответ y, добавив некоторый шум к линейной комбинации. Чтобы сформулировать проблему таким образом, чтобы мы могли предоставить нашим моделям больших данных как можно более полные данные, этот скрипт Python будет генерировать окна с учетом данных временного ряда. /сильный>» Во-первых, давайте посмотрим, какие данные у нас есть и какую терапию мы собираемся применять. N = 600, — Np.arange(0, N,..

10 терминов, связанных с большими данными, которые вам нужно знать прямо сейчас

1. Алгоритм: набор правил, определяемых статистическим процессом, используемый для программирования компьютера для выполнения анализа данных. 2. Ученый по работе с большими данными: волшебник данных, обладающий знаниями и навыками оперативной обработки как структурированных, так и неструктурированных данных и генерирующий полезные идеи для бизнеса. 3. Облачные вычисления: новая парадигма вычислительной службы, предоставляемая через Интернет «в облаке». Это привело к..

Нет решения для больших данных

При работе с большими данными иногда может казаться, что ты Дон Кихот кидаешься к ветряным мельницам - если «… ты не разбираешься в бизнесе приключений… отойди в сторону и помолись, пока я сражаюсь с [этими гигантами] яростно и жестко. неравный бой ». (из Приключения Дон Кихота Мигеля де Сервантеса Сааведры) Ты не одинок. Большие данные поставили в тупик некоторых из лучших ученых и исследователей. Фактически, компании заработали состояние, управляя большими объемами данных и..

Мягкое знакомство с Spark

На момент написания этой статьи Spark - лучший проект с открытым исходным кодом для инженеров по машинному обучению или специалистов по данным, интересующихся большими данными. Зачем вообще нам нужен Spark? Сама картинка ниже говорит все о том, зачем нам Spark. Если мы посмотрим на картинку выше, то огромное количество данных, генерируемых каждый час и обрабатывающих эти данные на компьютере, не имеет никакого смысла, потому что данные большие и не помещаются на компьютере в..