Публикации по теме 'hadoop'
Расскажите об архитектуре Apache Flume.
Apache Flume — это устройство, которое используется для передачи больших объемов потоковых данных в HDFS. Компиляция лог-данных с веб-серверов в лог-файлы и их агрегация для просмотра в HDFS — типичный пример использования Flume.
Flume поддерживает различные выходы, такие как следующие.
«хвост» (который передает данные из локального файла и записывает через Flume в HDFS, аналогично команде «хвост» Unix) Логи с машины Apache log4j (позволяет Java-приложениям записывать события через..
Готовьтесь к экзамену на сертификацию инженера по данным Google Cloud Platform
Как не готовиться к экзамену GCP Data Engineer!
На прошлой неделе я сдал свою первую профессиональную сертификацию и самый ожидаемый экзамен «Сертификация Google Cloud Data Engineer» после того, как не смог пройти экзамен Cloud Architect в декабре 2018 года. Как все вы, возможно, уже знаете, экзамен был обновлен 29 марта . В новой версии нет тематических исследований, есть несколько вопросов по новым сервисам, и она немного тяжелее на стороне машинного обучения. Один из подходов к..
Установка Hadoop и Mahout в Ubuntu 16.04 и 18.04
Após muitos testes mal sucedidos e ver diversos tutoriais incompletos, escrevo esse post para documentar o resultsado da minha pesquisa em sites e livros. É Importante Dizer Que instalação tratada aqui é uma instalação básica e support apenas o inicio de Experimentações e Testes.
Чтобы установить приложение Hadoop, достаточно просто пройти через псевдо-распределенный кластер Hadoop, который не может быть выполнен в полной мере после того, как он будет использован для развития для..
Улучшение переменной расстояния временных рядов в больших данных
Мы сгенерируем синтетические данные трех случайных величин x1, x2 и x3 и оценим ответ y, добавив некоторый шум к линейной комбинации. Чтобы сформулировать проблему таким образом, чтобы мы могли предоставить нашим моделям больших данных как можно более полные данные, этот скрипт Python будет генерировать окна с учетом данных временного ряда. /сильный>»
Во-первых, давайте посмотрим, какие данные у нас есть и какую терапию мы собираемся применять.
N = 600, —
Np.arange(0, N,..
10 терминов, связанных с большими данными, которые вам нужно знать прямо сейчас
1. Алгоритм: набор правил, определяемых статистическим процессом, используемый для программирования компьютера для выполнения анализа данных.
2. Ученый по работе с большими данными: волшебник данных, обладающий знаниями и навыками оперативной обработки как структурированных, так и неструктурированных данных и генерирующий полезные идеи для бизнеса.
3. Облачные вычисления: новая парадигма вычислительной службы, предоставляемая через Интернет «в облаке». Это привело к..
Нет решения для больших данных
При работе с большими данными иногда может казаться, что ты Дон Кихот кидаешься к ветряным мельницам - если «… ты не разбираешься в бизнесе приключений… отойди в сторону и помолись, пока я сражаюсь с [этими гигантами] яростно и жестко. неравный бой ». (из Приключения Дон Кихота Мигеля де Сервантеса Сааведры)
Ты не одинок. Большие данные поставили в тупик некоторых из лучших ученых и исследователей. Фактически, компании заработали состояние, управляя большими объемами данных и..
Мягкое знакомство с Spark
На момент написания этой статьи Spark - лучший проект с открытым исходным кодом для инженеров по машинному обучению или специалистов по данным, интересующихся большими данными.
Зачем вообще нам нужен Spark?
Сама картинка ниже говорит все о том, зачем нам Spark.
Если мы посмотрим на картинку выше, то огромное количество данных, генерируемых каждый час и обрабатывающих эти данные на компьютере, не имеет никакого смысла, потому что данные большие и не помещаются на компьютере в..