Публикации по теме 'hadoop'
Код MapReduce в Python
задача состоит в том, чтобы убедиться, что код картографа не дает сбой на поврежденных строках данных, а вместо этого просто игнорирует их и продолжает работать import sys
def mapper():
for line in sys.stdin:
data = line.strip().split("\t")
if len(data) == 6:
date,time,store,item,cost,payment = data
print "{0}\t{1}".format(store,cost)
def main():
import StringIO
sys.stdin = StringIO.StringIO(test_text)
mapper()
sys.stdin = sys.__stdin__
Концепции для начинающих в программировании Akka Actor с помощью Scala
Введение в программирование на Akka:
Как можно короче, давайте посмотрим, как мы разрабатываем приложения Akka.
Приложения Akka создаются в 2 простых шага.
1. Создайте протоколы сообщений. 2. Создайте актеров.
Актеры и передача сообщений:
Актер - это нить, имеющая почтовый ящик для приема сообщений.
Чтобы реализовать актера, вы создаете подкласс scala.actors.Actor и реализуете метод act.
Этот актер ничего не делает со своим почтовым ящиком. Он просто печатает сообщение..
Введение в Hadoop, часть 4
Привет, ребята,
В предыдущих статьях мы подробно обсудили компонент основного стека Hadoop (HDFS, YARN, MapReduce) и компоненты стека обработки данных (Apache Pig, Apache HBase, Apache Hive, Apache Cassandra, Apache Spark, Apache Storm, Apache Sqoop и т. д. ). В этой статье мы рассмотрим третий стек эхо-системы Hadoop, который является координирующим стеком.
Итак, приступим…
Инструменты базового стека Hadoop координируют работу различных сервисов в экосистеме Hadoop. Он..
Масштабируемая архитектура для обработки массивно-параллельных данных.
Введение
Вы, вероятно, испытали хотя бы один или два раза в своей жизни, когда вы вошли в свой туалет и увидели полную катастрофу. Особенно, когда их приходится сортировать и систематизировать.
Но представьте себе мир, в котором вы можете просто управлять машиной или использовать пульт дистанционного управления, и все будет в порядке, а ваши белые и цветные футболки будут аккуратно сложены, разве это не удивительно?
Это в основном работа Hadoop в больших данных.
Позвольте мне..
Подробное описание функций массива Apache Spark
ТЕХНОЛОГИЯ ЭКСПЕДИА ГРУПП - ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ
Подробное описание функций массива Apache Spark
Практическое руководство по использованию функций массива
В этом посте мы узнаем о функциях массива Apache Spark на примерах, показывающих, как работает каждая функция. Вам также могут быть интересны мои предыдущие сообщения об Apache Spark.
Начните свое путешествие с Apache Spark - Часть 1 Начните свое путешествие с Apache Spark - Часть 2 Начни свое путешествие с Apache..
Почему Spark работает лучше, чем Hadoop?
ТЕХНОЛОГИЯ ЭКСПЕДИА ГРУПП - ДАННЫЕ
Почему Spark работает лучше, чем Hadoop?
Сравнительный анализ двух механизмов обработки данных, Hadoop и Spark.
Что такое Spark?
Это быстрый универсальный движок для крупномасштабной обработки данных. Spark - это механизм выполнения, который может выполнять быстрые вычисления на больших наборах данных.
Spark против Hadoop
В этом разделе мы увидим, чем Hadoop и Spark отличаются с точки зрения скорости, хранения и управления ресурсами...
Hive Metastore - почему он все еще здесь и что может его заменить?
В большинстве архитектур данных по-прежнему присутствует Hive Metastore. Почему он сохранился и что, наконец, может заменить его в будущем?
Hive & Hadoop - Краткая история
Apache Hive появился в 2010 году как компонент экосистемы Hadoop, когда Hadoop был новым и инновационным способом анализа больших данных.
Что сделал Hive, так это реализовал интерфейс SQL для Hadoop. Его архитектура состояла из двух основных сервисов:
Механизм запросов - отвечает за выполнение оператора..