Публикации по теме hadoop

Публикации по теме 'hadoop'

Код MapReduce в Python

задача состоит в том, чтобы убедиться, что код картографа не дает сбой на поврежденных строках данных, а вместо этого просто игнорирует их и продолжает работать import sys def mapper(): for line in sys.stdin: data = line.strip().split("\t") if len(data) == 6: date,time,store,item,cost,payment = data print "{0}\t{1}".format(store,cost) def main(): import StringIO sys.stdin = StringIO.StringIO(test_text) mapper() sys.stdin = sys.__stdin__

Концепции для начинающих в программировании Akka Actor с помощью Scala

Введение в программирование на Akka: Как можно короче, давайте посмотрим, как мы разрабатываем приложения Akka. Приложения Akka создаются в 2 простых шага. 1. Создайте протоколы сообщений. 2. Создайте актеров. Актеры и передача сообщений: Актер - это нить, имеющая почтовый ящик для приема сообщений. Чтобы реализовать актера, вы создаете подкласс scala.actors.Actor и реализуете метод act. Этот актер ничего не делает со своим почтовым ящиком. Он просто печатает сообщение..

Введение в Hadoop, часть 4

Привет, ребята, В предыдущих статьях мы подробно обсудили компонент основного стека Hadoop (HDFS, YARN, MapReduce) и компоненты стека обработки данных (Apache Pig, Apache HBase, Apache Hive, Apache Cassandra, Apache Spark, Apache Storm, Apache Sqoop и т. д. ). В этой статье мы рассмотрим третий стек эхо-системы Hadoop, который является координирующим стеком. Итак, приступим… Инструменты базового стека Hadoop координируют работу различных сервисов в экосистеме Hadoop. Он..

Масштабируемая архитектура для обработки массивно-параллельных данных.

Введение Вы, вероятно, испытали хотя бы один или два раза в своей жизни, когда вы вошли в свой туалет и увидели полную катастрофу. Особенно, когда их приходится сортировать и систематизировать. Но представьте себе мир, в котором вы можете просто управлять машиной или использовать пульт дистанционного управления, и все будет в порядке, а ваши белые и цветные футболки будут аккуратно сложены, разве это не удивительно? Это в основном работа Hadoop в больших данных. Позвольте мне..

Подробное описание функций массива Apache Spark

ТЕХНОЛОГИЯ ЭКСПЕДИА ГРУПП - ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ Подробное описание функций массива Apache Spark Практическое руководство по использованию функций массива В этом посте мы узнаем о функциях массива Apache Spark на примерах, показывающих, как работает каждая функция. Вам также могут быть интересны мои предыдущие сообщения об Apache Spark. Начните свое путешествие с Apache Spark - Часть 1 Начните свое путешествие с Apache Spark - Часть 2 Начни свое путешествие с Apache..

Почему Spark работает лучше, чем Hadoop?

ТЕХНОЛОГИЯ ЭКСПЕДИА ГРУПП - ДАННЫЕ Почему Spark работает лучше, чем Hadoop? Сравнительный анализ двух механизмов обработки данных, Hadoop и Spark. Что такое Spark? Это быстрый универсальный движок для крупномасштабной обработки данных. Spark - это механизм выполнения, который может выполнять быстрые вычисления на больших наборах данных. Spark против Hadoop В этом разделе мы увидим, чем Hadoop и Spark отличаются с точки зрения скорости, хранения и управления ресурсами...

Hive Metastore - почему он все еще здесь и что может его заменить?

В большинстве архитектур данных по-прежнему присутствует Hive Metastore. Почему он сохранился и что, наконец, может заменить его в будущем? Hive & Hadoop - Краткая история Apache Hive появился в 2010 году как компонент экосистемы Hadoop, когда Hadoop был новым и инновационным способом анализа больших данных. Что сделал Hive, так это реализовал интерфейс SQL для Hadoop. Его архитектура состояла из двух основных сервисов: Механизм запросов - отвечает за выполнение оператора..