Подходят ли mapreduce и любые другие технологии Hadoop (HBase, Hive, pig и т. д.) в ситуациях, когда у вас есть несколько входных файлов и когда данные необходимо сравнивать между различными источниками данных.
В прошлом я написал несколько задач по уменьшению карты, используя Hadoop и Pig. Однако эти задачи были довольно простыми, поскольку они включали манипулирование только одним набором данных. Требования, которые у нас есть сейчас, требуют, чтобы мы считывали данные из нескольких источников и выполняли сравнения различных элементов данных в другом источнике данных. Затем мы сообщаем о различиях. Наборы данных, с которыми мы работаем, составляют от 10 до 60 миллионов записей, и до сих пор нам не удавалось выполнять эти задания достаточно быстро.
Есть ли смысл использовать mapreduce для решения таких проблем, или я иду по неправильному пути.
Любые предложения очень ценятся.