Набор данных Spark или фрейм данных для агрегирования

У нас есть кластер MapR с Spark версии 2.0. Мы пытаемся измерить разницу в производительности запроса Hive, который в настоящее время выполняется на движке TEZ, а затем запускает его на Spark-sql, просто написав запрос sql в файле .hql и затем вызвав его. через файл оболочки.

Запрос содержит множество соединений, которые определенно создадут несколько этапов, и в этом сценарии будет происходить перемешивание, что было бы наиболее оптимальным выбором.?

Верно ли, что наборы данных в Spark медленнее, чем кадры данных для выполнения таких агрегатов, как groupBy, max, min, count и т. Д.

Итак, в каких областях фреймы данных работают лучше, чем наборы данных, и наоборот?




Ответы (1)


В Spark 2.0 Dataset [Row] является псевдонимом Dataframe, поэтому проблем с производительностью быть не должно.

Пожалуйста, посмотри:

person Paul Leclercq    schedule 17.10.2017
comment
Значит ли это, что наборы данных и фреймы данных Spark очень похожи по производительности во всех аспектах? - person AJm; 18.10.2017
comment
@Aijaz yes Dataset = Dataframe + безопасность типов - person Paul Leclercq; 18.10.2017