Набор данных Spark или фрейм данных для агрегирования

У нас есть кластер MapR с Spark версии 2.0. Мы пытаемся измерить разницу в производительности запроса Hive, который в настоящее время выполняется на движке TEZ, а затем запускает его на Spark-sql, просто написав запрос sql в файле .hql и затем вызвав его. через файл оболочки.

Запрос содержит множество соединений, которые определенно создадут несколько этапов, и в этом сценарии будет происходить перемешивание, что было бы наиболее оптимальным выбором.?

Верно ли, что наборы данных в Spark медленнее, чем кадры данных для выполнения таких агрегатов, как groupBy, max, min, count и т. Д.

Итак, в каких областях фреймы данных работают лучше, чем наборы данных, и наоборот?

AJm 17.10.2017 источник

Ответы (1)

arrow_upward
0
arrow_downward

В Spark 2.0 Dataset [Row] является псевдонимом Dataframe, поэтому проблем с производительностью быть не должно.

Пожалуйста, посмотри:

Paul Leclercq 17.10.2017

comment

Значит ли это, что наборы данных и фреймы данных Spark очень похожи по производительности во всех аспектах? - AJm; 18.10.2017

comment

@Aijaz yes Dataset = Dataframe + безопасность типов - Paul Leclercq; 18.10.2017

Набор данных Spark или фрейм данных для агрегирования

Ответы (1)

Вопросы по теме