У нас есть кластер MapR с Spark версии 2.0. Мы пытаемся измерить разницу в производительности запроса Hive, который в настоящее время выполняется на движке TEZ, а затем запускает его на Spark-sql, просто написав запрос sql в файле .hql и затем вызвав его. через файл оболочки.
Запрос содержит множество соединений, которые определенно создадут несколько этапов, и в этом сценарии будет происходить перемешивание, что было бы наиболее оптимальным выбором.?
Верно ли, что наборы данных в Spark медленнее, чем кадры данных для выполнения таких агрегатов, как groupBy, max, min, count и т. Д.
Итак, в каких областях фреймы данных работают лучше, чем наборы данных, и наоборот?