У меня есть просьба использовать для этого rdd :
val test = Seq(("New York", "Jack"),
("Los Angeles", "Tom"),
("Chicago", "David"),
("Houston", "John"),
("Detroit", "Michael"),
("Chicago", "Andrew"),
("Detroit", "Peter"),
("Detroit", "George")
)
sc.parallelize(test).groupByKey().mapValues(_.toList).foreach(println)
В результате :
(Нью-Йорк, Лист (Джек))
(Детройт, Лист (Майкл, Питер, Джордж))
(Лос-Анджелес, Список (Том))
(Хьюстон, Лист (Джон))
(Чикаго, Лист (Дэвид, Эндрю))
Как использовать набор данных с spark2.0?
У меня есть способ использовать пользовательскую функцию, но ощущение настолько сложное, что нет простого точечного метода?