Случайная выборка в Apache Spark Java

Нам нужно выполнить случайную выборку в apache spark, используя java. Следовательно, нам нужно выбрать случайное число точного количества записей из набора данных.

Мы используем приведенный ниже код. Иногда он не выбирает точное количество записей.

sampledDataSet=sampledDataSet.union(specficClassName.orderBy(rand()).limit(500));

Иллюстрация:

Предположим, что в наборе данных specficClassName есть 700 записей, он выбирает 650, несмотря на то, что мы упомянули 500 в качестве ограничения в приведенном выше примере.

В большинстве случаев мы не получаем точных 500 записей.

Не могли бы вы помочь нам, какую функцию использовать, чтобы получить точное количество записей.


person Shashi Kumar    schedule 12.10.2017    source источник
comment
Вы пробовали Dataset#sample Не уверен, что он гарантирует точное количество записей.   -  person hage    schedule 12.10.2017