Нам нужно выполнить случайную выборку в apache spark, используя java. Следовательно, нам нужно выбрать случайное число точного количества записей из набора данных.
Мы используем приведенный ниже код. Иногда он не выбирает точное количество записей.
sampledDataSet=sampledDataSet.union(specficClassName.orderBy(rand()).limit(500));
Иллюстрация:
Предположим, что в наборе данных specficClassName есть 700 записей, он выбирает 650, несмотря на то, что мы упомянули 500 в качестве ограничения в приведенном выше примере.
В большинстве случаев мы не получаем точных 500 записей.
Не могли бы вы помочь нам, какую функцию использовать, чтобы получить точное количество записей.
Dataset#sample
Не уверен, что он гарантирует точное количество записей. - person hage   schedule 12.10.2017