Вопросы по теме 'apache-spark-dataset'

Как создать набор данных из пользовательского класса Person?
Я пытался создать Dataset на Java, поэтому пишу следующий код: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset =...
4246 просмотров

Как написать класс case для столбца перечисления в наборе данных Apache Spark?
story1, 10, small story2, 20, medium sotry3, 3, small story4, 50, xlarge Я хочу преобразовать свои данные в набор данных. У меня есть имя столбца storyType (маленький, средний, большой, большой). Поэтому я не знаю, как написать свой класс case...
655 просмотров

Как назвать сводные столбцы?
Я использую Spark в Scala, и мои агрегированные столбцы анонимны. Есть ли удобный способ переименовать несколько столбцов из набора данных? Я думал о наложении схемы с as , но ключевой столбец представляет собой структуру (из-за операции groupBy...
17426 просмотров

Как эффективно переименовывать столбцы в наборах данных (Spark 2.0)
С DataFrames можно просто переименовать столбцы, используя df.withColumnRename("oldName", "newName") . В наборах данных, поскольку каждое поле имеет тип и имя, это кажется невозможным. Единственная работа, которую я могу придумать, - это...
6821 просмотров
schedule 14.07.2023

Переименовать вложенное поле в наборе данных Scala Spark 2.0
Я пытаюсь переименовать вложенное поле в наборе данных классов случаев, используя Spark 2.0. Ниже приведен пример, когда я пытаюсь переименовать «элемент» в «адрес» (сохраняя его вложенность в структуру данных): df.printSchema //Current Output:...
665 просмотров

Создайте DataFrame с нулевым значением для нескольких столбцов
Я пытаюсь создать DataFrame с помощью RDD . Сначала я создаю RDD , используя приведенный ниже код - val account = sc.parallelize(Seq( (1, null, 2,"F"), (2, 2, 4, "F"),...
13187 просмотров

Наборы данных Spark — строгая типизация
Что такое строго типизированный API и нетипизированный API по отношению к наборам данных Spark? Чем наборы данных похожи/отличаются от фреймов данных?
2627 просмотров

Как получить ключи и значения из столбца MapType в SparkSQL DataFrame
У меня есть данные в файле паркета, который имеет 2 поля: object_id: String и alpha: Map<> . Он считывается во фрейм данных в sparkSQL, и схема выглядит так: scala> alphaDF.printSchema() root |-- object_id: string (nullable =...
28606 просмотров

группа плоской карты набора данныхПо отсутствующему типу параметра
У меня есть набор данных со столбцом, который содержит список чисел. Я хочу подсчитать количество вхождений каждого числа во всех этих списках. Итак, я делаю flatMap, чтобы получить набор всех целых чисел. Я хочу сгруппировать его, чтобы у меня...
611 просмотров

Производительность фильтра Spark DataSet
Я экспериментировал с разными способами фильтрации набора типизированных данных. Оказывается, производительность может быть совсем другой. Набор данных был создан на основе строк данных размером 1,6 ГБ с 33 столбцами и 4226047 строками. DataSet...
14623 просмотров

Эквивалент набора данных Spark для сбора scala с частичной функцией
Обычные коллекции scala имеют отличный метод collect , который позволяет мне выполнять операцию filter-map за один проход, используя частичную функцию. Есть ли эквивалентная операция на spark Dataset s? Я хотел бы это по двум причинам:...
3948 просмотров

Добавление элемента в существующую структуру в искровом фрейме данных
У меня есть кадр данных pyspark, и схема выглядит так. root |-- useragent: string (nullable = true) |-- properties: struct (nullable = true) | |-- browser: string (nullable = true) | |-- device: string (nullable = true) Я использую udf...
1176 просмотров

Как распаковать несколько ключей в наборе данных Spark
У меня есть следующий DataSet со следующей структурой. case class Person(age: Int, gender: String, salary: Double) Я хочу определить среднюю зарплату по gender и age , поэтому я группирую DS по обоим ключам. Я столкнулся с двумя...
3311 просмотров

Как сделать самодекартово произведение по разным разделам набора данных Spark?
Мне нужно сравнить разные строки набора данных два к двум. В идеале я бы сделал самодекартово произведение набора данных, затем удалил бы повторяющиеся сравнения (поскольку A, B совпадает с B, A ) и, наконец, я бы сделал map , чтобы решить, равны...
699 просмотров

Итерируемая функция Spark CUSUM
Я все еще довольно новичок в Spark, и я изо всех сил пытаюсь реализовать повторяющуюся функцию. Я надеюсь, что кто-то может мне помочь? В частности, я пытаюсь реализовать статистику управления CUSUM : $ S_i = \max (0, S_{i-1} + x_i - Target -...
301 просмотров

Поиск наименьшего значения в строке Dataframe в Spark
Я пытаюсь найти наименьшее значение из [строки] в DataFrame. Как я могу это сделать? Мой набор данных выглядит примерно так: aaaa |-32566.335700000003| 27668.7725| 20183.4786| bbbb | -3.924099999999997| 5.802000000000006|...
884 просмотров

Использование custom UDF withColumn в наборе данных Spark ‹Row›; java.lang.String нельзя преобразовать в org.apache.spark.sql.Row
У меня есть файл JSON, содержащий много полей. Я прочитал файл с помощью набора данных Spark в java. Spark версии 2.2.0 Java JDK 1.8.0_121 Ниже приведен код. SparkSession spark = SparkSession .builder()...
8852 просмотров

Как установить кодировщик для набора данных Spark при импорте файла csv или txt
У меня возникла проблема с этой частью кода Spark Mllib из документации ( https://spark.apache.org/docs/latest/ml-collaborative-filtering.html ", используя файлы csv или txt: val ratings =...
105 просмотров

Проверка полевых данных с использованием искрового фрейма данных
У меня есть куча столбцов, например, мои данные отображаются, как показано ниже. Мне нужно проверить столбцы на наличие ошибок и сгенерировать два выходных файла. Я использую Apache Spark 2.0 и хочу сделать это эффективно. Schema Details...
8596 просмотров

Случайная выборка в Apache Spark Java
Нам нужно выполнить случайную выборку в apache spark, используя java. Следовательно, нам нужно выбрать случайное число точного количества записей из набора данных. Мы используем приведенный ниже код. Иногда он не выбирает точное количество...
92 просмотров