Публикации по теме apache-spark-dataset

Вопросы по теме 'apache-spark-dataset'

Как создать набор данных из пользовательского класса Person?

Я пытался создать Dataset на Java, поэтому пишу следующий код: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset =...

4246 просмотров

apache-spark apache-spark-sql apache-spark-dataset

24.02.2023

Как написать класс case для столбца перечисления в наборе данных Apache Spark?

story1, 10, small story2, 20, medium sotry3, 3, small story4, 50, xlarge Я хочу преобразовать свои данные в набор данных. У меня есть имя столбца storyType (маленький, средний, большой, большой). Поэтому я не знаю, как написать свой класс case...

655 просмотров

apache-spark scala apache-spark-dataset case-class

01.06.2023

Как назвать сводные столбцы?

Я использую Spark в Scala, и мои агрегированные столбцы анонимны. Есть ли удобный способ переименовать несколько столбцов из набора данных? Я думал о наложении схемы с as , но ключевой столбец представляет собой структуру (из-за операции groupBy...

17426 просмотров

apache-spark scala apache-spark-dataset

30.06.2022

Как эффективно переименовывать столбцы в наборах данных (Spark 2.0)

С DataFrames можно просто переименовать столбцы, используя df.withColumnRename("oldName", "newName") . В наборах данных, поскольку каждое поле имеет тип и имя, это кажется невозможным. Единственная работа, которую я могу придумать, - это...

6821 просмотров

apache-spark apache-spark-dataset

14.07.2023

Переименовать вложенное поле в наборе данных Scala Spark 2.0

Я пытаюсь переименовать вложенное поле в наборе данных классов случаев, используя Spark 2.0. Ниже приведен пример, когда я пытаюсь переименовать «элемент» в «адрес» (сохраняя его вложенность в структуру данных): df.printSchema //Current Output:...

665 просмотров

apache-spark scala apache-spark-dataset

12.06.2022

Создайте DataFrame с нулевым значением для нескольких столбцов

Я пытаюсь создать DataFrame с помощью RDD . Сначала я создаю RDD , используя приведенный ниже код - val account = sc.parallelize(Seq( (1, null, 2,"F"), (2, 2, 4, "F"),...

13187 просмотров

apache-spark scala apache-spark-dataset spark-dataframe

17.08.2022

Наборы данных Spark — строгая типизация

Что такое строго типизированный API и нетипизированный API по отношению к наборам данных Spark? Чем наборы данных похожи/отличаются от фреймов данных?

2627 просмотров

apache-spark dataset apache-spark-dataset

13.02.2023

Как получить ключи и значения из столбца MapType в SparkSQL DataFrame

У меня есть данные в файле паркета, который имеет 2 поля: object_id: String и alpha: Map<> . Он считывается во фрейм данных в sparkSQL, и схема выглядит так: scala> alphaDF.printSchema() root |-- object_id: string (nullable =...

28606 просмотров

apache-spark dataframe apache-spark-sql scala apache-spark-dataset

18.04.2022

группа плоской карты набора данныхПо отсутствующему типу параметра

У меня есть набор данных со столбцом, который содержит список чисел. Я хочу подсчитать количество вхождений каждого числа во всех этих списках. Итак, я делаю flatMap, чтобы получить набор всех целых чисел. Я хочу сгруппировать его, чтобы у меня...

611 просмотров

apache-spark scala apache-spark-dataset

30.03.2023

Производительность фильтра Spark DataSet

Я экспериментировал с разными способами фильтрации набора типизированных данных. Оказывается, производительность может быть совсем другой. Набор данных был создан на основе строк данных размером 1,6 ГБ с 33 столбцами и 4226047 строками. DataSet...

14623 просмотров

apache-spark apache-spark-sql apache-spark-dataset spark-dataframe

16.12.2022

Эквивалент набора данных Spark для сбора scala с частичной функцией

Обычные коллекции scala имеют отличный метод collect , который позволяет мне выполнять операцию filter-map за один проход, используя частичную функцию. Есть ли эквивалентная операция на spark Dataset s? Я хотел бы это по двум причинам:...

3948 просмотров

apache-spark scala apache-spark-dataset

10.01.2023

Добавление элемента в существующую структуру в искровом фрейме данных

У меня есть кадр данных pyspark, и схема выглядит так. root |-- useragent: string (nullable = true) |-- properties: struct (nullable = true) | |-- browser: string (nullable = true) | |-- device: string (nullable = true) Я использую udf...

1176 просмотров

apache-spark pyspark apache-spark-dataset spark-dataframe

24.09.2023

Как распаковать несколько ключей в наборе данных Spark

У меня есть следующий DataSet со следующей структурой. case class Person(age: Int, gender: String, salary: Double) Я хочу определить среднюю зарплату по gender и age , поэтому я группирую DS по обоим ключам. Я столкнулся с двумя...

3311 просмотров

apache-spark scala apache-spark-dataset

06.11.2022

Как сделать самодекартово произведение по разным разделам набора данных Spark?

Мне нужно сравнить разные строки набора данных два к двум. В идеале я бы сделал самодекартово произведение набора данных, затем удалил бы повторяющиеся сравнения (поскольку A, B совпадает с B, A ) и, наконец, я бы сделал map , чтобы решить, равны...

699 просмотров

apache-spark scala apache-spark-dataset

21.12.2023

Итерируемая функция Spark CUSUM

Я все еще довольно новичок в Spark, и я изо всех сил пытаюсь реализовать повторяющуюся функцию. Я надеюсь, что кто-то может мне помочь? В частности, я пытаюсь реализовать статистику управления CUSUM : $ S_i = \max (0, S_{i-1} + x_i - Target -...

301 просмотров

apache-spark scala apache-spark-dataset udf iterated-function

09.09.2022

Поиск наименьшего значения в строке Dataframe в Spark

Я пытаюсь найти наименьшее значение из [строки] в DataFrame. Как я могу это сделать? Мой набор данных выглядит примерно так: aaaa |-32566.335700000003| 27668.7725| 20183.4786| bbbb | -3.924099999999997| 5.802000000000006|...

884 просмотров

apache-spark apache-spark-sql apache-spark-dataset

15.09.2022

Использование custom UDF withColumn в наборе данных Spark ‹Row›; java.lang.String нельзя преобразовать в org.apache.spark.sql.Row

У меня есть файл JSON, содержащий много полей. Я прочитал файл с помощью набора данных Spark в java. Spark версии 2.2.0 Java JDK 1.8.0_121 Ниже приведен код. SparkSession spark = SparkSession .builder()...

8852 просмотров

java apache-spark apache-spark-sql user-defined-functions apache-spark-dataset

23.05.2023

Как установить кодировщик для набора данных Spark при импорте файла csv или txt

У меня возникла проблема с этой частью кода Spark Mllib из документации ( https://spark.apache.org/docs/latest/ml-collaborative-filtering.html ", используя файлы csv или txt: val ratings =...

105 просмотров

csv apache-spark-mllib apache-spark-dataset implicits

23.10.2022

Проверка полевых данных с использованием искрового фрейма данных

У меня есть куча столбцов, например, мои данные отображаются, как показано ниже. Мне нужно проверить столбцы на наличие ошибок и сгенерировать два выходных файла. Я использую Apache Spark 2.0 и хочу сделать это эффективно. Schema Details...

8596 просмотров

apache-spark apache-spark-sql apache-spark-dataset

17.12.2022

Случайная выборка в Apache Spark Java

Нам нужно выполнить случайную выборку в apache spark, используя java. Следовательно, нам нужно выбрать случайное число точного количества записей из набора данных. Мы используем приведенный ниже код. Иногда он не выбирает точное количество...

92 просмотров

random apache-spark apache-spark-sql apache-spark-dataset

11.04.2023