Вопросы по теме 'apache-spark-dataset'
Как создать набор данных из пользовательского класса Person?
Я пытался создать Dataset на Java, поэтому пишу следующий код:
public Dataset createDataset(){
List<Person> list = new ArrayList<>();
list.add(new Person("name", 10, 10.0));
Dataset<Person> dateset =...
4246 просмотров
schedule
24.02.2023
Как написать класс case для столбца перечисления в наборе данных Apache Spark?
story1, 10, small
story2, 20, medium
sotry3, 3, small
story4, 50, xlarge
Я хочу преобразовать свои данные в набор данных. У меня есть имя столбца storyType (маленький, средний, большой, большой). Поэтому я не знаю, как написать свой класс case...
655 просмотров
schedule
01.06.2023
Как назвать сводные столбцы?
Я использую Spark в Scala, и мои агрегированные столбцы анонимны. Есть ли удобный способ переименовать несколько столбцов из набора данных? Я думал о наложении схемы с as , но ключевой столбец представляет собой структуру (из-за операции groupBy...
17426 просмотров
schedule
30.06.2022
Как эффективно переименовывать столбцы в наборах данных (Spark 2.0)
С DataFrames можно просто переименовать столбцы, используя df.withColumnRename("oldName", "newName") . В наборах данных, поскольку каждое поле имеет тип и имя, это кажется невозможным. Единственная работа, которую я могу придумать, - это...
6821 просмотров
schedule
14.07.2023
Переименовать вложенное поле в наборе данных Scala Spark 2.0
Я пытаюсь переименовать вложенное поле в наборе данных классов случаев, используя Spark 2.0. Ниже приведен пример, когда я пытаюсь переименовать «элемент» в «адрес» (сохраняя его вложенность в структуру данных):
df.printSchema
//Current Output:...
665 просмотров
schedule
12.06.2022
Создайте DataFrame с нулевым значением для нескольких столбцов
Я пытаюсь создать DataFrame с помощью RDD .
Сначала я создаю RDD , используя приведенный ниже код -
val account = sc.parallelize(Seq(
(1, null, 2,"F"),
(2, 2, 4, "F"),...
13187 просмотров
schedule
17.08.2022
Наборы данных Spark — строгая типизация
Что такое строго типизированный API и нетипизированный API по отношению к наборам данных Spark?
Чем наборы данных похожи/отличаются от фреймов данных?
2627 просмотров
schedule
13.02.2023
Как получить ключи и значения из столбца MapType в SparkSQL DataFrame
У меня есть данные в файле паркета, который имеет 2 поля: object_id: String и alpha: Map<> .
Он считывается во фрейм данных в sparkSQL, и схема выглядит так:
scala> alphaDF.printSchema()
root
|-- object_id: string (nullable =...
28606 просмотров
schedule
18.04.2022
группа плоской карты набора данныхПо отсутствующему типу параметра
У меня есть набор данных со столбцом, который содержит список чисел.
Я хочу подсчитать количество вхождений каждого числа во всех этих списках. Итак, я делаю flatMap, чтобы получить набор всех целых чисел. Я хочу сгруппировать его, чтобы у меня...
611 просмотров
schedule
30.03.2023
Производительность фильтра Spark DataSet
Я экспериментировал с разными способами фильтрации набора типизированных данных. Оказывается, производительность может быть совсем другой.
Набор данных был создан на основе строк данных размером 1,6 ГБ с 33 столбцами и 4226047 строками. DataSet...
14623 просмотров
schedule
16.12.2022
Эквивалент набора данных Spark для сбора scala с частичной функцией
Обычные коллекции scala имеют отличный метод collect , который позволяет мне выполнять операцию filter-map за один проход, используя частичную функцию. Есть ли эквивалентная операция на spark Dataset s?
Я хотел бы это по двум причинам:...
3948 просмотров
schedule
10.01.2023
Добавление элемента в существующую структуру в искровом фрейме данных
У меня есть кадр данных pyspark, и схема выглядит так.
root
|-- useragent: string (nullable = true)
|-- properties: struct (nullable = true)
| |-- browser: string (nullable = true)
| |-- device: string (nullable = true)
Я использую udf...
1176 просмотров
schedule
24.09.2023
Как распаковать несколько ключей в наборе данных Spark
У меня есть следующий DataSet со следующей структурой.
case class Person(age: Int, gender: String, salary: Double)
Я хочу определить среднюю зарплату по gender и age , поэтому я группирую DS по обоим ключам. Я столкнулся с двумя...
3311 просмотров
schedule
06.11.2022
Как сделать самодекартово произведение по разным разделам набора данных Spark?
Мне нужно сравнить разные строки набора данных два к двум. В идеале я бы сделал самодекартово произведение набора данных, затем удалил бы повторяющиеся сравнения (поскольку A, B совпадает с B, A ) и, наконец, я бы сделал map , чтобы решить, равны...
699 просмотров
schedule
21.12.2023
Итерируемая функция Spark CUSUM
Я все еще довольно новичок в Spark, и я изо всех сил пытаюсь реализовать повторяющуюся функцию. Я надеюсь, что кто-то может мне помочь?
В частности, я пытаюсь реализовать статистику управления CUSUM :
$ S_i = \max (0, S_{i-1} + x_i - Target -...
301 просмотров
schedule
09.09.2022
Поиск наименьшего значения в строке Dataframe в Spark
Я пытаюсь найти наименьшее значение из [строки] в DataFrame. Как я могу это сделать? Мой набор данных выглядит примерно так:
aaaa |-32566.335700000003| 27668.7725| 20183.4786|
bbbb | -3.924099999999997| 5.802000000000006|...
884 просмотров
schedule
15.09.2022
Использование custom UDF withColumn в наборе данных Spark ‹Row›; java.lang.String нельзя преобразовать в org.apache.spark.sql.Row
У меня есть файл JSON, содержащий много полей. Я прочитал файл с помощью набора данных Spark в java.
Spark версии 2.2.0
Java JDK 1.8.0_121
Ниже приведен код.
SparkSession spark = SparkSession
.builder()...
8852 просмотров
schedule
23.05.2023
Как установить кодировщик для набора данных Spark при импорте файла csv или txt
У меня возникла проблема с этой частью кода Spark Mllib из документации ( https://spark.apache.org/docs/latest/ml-collaborative-filtering.html ", используя файлы csv или txt:
val ratings =...
105 просмотров
schedule
23.10.2022
Проверка полевых данных с использованием искрового фрейма данных
У меня есть куча столбцов, например, мои данные отображаются, как показано ниже. Мне нужно проверить столбцы на наличие ошибок и сгенерировать два выходных файла. Я использую Apache Spark 2.0 и хочу сделать это эффективно.
Schema Details...
8596 просмотров
schedule
17.12.2022
Случайная выборка в Apache Spark Java
Нам нужно выполнить случайную выборку в apache spark, используя java. Следовательно, нам нужно выбрать случайное число точного количества записей из набора данных.
Мы используем приведенный ниже код. Иногда он не выбирает точное количество...
92 просмотров
schedule
11.04.2023