Публикации по теме pyspark-sql

Вопросы по теме 'pyspark-sql'

Как добавить numpy.array в качестве нового столбца в pyspark.SQL DataFrame?

Вот код для создания фрейма данных pyspark.sql import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]), columns=['a','b','c'])...

8659 просмотров

01.08.2022

Как создать DataFrame из строк при сохранении существующей схемы?

Если я вызываю map или mapPartition и моя функция получает строки из PySpark, каков естественный способ создать локальный PySpark или Pandas DataFrame? Что-то, что объединяет строки и сохраняет схему? Сейчас я делаю что-то вроде: def...

3865 просмотров

python pandas apache-spark pyspark pyspark-sql

24.03.2023

UDF Pyspark DataFrame в текстовом столбце

Я пытаюсь очистить текст NLP из некоторых столбцов Unicode в PySpark DataFrame. Я пробовал в Spark 1.3, 1.5 и 1.6 и, кажется, не могу заставить что-то работать, хоть убей. Я также пробовал использовать Python 2.7 и Python 3.4. Я создал...

53507 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

09.03.2023

Spark.sql выбирает строки, у которых нет соответствующего столбца в другой таблице

У меня есть кадр данных, называемый ребрами, который выглядит так: +------+------+-------------------+ | src| dst| mean_affinity| +------+------+-------------------+ | [78]| [81]|...

851 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql spark-dataframe

06.09.2022

PySpark преобразовать список строк в фрейм данных

Проблема, которую я на самом деле пытаюсь решить, состоит в том, чтобы взять первые / последние N строк фрейма данных PySpark и получить в результате фрейм данных. В частности, я хочу сделать что-то вроде этого: my_df.head(20).toPandas()...

11283 просмотров

python apache-spark pyspark pyspark-sql

23.11.2023

Извлечь дату из строкового столбца, содержащего отметку времени в Pyspark

У меня есть датафрейм с датой в следующем формате: +----------------------+ |date | +----------------------+ |May 6, 2016 5:59:34 AM| +----------------------+ Я намерен извлечь из этого дату в формате YYYY-MM-DD ; поэтому...

12631 просмотров

apache-spark pyspark datetime pyspark-sql

08.05.2023

Запросить коллекцию MongoDB с помощью pyspark

Я создаю приложение, используя PHP с MongoDB в качестве базы данных. Одна из коллекций в БД имеет огромный объем данных, то есть 8 ГБ данных. Я выполняю операцию aggregate с данными, хранящимися в коллекции MongoDB, и соответственно генерирую...

3600 просмотров

mongodb apache-spark pyspark-sql

05.09.2023

Win7 pyspark sql утилиты IllegalArgumentException

Я пытаюсь запустить pyspark на pycharm. Я все подключил и установил переменные окружения. Я могу читать sc.textFile, но когда я пытаюсь прочитать файл csv из pyspark.sql, что-то пошло не так. Вот код: import os import sys from pyspark import...

3584 просмотров

windows apache-spark pyspark pyspark-sql

10.01.2023

Оценка Spark DataFrame в цикле замедляется с каждой итерацией, вся работа выполняется контроллером

Я пытаюсь использовать кластер Spark (работающий на AWS EMR), чтобы связать группы элементов, в которых есть общие элементы. По сути, у меня есть группы с некоторыми элементами, и если некоторые элементы находятся в нескольких группах, я хочу создать...

7970 просмотров

apache-spark pyspark pyspark-sql

15.06.2022

Структура кода PySpark

Я пишу код PySpark, в котором у меня есть 10 таблиц поиска, и для каждой таблицы поиска я определяю структуру, а затем схему. Затем я создаю DF для каждой таблицы поиска и в конце использую их для объединения с одной основной таблицей. Я знаю, как...

757 просмотров

python apache-spark pyspark pyspark-sql

18.01.2023

Производительность Spark при поиске отдельных записей

Я провожу тест производительности, который сравнивает запросы к существующим внутренним таблицам Hive между Spark SQL и Hive on Tez. На протяжении всех тестов Spark показывал время выполнения запроса на уровне или быстрее, чем у Hive на Tez. Эти...

416 просмотров

apache-spark pyspark hadoop pyspark-sql spark-dataframe

28.11.2022

Как использовать функцию над RDD и получить новый столбец (Pyspark)?

Я ищу способ применить функцию к RDD с помощью PySpark и поместить результат в новый столбец. С DataFrames это выглядит просто: Дано: rdd = sc.parallelize([(u'1751940903', u'2014-06-19', '2016-10-19'), (u'_guid_VubEgxvPPSIb7W5caP-lXg==',...

3070 просмотров

apache-spark pyspark rdd pyspark-sql spark-dataframe

14.04.2024

Как применить функции udf в столбце, который содержит только нулевое и истинное значение

У меня есть фрейм данных с именами столбцов "x" и "Y", столбец y содержит только нулевые и истинные значения, x y br null br null bm null bm null br true bm true Мне нужно создать udf, который создает другой...

233 просмотров

apache-spark pyspark dataframe apache-spark-sql pyspark-sql

31.07.2023

Pyspark - функция Dataframe foreach не работает на нескольких рабочих/распараллелить

Я запускаю автономный кластер Spark с 1 ведущим и 2 подчиненными на EC2. Кластер работает. У меня есть приложение Python, которое загружает данные из s3. Код ниже: spark = SparkSession.builder.appName("Example").getOrCreate() df =...

1927 просмотров

apache-spark pyspark pyspark-sql spark-dataframe

13.08.2022

Преобразование ггггммдд в формат ММ-дд-гггг в pyspark

У меня есть большой фрейм данных df, содержащий столбец для даты в формате yyyymmdd , как я могу преобразовать его в MM-dd-yyyy в pySpark.

13271 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql

04.02.2023

Как проверить, находится ли столбец массива внутри другого массива столбцов в кадре данных PySpark

Предположим, у меня есть следующий случай from pyspark.sql.types import * schema = StructType([ # schema StructField("id", StringType(), True), StructField("ev", ArrayType(StringType()), True), StructField("ev2",...

11258 просмотров

apache-spark pyspark dataframe apache-spark-sql pyspark-sql

18.07.2022

pyspark: кадры данных записываются в паркет

У меня возникает следующая ошибка при запуске сценария pyspark для загрузки паркетной таблицы. У меня нет проблем при тестировании через оболочку pyspark. Интерактивный режим работает нормально: df_writer = pyspark.sql.DataFrameWriter(df)...

6514 просмотров

python pyspark pyspark-sql

07.12.2023

Как отправить файл python в spark 2.1.0?

В настоящее время я запускаю искру 2.1.0. Большую часть времени я работал в оболочке PYSPARK, но мне нужно отправить файл python с искрой (аналогично jar-отправке с искрой в java). Как вы это делаете в питоне?

17869 просмотров

apache-spark pyspark apache-spark-sql spark-submit pyspark-sql

22.10.2022

pyspark показывает кадр данных в виде таблицы с горизонтальной прокруткой в блокноте ipython

pyspark.sql.DataFrame отображает беспорядочно с DataFrame.show() - перенос строк вместо прокрутки. но отображается с pandas.DataFrame.head Я пробовал эти варианты import IPython IPython.auto_scroll_threshold = 9999 from...

13654 просмотров

jupyter-notebook pandas ipython pyspark pyspark-sql

30.06.2023

Как сохранить DataFrame в файл csv в spark 1.6?

Я работаю над фреймворком данных, который содержит два столбца: uni_key и createdDate. Я запускаю SQL-запрос и сохраняю результаты в a , и теперь я хочу сохранить эти результаты в CSV-файле. Есть какой-либо способ сделать это? Вот фрагмент кода:...

11201 просмотров

csv apache-spark pyspark apache-spark-sql pyspark-sql

12.11.2022