Вопросы по теме 'pyspark-sql'

Как добавить numpy.array в качестве нового столбца в pyspark.SQL DataFrame?
Вот код для создания фрейма данных pyspark.sql import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]), columns=['a','b','c'])...
8659 просмотров

Как создать DataFrame из строк при сохранении существующей схемы?
Если я вызываю map или mapPartition и моя функция получает строки из PySpark, каков естественный способ создать локальный PySpark или Pandas DataFrame? Что-то, что объединяет строки и сохраняет схему? Сейчас я делаю что-то вроде: def...
3865 просмотров

UDF Pyspark DataFrame в текстовом столбце
Я пытаюсь очистить текст NLP из некоторых столбцов Unicode в PySpark DataFrame. Я пробовал в Spark 1.3, 1.5 и 1.6 и, кажется, не могу заставить что-то работать, хоть убей. Я также пробовал использовать Python 2.7 и Python 3.4. Я создал...
53507 просмотров

Spark.sql выбирает строки, у которых нет соответствующего столбца в другой таблице
У меня есть кадр данных, называемый ребрами, который выглядит так: +------+------+-------------------+ | src| dst| mean_affinity| +------+------+-------------------+ | [78]| [81]|...
851 просмотров

PySpark преобразовать список строк в фрейм данных
Проблема, которую я на самом деле пытаюсь решить, состоит в том, чтобы взять первые / последние N строк фрейма данных PySpark и получить в результате фрейм данных. В частности, я хочу сделать что-то вроде этого: my_df.head(20).toPandas()...
11283 просмотров
schedule 23.11.2023

Извлечь дату из строкового столбца, содержащего отметку времени в Pyspark
У меня есть датафрейм с датой в следующем формате: +----------------------+ |date | +----------------------+ |May 6, 2016 5:59:34 AM| +----------------------+ Я намерен извлечь из этого дату в формате YYYY-MM-DD ; поэтому...
12631 просмотров

Запросить коллекцию MongoDB с помощью pyspark
Я создаю приложение, используя PHP с MongoDB в качестве базы данных. Одна из коллекций в БД имеет огромный объем данных, то есть 8 ГБ данных. Я выполняю операцию aggregate с данными, хранящимися в коллекции MongoDB, и соответственно генерирую...
3600 просмотров
schedule 05.09.2023

Win7 pyspark sql утилиты IllegalArgumentException
Я пытаюсь запустить pyspark на pycharm. Я все подключил и установил переменные окружения. Я могу читать sc.textFile, но когда я пытаюсь прочитать файл csv из pyspark.sql, что-то пошло не так. Вот код: import os import sys from pyspark import...
3584 просмотров
schedule 10.01.2023

Оценка Spark DataFrame в цикле замедляется с каждой итерацией, вся работа выполняется контроллером
Я пытаюсь использовать кластер Spark (работающий на AWS EMR), чтобы связать группы элементов, в которых есть общие элементы. По сути, у меня есть группы с некоторыми элементами, и если некоторые элементы находятся в нескольких группах, я хочу создать...
7970 просмотров
schedule 15.06.2022

Структура кода PySpark
Я пишу код PySpark, в котором у меня есть 10 таблиц поиска, и для каждой таблицы поиска я определяю структуру, а затем схему. Затем я создаю DF для каждой таблицы поиска и в конце использую их для объединения с одной основной таблицей. Я знаю, как...
757 просмотров
schedule 18.01.2023

Производительность Spark при поиске отдельных записей
Я провожу тест производительности, который сравнивает запросы к существующим внутренним таблицам Hive между Spark SQL и Hive on Tez. На протяжении всех тестов Spark показывал время выполнения запроса на уровне или быстрее, чем у Hive на Tez. Эти...
416 просмотров

Как использовать функцию над RDD и получить новый столбец (Pyspark)?
Я ищу способ применить функцию к RDD с помощью PySpark и поместить результат в новый столбец. С DataFrames это выглядит просто: Дано: rdd = sc.parallelize([(u'1751940903', u'2014-06-19', '2016-10-19'), (u'_guid_VubEgxvPPSIb7W5caP-lXg==',...
3070 просмотров

Как применить функции udf в столбце, который содержит только нулевое и истинное значение
У меня есть фрейм данных с именами столбцов "x" и "Y", столбец y содержит только нулевые и истинные значения, x y br null br null bm null bm null br true bm true Мне нужно создать udf, который создает другой...
233 просмотров

Pyspark - функция Dataframe foreach не работает на нескольких рабочих/распараллелить
Я запускаю автономный кластер Spark с 1 ведущим и 2 подчиненными на EC2. Кластер работает. У меня есть приложение Python, которое загружает данные из s3. Код ниже: spark = SparkSession.builder.appName("Example").getOrCreate() df =...
1927 просмотров

Преобразование ггггммдд в формат ММ-дд-гггг в pyspark
У меня есть большой фрейм данных df, содержащий столбец для даты в формате yyyymmdd , как я могу преобразовать его в MM-dd-yyyy в pySpark.
13271 просмотров

Как проверить, находится ли столбец массива внутри другого массива столбцов в кадре данных PySpark
Предположим, у меня есть следующий случай from pyspark.sql.types import * schema = StructType([ # schema StructField("id", StringType(), True), StructField("ev", ArrayType(StringType()), True), StructField("ev2",...
11258 просмотров

pyspark: кадры данных записываются в паркет
У меня возникает следующая ошибка при запуске сценария pyspark для загрузки паркетной таблицы. У меня нет проблем при тестировании через оболочку pyspark. Интерактивный режим работает нормально: df_writer = pyspark.sql.DataFrameWriter(df)...
6514 просмотров
schedule 07.12.2023

Как отправить файл python в spark 2.1.0?
В настоящее время я запускаю искру 2.1.0. Большую часть времени я работал в оболочке PYSPARK, но мне нужно отправить файл python с искрой (аналогично jar-отправке с искрой в java). Как вы это делаете в питоне?
17869 просмотров

pyspark показывает кадр данных в виде таблицы с горизонтальной прокруткой в ​​​​блокноте ipython
pyspark.sql.DataFrame отображает беспорядочно с DataFrame.show() - перенос строк вместо прокрутки. но отображается с pandas.DataFrame.head Я пробовал эти варианты import IPython IPython.auto_scroll_threshold = 9999 from...
13654 просмотров

Как сохранить DataFrame в файл csv в spark 1.6?
Я работаю над фреймворком данных, который содержит два столбца: uni_key и createdDate. Я запускаю SQL-запрос и сохраняю результаты в a , и теперь я хочу сохранить эти результаты в CSV-файле. Есть какой-либо способ сделать это? Вот фрагмент кода:...
11201 просмотров