Публикации по теме 'delta-lake'


Потоковая передача изменений данных в озеро данных с помощью конвейера Debezium и Delta Lake
Чтобы продемонстрировать, почему Debezium и Delta Lake составляют интересную комбинацию, особенно для случаев использования, связанных с приложениями микросервисов и большими данными, я расскажу историю, с которой я недавно столкнулся. Пример использования клиента Один из наших клиентов рассказал мне такую ​​историю: Компания делает приложение для микросервисов Каждый из их клиентов запускает собственный экземпляр приложения вместе с собственными базами данных. Они хотят..

Я построил потрясающую модель машинного обучения с помощью Spark, Delta и MLFlow. Как заставить правильных людей использовать его?
Когда мы хотим обучать модели машинного обучения на наборе данных, который слишком велик для одной машины, MLFlow, Spark и Delta — отличный набор инструментов. Delta гарантирует, что мы можем иметь транзакции ACID с данными, хранящимися в нашем озере данных, Spark позволяет нам запускать распределенные алгоритмы, а MLFlow помогает нам отслеживать наши эксперименты и выбирать нашу модель с наибольшей производительностью. Но не все пользователи или последующие приложения работают в этой..

Вопросы по теме 'delta-lake'

Что такое databricks искровые дельта-таблицы? Хранят ли они также данные для определенного сеанса и как я могу просмотреть эти дельта-таблицы и их структуру?
Каково назначение искровых дельта-таблиц? Предназначены ли они для постоянного хранения данных или только для обработки данных до окончания сеанса. Как я могу просмотреть их в искровом кластере и к какой базе данных они принадлежат.
458 просмотров

Как лучше всего очистить и воссоздать дельта-таблицу Databricks?
Я пытаюсь очистить и воссоздать дельта-таблицу блоков данных для интеграционных тестов. Я хочу запустить тесты агента DevOps, поэтому я использую JDBC (драйвер Simba), но он говорит, что тип оператора «DELETE» не поддерживается. Когда я очищаю...
4705 просмотров
schedule 22.09.2022

Объект «SparkSession» не имеет атрибута «кирпичи данных»
Новичок в databricks и spark, я пытаюсь запустить приведенную ниже команду и столкнулся с этой ошибкой. spark.databricks.delta.retentionDurationCheck.enabled= "false" ошибка: 'SparkSession' object has no attribute 'databricks'
559 просмотров

Добавлять только новые агрегаты на основе групповых ключей
Мне приходится обрабатывать некоторые файлы, которые приходят ко мне ежедневно. Информация имеет первичный ключ (date,client_id,operation_id) . Поэтому я создал поток, который добавляет в дельта-таблицу только новые данные: operations\...
132 просмотров

Обработка дубликатов при обработке потоковых данных в таблице Delta Databricks с помощью Spark Structured Streaming?
Я использую Spark Structured Streaming с Azure Databricks Delta, где я пишу в дельта-таблицу (имя дельта-таблицы необработанное). Я читаю из файлов Azure, где я получаю данные не по порядку, и у меня есть 2 столбца в нем « smtUidNr » и «_2 _». Я...
1675 просмотров

Создать индекс для таблиц в Delta Lake
Я новичок в Delta Lake, но хочу создать несколько индексов для быстрого поиска для некоторых таблиц в Delta Lake. Основываясь на документации, он показывает, что ближайшим вариантом является создание пропуска данных с последующим индексированием...
2160 просмотров
schedule 26.03.2023

Как управлять номером файла в выводе слияния Delta Lake
Я использую Delta Lake 0.4.0 с Merge, например: target.alias("t") .merge( src.as("s"), "s.id = t.id ) .whenMatched().updateAll() .whenNotMatched().insertAll() .execute()...
961 просмотров
schedule 06.03.2024

Как импортировать модуль Delta Lake в блокнот Zeppelin и pyspark?
Я пытаюсь использовать Delta Lake в ноутбуке Zeppelin с pyspark, и мне кажется, что он не может успешно импортировать модуль. например %pyspark from delta.tables import * Это не удается со следующей ошибкой: ModuleNotFoundError: нет...
2163 просмотров
schedule 30.11.2022

Apache Spark: влияние повторного разбиения, сортировки и кэширования на соединение
Я изучаю поведение Spark при присоединении таблицы к самой себе. Я использую Databricks. Мой фиктивный сценарий: Считайте внешнюю таблицу как кадр данных A (базовые файлы имеют дельта-формат) Определите кадр данных B как кадр данных A с...
484 просмотров

Как сравнить две версии дельта-таблицы, чтобы получить изменения, аналогичные CDC?
Если я хочу использовать дельта-путешествие во времени для сравнения двух версий, чтобы получить изменения, аналогичные CDC, как это сделать? Я вижу два варианта: в SQL у вас есть запрос EXCEPT / MINUS, в котором вы сравниваете все данные с...
1347 просмотров
schedule 25.10.2022

Как читать зашифрованные наборы данных s3 в дельта-формате с помощью AWS Athena?
Мне интересно, у нас есть поддержка чтения наборов данных в дельта-формате, зашифрованных KMS-CSE, через Athena? Я просматривал https://docs.delta.io/0.5.0/presto-integration.htm , в котором ничего не говорится о поддержке шифрования. Если сам...
268 просмотров
schedule 19.11.2022

Как получить разные фреймы данных Spark за одно задание искры
Я хочу написать конвейер ETL с искровой обработкой различных источников ввода, но используя как можно меньше вычислительных ресурсов, и у меня возникнут проблемы с использованием «традиционного» подхода Spark ETL. У меня есть несколько источников...
116 просмотров

Ошибка `` Модуль не найден '' при импорте модуля Pyspark Delta Lake
Я использую Pyspark с дельта-озером, но когда я пытаюсь импортировать дельта-модуль, я получаю ModuleNotFoundError: No module named 'delta' . Это на машине без подключения к Интернету, поэтому мне пришлось вручную загрузить jar-файл delta-core с...
1832 просмотров

Метаданные Delta Lake Table
Где Delta Lake хранит информацию о метаданных таблицы. Я использую Spark 2.6 (Not Databricks) на моем автономном компьютере. Мое предположение заключалось в том, что если я перезапущу искру, таблица, созданная в искре дельта-озера, будет удалена...
973 просмотров
schedule 17.04.2022

Как добавить новый столбец в таблицу Delta Lake?
Я пытаюсь добавить новый столбец к данным, хранящимся в виде дельта-таблицы в хранилище BLOB-объектов Azure. Большинство действий, выполняемых с данными, - это обновления, с множеством обновлений и несколькими новыми вставками. Мой код для записи...
3329 просмотров

проверьте, существует ли дельта-таблица на пути или нет в блоках данных
Мне нужно удалить определенные данные из таблицы дельта-озера перед ее загрузкой. Я могу удалить данные из дельта-таблицы, если она существует, но не удается, когда таблица не существует. Scala-код Databricks ниже // create delete statement...
2883 просмотров
schedule 23.04.2022

Проблема ВОССТАНОВЛЕНИЯ озера Дельта (Databricks)
Я работаю над базами данных Azure и создал дельта-таблицу на ADLS Gen2. У меня уже создано 4 варианта дельтовидного озера. Я пытаюсь восстановить версию 2 с помощью следующей команды. %sql RESTORE TABLE Sales TO VERSION AS OF 2 Может ли...
290 просмотров

MSCK REPAIR TABLE странно работает с дельта-таблицами
У меня есть дельта-таблица в s3, и для той же таблицы я определил внешнюю таблицу в Афине. После создания таблицы Athena и генерации манифестов я загружаю разделы с помощью MSCK REPAIR TABLE . Все столбцы раздела находятся в snake_case. Но все же...
97 просмотров
schedule 03.06.2022

Использование дельта-таблиц в выделенных / бессерверных пулах SQL Azure Synapse
В настоящее время я работаю младшим разработчиком данных и недавно увидел сообщение о том, что Azure Synapse теперь может создавать таблицы SQL из таблиц Delta. Я попытался создать таблицу SQL из таблицы Delta, которая находится внутри Delta lake...
1478 просмотров
schedule 26.04.2022

Вставка Delta Lake перезаписывает данные, даже если условие вставки не выполняется
Я пытаюсь выполнить операцию вставки в вызове слияния Delta Lake (python api) с условием, что id строки еще не должно существовать в таблице delta Lake, т.е.: delta_table.alias('delta_table') \ .merge(df.alias('df'), 'delta_table.id =...
37 просмотров
schedule 25.02.2023