Публикации по теме 'azure-databricks'


Хранилище данных, озеро данных или хранилище данных, что выбрать?
Это один из самых частых вопросов, который задают многие специалисты по данным!! Ответ заключается во многих факторах, но в этой статье мы рассмотрим некоторые ключевые факторы, которые помогут нам оценить правильное решение. Ниже приведены некоторые ключевые факторы, которые нам необходимо учитывать, прежде чем выбрать какое-либо решение. размер собираемых данных , разнообразие форматов данных и типов , скорость , с которой данные генерируются, производятся , создано или..

Как использовать оконную функцию в PySpark?
В Pyspark есть все, что вы можете ожидать от любого SQL-движка. Тогда почему не оконная функция? Сценарий База данных банка содержит таблицу истории счетов, в которой хранится история каждой транзакции (вход в систему, выход из системы, кредит, дебет и т. д.) для всех банковских счетов. В этой таблице хранится несколько строк для каждого номера учетной записи, и, возможно, в один день также добавляется много строк для учетной записи. Дата и время транзакции хранятся в поле с именем..

Конвейер машинного обучения на Azure DataBricks  — «От настройки модели к развертыванию модели»
Data Scientist и инженеры по машинному обучению — самая востребованная работа в этом десятилетии. Чтобы получить одну из этих ролей, необходимо обладать знаниями и опытом в области наук о данных, начиная со статистики, обработки данных и заканчивая выбором модели, построением модели и ее развертыванием. Идеальным Data Scientist для большинства компаний будет тот, кто формулирует проблему данных, извлекает и обрабатывает данные, строит лучшую модель ML на основе бизнес-требований или..

Демонстрационная/лабораторная работа Фабрики данных Azure и Azure Databricks
Создайте сквозную лабораторию конвейера обработки данных с помощью фабрики данных Azure и azure databricks. Предварительные требования Учетная запись Azure Фабрика данных Azure Azure databricks Azure Storage ADLS gen2 — для хранения всего файла паркета — озеро данных Azure Keyvault для хранения секретов Архитектура сквозного конвейера Шаги Для ноутбуков я использую существующие ноутбуки с веб-сайта Microsoft doc. бизнес-логика здесь не имеет реальной ценности для бизнеса..

Вопросы по теме 'azure-databricks'

Файлы библиотеки Python Egg, ссылающиеся на другие файлы в том же пакете
Я создал файл яйца Python для импорта ряда моих модулей Python в кластер Azure databricks. Некоторые файлы внутри пакета ссылаются на другие файлы внутри того же пакета. Установил локально, все отлично работает. Когда я загружаю пакет в базу...
800 просмотров

Как создать файл .tsv в блоках данных (scala, python и т. Д.)
Пожалуйста, дайте мне знать, как создать файл .tsv в коде Databricks (scala, python). Пример: Пример создания файла .csv. % scala val df = spark.sql ("ВЫБРАТЬ * ОТ сотрудника") df.write.format ("csv"). option ("header", true) .option...
553 просмотров
schedule 16.05.2022

Azure Databricks: доступ к хранилищу BLOB-объектов за брандмауэром
Я читаю файлы в учетной записи хранилища BLOB-объектов Azure (поколение 2) из ​​записной книжки Azure Databricks. Обе службы находятся в одном регионе (Западная Европа). Все работает нормально, кроме тех случаев, когда я добавляю брандмауэр перед...
3038 просмотров

Как удалить библиотеки, уже удаленные из рабочей области Azure Databricks
После удаления библиотеки jar, добавленной с выбором «Установить автоматически на всех кластерах», библиотека по-прежнему автоматически устанавливается на всех кластерах в рабочей области. Мне нужно удалить или отключить автоматическую установку...
1523 просмотров
schedule 06.10.2022

Преобразование времени CURRENT_TIMESTAMP () из UTC в ET
Я обновляю поле фрейма данных Дата создания , используя временную функцию CURRENT_TIMESTAMP () Spark SQL. Возвращаемое значение находится в часовом поясе UTC. Мне нужны значения по восточному времени (с учетом летнего времени). Я хотел бы...
2230 просмотров

Как получить определение схемы из фрейма данных в PySpark?
В PySpark вы можете определить схему и читать источники данных с помощью этой предопределенной схемы, например. грамм.: Schema = StructType([ StructField("temperature", DoubleType(), True), StructField("temperature_unit",...
41929 просмотров

Установите rgdal и rgeos на Azure Databricks.
Я не могу установить rgdal и rgeos на Databricks, есть предложения? configure: error: gdal-config not found or not executable. ERROR: configuration failed for package ‘rgdal’ * removing ‘/databricks/spark/R/lib/rgdal’ configure: error:...
339 просмотров
schedule 15.02.2024

Доступ к неуправляемой (внешней) таблице Hive Azure Databricks через JDBC
Я использую Azure Databricks с Databricks Runtime 5.2 и Spark 2.4.0. Я настроил внешние таблицы Hive двумя разными способами: - Таблица Databricks Delta, в которой данные хранятся в Azure Data Lake Storage (ADLS) Gen 2, таблица была создана с...
836 просмотров
schedule 28.10.2022

лучший способ установить библиотеку на лазурных блоках данных
Мне нужно установить лазурную библиотеку на лазурные блоки данных. Прямо сейчас я устанавливаю его глобально, но иногда, когда кластер запускает мой ноутбук, происходит сбой с ошибкой, как показано ниже: AttributeError: модуль lib не имеет...
2086 просмотров

Поддержка библиотеки / пакетов в Azure Databricks через файл requirements.txt
Есть отличная документация по установке пакетов 1 на 1 на лазурных модулях данных, но нет способа сделать эквивалент: pip install -r requirements.txt или вообще использовать файл требований. Я управляю довольно большой библиотекой и хотел...
1341 просмотров
schedule 29.10.2022

Как ВСТАВИТЬ базу данных SQL Azure из Azure Databricks в Python
Поскольку pyodbc не может быть установлен в базы данных Azure, я пытаюсь использовать jdbc для вставки данных в базу данных SQL Azure с помощью Python, но я могу найти для этого образец кода. jdbcHostname = "xxxxxxx.database.windows.net"...
2569 просмотров

Как лучше всего очистить и воссоздать дельта-таблицу Databricks?
Я пытаюсь очистить и воссоздать дельта-таблицу блоков данных для интеграционных тестов. Я хочу запустить тесты агента DevOps, поэтому я использую JDBC (драйвер Simba), но он говорит, что тип оператора «DELETE» не поддерживается. Когда я очищаю...
4705 просмотров
schedule 22.09.2022

Как параллельно записывать файлы JSON в смонтированный каталог с помощью Spark в Databricks
У меня есть RDD из 50 000 файлов JSON, которые мне нужно записать в смонтированный каталог в Spark (Databricks). Смонтированный путь выглядит примерно так /mnt/myblob/mydata (с использованием Azure). Я попробовал следующее, но оказалось, что я...
266 просмотров

Встроенный блокнот Databricks для обнаружения и сохранения артефактов mlflow
В настоящее время по умолчанию при запуске записной книжки создается идентификатор эксперимента, но расположение артефакта указывает на что-то в dbfs: / databricks / mlflow / {идентификатор эксперимента}. Есть ли способ изменить это при создании...
291 просмотров
schedule 17.03.2023

Как вставить массовые данные через Spark DataFrame в хранилище данных Sql Server с помощью принципа обслуживания с помощью Databricks
Я пытаюсь вставить объемные данные через искровой фреймворк в хранилище данных сервера Sql в Databricks. Для этого я использую модуль pyodbc с принципом обслуживания (не используя jdbc). Я достиг с помощью одной вставки. Я не мог найти способ...
1585 просмотров

Как исправить исключение тайм-аута чтения в коннекторе Spark Cassandra
Я использую spark 2.4 и scala 2.11 на платформе azure databricks, DSE 6.0.7 и spark cassandra Connector версии 2.4.0. Я получаю сообщение об ошибке ниже при подсчете одной из моих таблиц, в которой около 100 миллионов записей. Для одного из...
836 просмотров

Как подключиться к дельта-таблице Databricks с помощью драйвера JDBC
Как я могу подключиться к таблице Delta Databricks с помощью JDBC? Я попытался подключить драйвер simba, но мне сложно указать имя класса драйвера и конфигурацию URL-адреса. Любое решение приветствуется. Я не могу вставить здесь код в качестве...
2469 просмотров
schedule 08.05.2023

Виртуальная сеть, связанная с Azure databricks
Вы можете развернуть кластер azue databricks с виртуальной сетью (vnet), чтобы контролировать IP-адреса и доступ к вашему кластеру через группу безопасности сети (NSG). Мой вопрос: как я могу просмотреть виртуальную сеть, которая привязана к моему...
466 просмотров
schedule 10.07.2022

Как динамически получить путь к блокноту Databricks?
Пожалуйста, не давайте решение для ноутбуков IPython. Технология другая. Я хочу получить путь к моей записной книжке Databricks динамически. Это то, что я могу получить из пользовательского интерфейса «Копировать путь к файлу», как показано ниже....
800 просмотров

Непрерывный запуск ячейки в записной книжке с данными
Поскольку приемник eventhubs перестает прослушивать после тайм-аута без нового события, я хочу запустить определенную ячейку (абзац) в записной книжке лазурных блоков данных из другой ячейки в той же записной книжке, используя python. Мне нужно...
195 просмотров