Срезы данных Azure DML?

У меня есть 40 миллионов больших двоичных объектов по 10 ТБ в хранилище больших двоичных объектов. Я использую DML CopyDirectory, чтобы скопировать их в другую учетную запись хранения для резервного копирования. цель. На изготовление ушло почти 2 недели. Теперь меня беспокоит, до какой даты капли копируются в целевой каталог. Это дата начала работы или дата окончания работы?

Использует ли DML что-то вроде срезов данных?

azure azure-blob-storage

Venky 15.06.2017 источник

Ответы (1)

arrow_upward
1
arrow_downward

Теперь меня беспокоит, до какой даты капли копируются в целевой каталог. Это дата начала работы или дата окончания работы?

Насколько я знаю, когда вы запускаете метод CopyDirectory, он просто отправляет запрос, чтобы указать учетной записи хранения Azure копировать файлы из другой учетной записи хранения. Все операции копирования выполняются в лазурном хранилище.

Если мы запустим метод, чтобы начать копирование каталога, лазурное хранилище сначала создаст файл с размером 0, как показано ниже:

После завершения работы вы обнаружите, что размер изменился, как показано ниже:

Таким образом, если задание запущено, оно создаст файл в целевом каталоге, но размер файла равен 0. Вы можете увидеть время последнего изменения файла image1.

Хранилище Azure продолжит копирование содержимого файла в целевой каталог.

Если задание завершено, оно изменит время последнего изменения файла.

Таким образом, DML SDK просто указывает хранилищу копировать файлы, а затем продолжает отправлять запрос в хранилище Azure для проверки состояния копирования каждого файла.

Как показано ниже:

Спасибо. Но что произойдет, если файлы добавятся в исходный каталог во время этой операции копирования? Копируются ли новые файлы в целевой каталог?

Кратко ответ Да.

DML не получит весь список больших двоичных объектов и не отправит запрос на копирование всего файла за один раз.

Сначала он получит часть списка имен файлов и отправит запрос, чтобы указать файл копии хранилища.

Список сортируется по имени файла.

Например.

Если DML уже скопировал имя файла, например 0, как показано ниже.

Эта целевая папка больших двоичных объектов

Если вы добавите начальный файл 0 в свою папку, он не будет скопирован.

Это копия из папки blob.

Скопируйте полностью папку blob:

Если вы добавите файл в конец папки больших двоичных объектов, а DML не просканирует его, он будет скопирован в новую папку.

поэтому за эти 2 недели в контейнер должно быть добавлено не менее миллиона BLOB-объектов с очень случайными именами. Итак, я думаю, что DML не работает в случае больших контейнеров?

Насколько мне известно, DML предназначен для высокопроизводительной загрузки, скачивания и копирования BLOB-объектов и файлов Azure Storage.

Когда вы используете DML CopyDirectoryAsync для копирования файла большого двоичного объекта. Сначала он отправит запрос на перечисление текущего файла папки, а затем отправит запрос на копирование файла.

По умолчанию операция, отправляющая запрос на перечисление текущего номера файла папки, равна 250.

После получения списка он сгенерирует маркер, который является следующим именем файла поиска больших двоичных объектов. Он начнет перечислять имя следующего файла в папке и снова начнет копирование.

По умолчанию ограничение HTTP-соединений .Net равно 2. Это означает, что можно поддерживать только два одновременных соединения.

Это означает, что если вы не установите лимит HTTP-подключения .Net, CopyDirectoryAsync просто получит 500 записей и начнет копирование.

После полного копирования начнется копирование следующих файлов.

Вы могли видеть эти изображения:

Маркер:

Я предлагаю вам сначала установить максимальное количество http-соединений, чтобы обнаружить больше файлов больших двоичных объектов.

ServicePointManager.DefaultConnectionLimit = Environment.ProcessorCount * 8;

Кроме того, я предлагаю вам создать несколько папок для хранения файлов.

Например, вы можете создать папку, в которой хранятся файлы за одну неделю.

На следующей неделе вы можете начать новую папку.

Затем вы можете сделать резервную копию файла старой папки без сохранения новых файлов в этой папке.

Наконец, вы также можете написать свой собственный код для достижения ваших требований, вам сначала нужно получить список файлов папки.

Максимальный результат одного запроса на получение списка — 5000.

Затем вы можете отправить запрос, чтобы сообщить хранилищу копию каждого файла.

Если файл загрузить в папку после получения списка, он не будет скопирован в новую папку.

Brando Zhang 16.06.2017

comment

Спасибо. Но что произойдет, если файлы добавятся в исходный каталог во время этой операции копирования? Копируются ли новые файлы в целевой каталог? - Venky; 16.06.2017

comment

Спасибо за подробное объяснение. Но, как я уже сказал, у меня более 40 миллионов капель в одном контейнере. Поэтому невозможно узнать, где был добавлен новый файл. Как я уже сказал, полное резервное копирование контейнера занимает 2 недели. поэтому за эти 2 недели в контейнер должно быть добавлено не менее миллиона BLOB-объектов с очень случайными именами. Итак, я думаю, что DML не работает в случае больших контейнеров? - Venky; 16.06.2017

Срезы данных Azure DML?

Ответы (1)

Вопросы по теме