Google colab - одна из лучших платформ для предоставления бесплатного графического процессора. Это одно из лучших мест для экспериментов, если вы начинаете с глубокого обучения. Одна из лучших вещей в google colab, помимо бесплатного графического процессора, заключается в том, что он поставляется с большинством библиотек и фреймворков, необходимых для начала глубокого обучения, и это тот тип прямого кода и запуска, который вам, скорее всего, не понадобится устанавливать. что-нибудь. Но одна из проблем, с которыми я сталкиваюсь, если я использую Google Colab, - это упреждающее движение. Время работы google colab прекращается каждые 8–10 часов. Таким образом, вам нужно будет загружать данные каждый раз, поскольку жесткий диск также очищается при остановке сервера. В этом блоге я расскажу вам о способах загрузки набора данных в Google Colab, что зависит от источника вашего набора данных, и о том, как сохранить набор данных на вашем диске, если вы обрабатываете данные, чтобы вы могли использовать его позже. Итак, давайте начнем с загрузки набора данных с самого популярного источника наборов данных Kaggle.

Kaggle

Загрузить набор данных из kaggle проще всего, поскольку kaggle предоставляет интерфейс командной строки, из которого вы можете легко загрузить набор данных, выполнив однострочную команду. Я напишу шаги, которые необходимо выполнить, чтобы загрузить набор данных из kaggle.

  1. Создайте учетную запись kaggle. 😅
  2. Зайдите в раздел моей учетной записи.

3. Нажмите кнопку «Создать новый токен API», и будет загружен файл kaggle.json.

4. Запустите указанный ниже код, и он попросит вас загрузить файл. Загрузите только что загруженный файл kaggle.json.

from google.colab import files
files.upload()
os.system("mkdir -p ~/.kaggle")
os.system("cp kaggle.json ~/.kaggle/")
os.system("chmod 600 ~/.kaggle/kaggle.json")

5. Скопируйте команду API для набора данных, который вы хотите загрузить.

Вы можете найти его на странице набора данных для каждого набора данных.

!kaggle competitions download -c aerial-cactus-identification

Используйте восклицательный знак перед этой командой, и это необходимо для запуска команд Linux. Это загрузит набор данных, и вы сможете работать с ним. Он будет в формате zip, вероятно, вам придется его распаковать.

2. Google диск

Иногда вам нужно будет загрузить набор данных или некоторые другие файлы (например, файл веса) с диска Google, и очень легко загрузить данные с диска Google. Мы можем напрямую использовать этот API.

from google_drive_downloader import GoogleDriveDownloader as gdd
gdd.download_file_from_google_drive(file_id='1iytA1n2z4go3uVCwE__vIKouTKyIDjEq',dest_path='./data/mnist.zip',unzip=True)

Мы можем получить file_id для файла на Google Диске из опции совместного использования ссылки. У этого API есть одно ограничение. Файл, который вы хотите загрузить, должен быть открыт для общего доступа в Интернете; в противном случае он не будет загружен.

3. Для всех остальных источников

Есть разные способы, и это полностью зависит от источника. Но есть одно общее решение, которое отлично подходит для любого источника. Единственное ограничение заключается в том, что есть несколько файлов, которые вы хотите загрузить, или ссылка для загрузки является динамической и меняется каждый раз (например, если вы загружаете что-то с диска Google в своей локальной системе, ссылка для загрузки каждый раз новая).

Есть одно расширение для firefox (я пытался найти его для chrome, но не нашел, если кто-нибудь знает о таком расширении, дайте мне знать в комментариях) cliget.

Добавьте это расширение в свой браузер. И зайдите на сайт, с которого хотите скачать данные. Как только появится всплывающее окно загрузки, это расширение поймает его и сгенерирует команду curl для загрузки этих данных с помощью интерфейса командной строки. Вам просто нужно скопировать эту команду и запустить в среде выполнения Google Colab. Не забудьте добавить "!" Перед этой командой.

Если ваша ссылка динамическая, вам придется делать это каждый раз, поскольку предыдущая команда больше не будет работать.

Вот как выглядит типичная команда curl

!curl --header 'Host: www.crcv.ucf.edu' --user-agent 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:73.0) Gecko/20100101 Firefox/73.0' --header 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8' --header 'Accept-Language: en-US,en;q=0.5' --referer 'https://www.crcv.ucf.edu/data/UCF101.php' --cookie 'sc_is_visitor_unique=rx8721945.1582018638.B9D513E5B1294F3FF5FA6112CC6A1234.1.1.1.1.1.1.1.1.1; __utma=1.544635313.1582018638.1582018638.1582018638.1; __utmb=1.1.10.1582018638; __utmc=1; __utmz=1.1582018638.1.1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utmt_ucfhb=1' --header 'Upgrade-Insecure-Requests: 1' 'https://www.crcv.ucf.edu/data/UCF101/UCF101.rar' --output 'UCF101.rar'

Измените «- output», если хотите изменить расположение файла.

Google colab предоставляет встроенный код для монтирования диска Google в текущее время выполнения. Вам просто нужно будет войти в систему со своим идентификатором и ввести ключ, который будет сгенерирован автоматически. Диск будет смонтирован, и если вы хотите сохранить что-либо на диске или использовать что-либо с диска, вам нужно просто указать этот путь, и файлы станут доступны для чтения, а файл, который вы пишете, будет автоматически загружен на водить машину.

Дальнейшее чтение:

Https://neptune.ai/blog/how-to-use-google-colab-for-deep-learning-complete-tutorial

Мир.