🤖 Глубокое обучение

4 отличных способа загрузки данных машинного обучения в Google Colab

Загрузка данных в Google Colab с помощью различных API и пакетов.

Google Colaboratory или Colab была одной из любимых сред разработки как для начинающих, так и для исследователей машинного обучения. Это облачный блокнот Jupyter, где должны быть отличные способы загрузки данных машинного обучения прямо с вашего локального компьютера в облако.

Мы обсудим некоторые методы, позволяющие избежать прямого нажатия кнопки «Загрузить»!

1) Получение данных прямо из репозитория GitHub

Если вы работаете над проектом, у которого есть собственный набор данных, такой как любая модель обнаружения объектов, модели классификации и т. Д., То мы хотели бы получить набор данных напрямую из GitHub.

Если набор данных находится в архиве (.zip или .tar), мы можем получить его в нашей записной книжке Colab,

  1. Откройте репозиторий GitHub и скопируйте URL-адрес из текста «View Raw».

Примечание. URL-адрес, который вы копируете, должен заканчиваться тегом ?raw=true. Только после этого модуль requests извлечет ZIP-файл.

Кроме того, вы всегда можете клонировать все репо,

!git clone <repo_url>

2. Вот и все! Теперь, используя пакеты requests и zipfile, мы можем загружать данные прямо в записную книжку.

import requests, zipfile, io
#The copied URL goes here ->
r = requests.get( 'https://www.github.com/shubham0204/...' ) 
z = zipfile.ZipFile(io.BytesIO(r.content))
z.extractall()

У этого метода будут некоторые ограничения. Мы не можем разместить на GitHub файлы размером более 100 МБ. Таким образом, этот метод может быть обходным решением для небольших пользовательских наборов данных.

2) Использование команды wget Linux напрямую

Google Colab работает на компьютере под управлением Linux. Таким образом, мы можем запускать на нем команды Linux напрямую. Это просто и снижает скорость загрузки.

!wget <dataset_url>

Если это ZIP-файл, его можно разархивировать с помощью команды unzip,

!unzip images.zip /content/images/

Подробнее об использовании см. Здесь.

3) Смонтируйте свой Google Диск

Если вы работаете над личным проектом и хранение файлов на Google Диске для вас не утомительно, то мы всегда можем смонтировать Google Диск.

from google.colab import drive
drive.mount('/gdrive')

Хорошо то, что если мы обучаем огромную модель, такую ​​как предварительно обученный VGG или Inception, размер сохраненной модели Keras (.h5) увеличивается до ~ 500 МБ, и даже веса имеют размер ~ 100–200 МБ. Когда мы монтируем Google Диск, модель можно сохранить прямо в вашей корзине облачного хранилища.

Вам не нужно выгружать обученную модель при перезапуске или изменении среды выполнения.

4) Загрузка набора данных в Kaggle

Вы можете загружать очень большие наборы данных на Kaggle.com. Мы можем включить опцию частный набор данных для конфиденциальности. Kaggle предоставляет большое количество готовых наборов данных, поэтому вам следует рассмотреть возможность использования Kaggle API.

Мы можем использовать API в Colab, например,

!echo '{"username":"<username_here>","key":"<key_goes_here>"}' > /root/.kaggle/kaggle.json
!kaggle datasets download -d nltkdata/movie-review
!unzip /content/movie-review.zip -d review

Создайте токен API из Моя учетная запись - ›API

Будет загружен текстовый файл с именем пользователя и ключом токена. Скопируйте их в код выше. Теперь вы готовы использовать Kaggle в Google Colab!

Подождите, это еще ...

Это все

Надеюсь, эти методы помогут загрузить ваши данные в Google Colab. Вы думаете по-разному? Поделитесь ими в комментариях, чтобы добавить их сюда!