Мы все знаем, что Google продолжает предлагать наилучшие решения для большинства наших проблем. Одной из таких вещей является блокнот Google Colab. В этих ноутбуках используются облачные серверы Google, и они предлагают графический процессор, а также среду выполнения TPU [и все это бесплатно! Спасибо Google :)]. Всем энтузиастам машинного обучения, машинного обучения и искусственного интеллекта обязательно стоит попробовать ноутбуки Colab.

Давайте начнем

Не забудьте зарегистрироваться и зарегистрироваться на Kaggle, прежде чем погрузиться в это. Теперь приступим. Войдите в свою учетную запись Kaggle и в правом верхнем углу, где вы видите значок своего профиля, выберите Мой аккаунт в раскрывающемся меню.

Прокрутите вниз до раздела API, чтобы увидеть параметр «Создать новый токен API». Нажмите здесь, чтобы загрузить файл kaggle.json. Если вы откроете этот файл в текстовом редакторе, вы увидите два поля: "имя ​​пользователя" и "ключ". Это файл, который мы позже добавим в нашу записную книжку colab.

Переходим к блокноту Colab

Создайте новый блокнот на странице colab.research.google.com. На панели меню вы увидите параметр «Среда выполнения», где вы можете изменить тип среды выполнения и решить, использовать ли стандартную среду, среду на основе графического процессора или на основе TPU. По умолчанию colab работает в стандартной среде.

Теперь пришло время установить Kaggle. Команды установки очень похожи на те, которые используются в ноутбуках Jupyter. Выполните следующие команды:

!pip install kaggle

Теперь создайте папку с именем kaggle, как показано ниже.

!mkdir .kaggle

Обратите внимание, что .kaggle будет скрытым каталогом. Чтобы убедиться, что он был успешно создан, вы можете проверить его с помощью команды !ls -la. Теперь запустите следующий код.

import json
token = {"username":"YOUR_USERNAME","key":"AUTHENTICATION_KEY"}
with open('/content/.kaggle/kaggle.json','w') as file:
    json.dump(token,file)

Поля имени пользователя и ключа в токене должны быть скопированы из файла kaggle.json, который мы ранее скачали. Чтобы проверить, был ли создан файл kaggle.json в нашем каталоге .kaggle, используйте команду !ls -la .kaggle/. Далее нам нужно создать еще один каталог в корне.

!mkdir ~/.kaggle

Затем скопируйте содержимое из папки .kaggle в каталоге /content в папку .kaggle в корневом каталоге, а затем установите переменную пути. Это может выглядеть грязно, но это довольно простой процесс, как показано ниже.

!cp /content/.kaggle/kaggle.json ~/.kaggle/kaggle.json
!kaggle config set -n path -v{/content}

Если после этого этапа вы получите предупреждение от блокнотов colab, вам будет предложено выполнить команду вида !chmod 600 /root/.kaggle/kaggle.json. Теперь вы можете идти.

Наборы данных Kaggle

Теперь вы можете легко получить доступ к списку наборов данных на kaggle с помощью команды

!kaggle datasets list -s massachusetts

Если вы используете только команду !kaggle datasets list, она выведет список всех наборов данных, доступных на kaggle. Для поиска определенного набора данных вы можете добавить к команде флаг -s вместе с нужным условием поиска, как показано выше. Например, приведенная выше команда выведет список всех наборов данных, содержащих термин массачусетс.

Скачивание нужного набора данных

После входа в свою учетную запись kaggle найдите нужный набор данных и перейдите на его страницу.

Выберите параметр копировать команду API в раскрывающемся меню справа. Вставьте эту команду в следующую ячейку вашего блокнота Colab. Не забудьте использовать ! оператор при запуске команды. Добавьте -p/content, чтобы сообщить Colab точный путь, по которому вы хотите загрузить набор данных.

!kaggle datasets download -d insaff/massachusetts-road-dataset -p/content

Ну вот! Теперь у вас есть необходимые данные и лучшая вычислительная мощность. Иди и попробуй что-нибудь интересное с имеющимися у тебя ресурсами.

Надеюсь, этот пост окажется полезным :)