Google colab отлично подходит для исследований данных, машинного обучения и экспериментов с глубоким обучением, тем более, что в нем установлено большинство полезных пакетов, и вы получаете бесплатное использование графического процессора (в значительной степени обязательно, если в ваших экспериментах используются нейронные сети).

Если вам также нравится участвовать в соревнованиях Kaggle (или просто играть с их наборами данных), вы также можете использовать ядра Kaggle. Однако я не всегда с ними справляюсь, поскольку их каталог данных предназначен только для записи (для некоторых библиотек по умолчанию также требуется доступ на запись), а также вы не можете установить дополнительные пакеты без перезапуска ядра. (установка пипа внутри ячейки не допускается ...) И иногда это может немного раздражать, когда ядро ​​дает сбой, и вы теряете весь свой вывод ...

Или иногда вы просто хотите использовать colab, потому что вы уже делаете там что-то другое.

Моя настройка для colab выглядит следующим образом:

  • настроить ведро облачного хранилища Google (gcs) для хранения моих моделей и промежуточных данных
  • сохраните мои ключи kaggle (или другие ключи api, которые вам нужны) в другую корзину gcs - это позволяет вам безопасно использовать свои ключи, не беспокоясь о необходимости каждый раз загружать их в записную книжку.
  • копировать ключи при запуске (например, ключи kaggle должны находиться в каталоге .kaggle)
  • загрузите любые необходимые внешние наборы данных из Интернета (обычно это намного быстрее, чем в вашей домашней сети 😉)
  • сделать некоторые (надеюсь, крутые) вещи с данными
  • скопируйте любые важные промежуточные результаты и модели в мою корзину gcp

Итак, настройка colab выглядит следующим образом:

Для извлечения данных / моделей из gcs в рабочую область для совместной работы ниже приведен пример, в котором я сохранил набор данных KMNIST (преобразованный из массивов np в pngs) в ведре kmnist и скопировал его для совместной работы с помощью gsutil cp.

Копирование в gcs так же просто, например,

Дополнительные возможности для работы с внешними наборами данных можно найти на странице https://colab.research.google.com/notebooks/io.ipynb.

Вот и все, простая настройка для colab + kaggle (+ fastai).