Google colab отлично подходит для исследований данных, машинного обучения и экспериментов с глубоким обучением, тем более, что в нем установлено большинство полезных пакетов, и вы получаете бесплатное использование графического процессора (в значительной степени обязательно, если в ваших экспериментах используются нейронные сети).
Если вам также нравится участвовать в соревнованиях Kaggle (или просто играть с их наборами данных), вы также можете использовать ядра Kaggle. Однако я не всегда с ними справляюсь, поскольку их каталог данных предназначен только для записи (для некоторых библиотек по умолчанию также требуется доступ на запись), а также вы не можете установить дополнительные пакеты без перезапуска ядра. (установка пипа внутри ячейки не допускается ...) И иногда это может немного раздражать, когда ядро дает сбой, и вы теряете весь свой вывод ...
Или иногда вы просто хотите использовать colab, потому что вы уже делаете там что-то другое.
Моя настройка для colab выглядит следующим образом:
- настроить ведро облачного хранилища Google (gcs) для хранения моих моделей и промежуточных данных
- сохраните мои ключи kaggle (или другие ключи api, которые вам нужны) в другую корзину gcs - это позволяет вам безопасно использовать свои ключи, не беспокоясь о необходимости каждый раз загружать их в записную книжку.
- копировать ключи при запуске (например, ключи kaggle должны находиться в каталоге .kaggle)
- загрузите любые необходимые внешние наборы данных из Интернета (обычно это намного быстрее, чем в вашей домашней сети 😉)
- сделать некоторые (надеюсь, крутые) вещи с данными
- скопируйте любые важные промежуточные результаты и модели в мою корзину gcp
Итак, настройка colab выглядит следующим образом:
Для извлечения данных / моделей из gcs в рабочую область для совместной работы ниже приведен пример, в котором я сохранил набор данных KMNIST (преобразованный из массивов np в pngs) в ведре kmnist
и скопировал его для совместной работы с помощью gsutil cp
.
Копирование в gcs так же просто, например,
Дополнительные возможности для работы с внешними наборами данных можно найти на странице https://colab.research.google.com/notebooks/io.ipynb.
Вот и все, простая настройка для colab + kaggle (+ fastai).