Если вы, как и я, начали свой путь в изучении ИИ и машинного обучения с помощью Google Colab, в какой-то момент вам нужно будет загрузить наборы данных на свой Google Диск, чтобы они были доступны в Google Colab. Есть несколько способов выполнить эту задачу. Разберем их…
В качестве примера возьмем набор данных о раке груди в Висконсине: https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
Ручная загрузка набора данных на локальный компьютер, а затем загрузка его на Google Диск — многословный способ (не рекомендуется)
Доступ к папке груди-рака-висконсина показывает два файла данных среди других, и щелчок по ним приведет к загрузке файлов .data и .names на ваш локальный компьютер:
Доступ к папке «Загрузки» покажет два загруженных файла:
Получите доступ к своему Google Диску и дважды щелкните папку, в которую вы хотите поместить файлы, например. Мои_Python_Programs. Оттуда щелкните правой кнопкой мыши и в меню выберите «Новая папка»:
Дайте папке описательное имя и нажмите «Создать».
Это создает пустую папку набора данных в Google Colab:
Теперь, когда папка набора данных создана, мы можем вручную поместить загруженные файлы в эту папку. Нажмите на значок «Создать» в левом верхнем углу экрана Google Диска:
Теперь нажмите «Загрузить файл» в меню:
Выберите два загруженных файла, которые находятся в папке «Загрузки» (на Mac используйте клавишу cmd и щелкните левой кнопкой мыши невыделенный файл, чтобы выбрать несколько файлов). Выделив оба файла, нажмите кнопку «Открыть»:
Файлы загружаются на ваш Google Диск:
Работа выполнена! Хотя мы загрузили набор данных на наш локальный компьютер только для того, чтобы загрузить его на Google Диск, и это заняло несколько шагов. Хотя этот метод работает, он невозможен при работе с большими наборами данных. Если бы только был лучший способ. Кью wget…
Поскольку Google Colab построен на Linux, мы можем выполнять команды Linux в Colab, и одной из команд для извлечения наборов данных является wget. wget означает «веб-получение», и с помощью этой команды набор данных будет извлечен непосредственно из источника прямо на Google Диск без загрузки на ваш компьютер. Гораздо эффективнее и быстрее.
Давайте вернемся к шагам, описанным выше, к тому моменту, когда вы создали папку набора данных:
Отсюда щелкните правой кнопкой мыши и наведите курсор на «Дополнительно», затем нажмите «Google Colaboratory».
Смонтируйте свой Google Диск, щелкнув значок папки в левом нижнем углу, а затем самый правый значок с надписью «Смонтировать диск»:
Нажмите «ПОДКЛЮЧИТЬСЯ К GOOGLE DRIVE»:
После подключения Google Диска просто разверните каталоги и найдите папку с набором данных, которую мы создали ранее. Щелкните правой кнопкой мыши папку и нажмите «Копировать путь»:
Теперь вернитесь в Colab и в разделе кода введите следующее:
!wget -P
Нажмите пробел и используйте Ctrl + V (на Mac cmd + V), чтобы вставить содержимое буфера обмена в конце этой команды:
Теперь нажмите пробел, чтобы создать пробел
Перейдите в каталог набора данных по раку груди в Висконсине, найдите файл .data, щелкните правой кнопкой мыши и выберите «Копировать адрес ссылки».
Вернитесь в Colab и нажмите Ctrl + V (cmd + V на Mac), чтобы вставить содержимое буфера обмена в ячейку кода:
Нажмите кнопку «Запустить ячейку», в выводе отобразится статус загрузки и местоположение загруженного файла на вашем Google Диске:
При доступе к папке набора данных Google Диска должен отображаться файл .data:
В Colab повторите вышеописанное с файлом .names, наведя указатель мыши на область кода, которая показывает кнопки «Код» и «Текст», и нажмите кнопку «Код», чтобы создать еще один раздел кода:
Скопируйте и вставьте команду !wget -P и расположение папки набора данных:
Перейдите в каталог набора данных «рак груди-Висконсин», найдите файл .names, щелкните правой кнопкой мыши и выберите «Копировать адрес ссылки».
В Colab и в конце вставленного кода нажмите Ctrl + V (cmd + V на Mac), чтобы вставить содержимое буфера обмена в ячейку кода (убедитесь, что есть пробел, разделяющий местоположение набора данных и вставленный URL-адрес). Нажмите кнопку «Запустить ячейку»…
Вывод отображает статус загрузки и местоположение загруженного файла на вашем Google Диске:
При доступе к папке набора данных Google Диска теперь должны отображаться как файлы .data, так и файлы .names:
В приведенном выше примере мы выполнили две команды: одну для файла .data и другую для файла .names. Мы можем использовать команду wget с обоими этими URL-адресами для одновременного импорта файлов данных .names и .data. Нам нужно выполнить следующую команду:
!wget -P {location of where you’d like the files to go} {first file to retrieve} {second file to retrieve} {nth file to retrieve}
Что в нашем примере означает:
!wget -P /content/drive/MyDrive/My_Python_Programs/breast_cancer_dataset https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names
Нажмите кнопку «Выполнить ячейку», и файлы .data и .names будут загружены одним махом в каталог набора данных:
Это обновит структуру каталогов подключенного Google Диска, чтобы отобразить имеющиеся наборы данных:
P.S. Если вам нужен хороший учебник по машинному обучению, чтобы следовать и использовать набор данных о раке молочной железы в Висконсине, реализуя алгоритм K-Nearest-Neighbour, проверьте https://pythonprogramming.net/k-nearest-neighbors-application-machine- Learning-tutorial/?completed=/k-nearest-neighbours-intro-machine-learning-tutorial/
Надеюсь, это поможет. Любые вопросы или комментарии просто оставляйте в разделе ответов. Удачного кодирования Python в Colab…