Если вы, как и я, начали свой путь в изучении ИИ и машинного обучения с помощью Google Colab, в какой-то момент вам нужно будет загрузить наборы данных на свой Google Диск, чтобы они были доступны в Google Colab. Есть несколько способов выполнить эту задачу. Разберем их…

В качестве примера возьмем набор данных о раке груди в Висконсине: https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/

Ручная загрузка набора данных на локальный компьютер, а затем загрузка его на Google Диск — многословный способ (не рекомендуется)

Доступ к папке груди-рака-висконсина показывает два файла данных среди других, и щелчок по ним приведет к загрузке файлов .data и .names на ваш локальный компьютер:

Доступ к папке «Загрузки» покажет два загруженных файла:

Получите доступ к своему Google Диску и дважды щелкните папку, в которую вы хотите поместить файлы, например. Мои_Python_Programs. Оттуда щелкните правой кнопкой мыши и в меню выберите «Новая папка»:

Дайте папке описательное имя и нажмите «Создать».

Это создает пустую папку набора данных в Google Colab:

Теперь, когда папка набора данных создана, мы можем вручную поместить загруженные файлы в эту папку. Нажмите на значок «Создать» в левом верхнем углу экрана Google Диска:

Теперь нажмите «Загрузить файл» в меню:

Выберите два загруженных файла, которые находятся в папке «Загрузки» (на Mac используйте клавишу cmd и щелкните левой кнопкой мыши невыделенный файл, чтобы выбрать несколько файлов). Выделив оба файла, нажмите кнопку «Открыть»:

Файлы загружаются на ваш Google Диск:

Работа выполнена! Хотя мы загрузили набор данных на наш локальный компьютер только для того, чтобы загрузить его на Google Диск, и это заняло несколько шагов. Хотя этот метод работает, он невозможен при работе с большими наборами данных. Если бы только был лучший способ. Кью wget…

Поскольку Google Colab построен на Linux, мы можем выполнять команды Linux в Colab, и одной из команд для извлечения наборов данных является wget. wget означает «веб-получение», и с помощью этой команды набор данных будет извлечен непосредственно из источника прямо на Google Диск без загрузки на ваш компьютер. Гораздо эффективнее и быстрее.

Давайте вернемся к шагам, описанным выше, к тому моменту, когда вы создали папку набора данных:

Отсюда щелкните правой кнопкой мыши и наведите курсор на «Дополнительно», затем нажмите «Google Colaboratory».

Смонтируйте свой Google Диск, щелкнув значок папки в левом нижнем углу, а затем самый правый значок с надписью «Смонтировать диск»:

Нажмите «ПОДКЛЮЧИТЬСЯ К GOOGLE DRIVE»:

После подключения Google Диска просто разверните каталоги и найдите папку с набором данных, которую мы создали ранее. Щелкните правой кнопкой мыши папку и нажмите «Копировать путь»:

Теперь вернитесь в Colab и в разделе кода введите следующее:

!wget -P 

Нажмите пробел и используйте Ctrl + V (на Mac cmd + V), чтобы вставить содержимое буфера обмена в конце этой команды:

Теперь нажмите пробел, чтобы создать пробел

Перейдите в каталог набора данных по раку груди в Висконсине, найдите файл .data, щелкните правой кнопкой мыши и выберите «Копировать адрес ссылки».

Вернитесь в Colab и нажмите Ctrl + V (cmd + V на Mac), чтобы вставить содержимое буфера обмена в ячейку кода:

Нажмите кнопку «Запустить ячейку», в выводе отобразится статус загрузки и местоположение загруженного файла на вашем Google Диске:

При доступе к папке набора данных Google Диска должен отображаться файл .data:

В Colab повторите вышеописанное с файлом .names, наведя указатель мыши на область кода, которая показывает кнопки «Код» и «Текст», и нажмите кнопку «Код», чтобы создать еще один раздел кода:

Скопируйте и вставьте команду !wget -P и расположение папки набора данных:

Перейдите в каталог набора данных «рак груди-Висконсин», найдите файл .names, щелкните правой кнопкой мыши и выберите «Копировать адрес ссылки».

В Colab и в конце вставленного кода нажмите Ctrl + V (cmd + V на Mac), чтобы вставить содержимое буфера обмена в ячейку кода (убедитесь, что есть пробел, разделяющий местоположение набора данных и вставленный URL-адрес). Нажмите кнопку «Запустить ячейку»…

Вывод отображает статус загрузки и местоположение загруженного файла на вашем Google Диске:

При доступе к папке набора данных Google Диска теперь должны отображаться как файлы .data, так и файлы .names:

В приведенном выше примере мы выполнили две команды: одну для файла .data и другую для файла .names. Мы можем использовать команду wget с обоими этими URL-адресами для одновременного импорта файлов данных .names и .data. Нам нужно выполнить следующую команду:

!wget -P {location of where you’d like the files to go} {first file to retrieve} {second file to retrieve} {nth file to retrieve}

Что в нашем примере означает:

!wget -P /content/drive/MyDrive/My_Python_Programs/breast_cancer_dataset https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names

Нажмите кнопку «Выполнить ячейку», и файлы .data и .names будут загружены одним махом в каталог набора данных:

Это обновит структуру каталогов подключенного Google Диска, чтобы отобразить имеющиеся наборы данных:

P.S. Если вам нужен хороший учебник по машинному обучению, чтобы следовать и использовать набор данных о раке молочной железы в Висконсине, реализуя алгоритм K-Nearest-Neighbour, проверьте https://pythonprogramming.net/k-nearest-neighbors-application-machine- Learning-tutorial/?completed=/k-nearest-neighbours-intro-machine-learning-tutorial/

Надеюсь, это поможет. Любые вопросы или комментарии просто оставляйте в разделе ответов. Удачного кодирования Python в Colab…