Работа с RAPIDS и Paperspace Gradient

Узнайте, как приступить к ускорению рабочих нагрузок по обработке и анализу данных с помощью RAPIDS в Paperspace Gradient.

Введение

RAPIDS — это набор библиотек с открытым исходным кодом, которые ускоряют работу популярных инструментов обработки данных и позволяют пользователям полностью выполнять сквозные операции обработки данных на графических процессорах NVIDIA.

Paperspace — это облачная платформа для ускоренных вычислений, а Paperspace Gradient предоставляет управляемые облачные ноутбуки и инфраструктуру MLOps для групп машинного обучения.

Почему вы хотите перенести свои рабочие нагрузки по обработке данных на GPU?

Мы можем назвать три веские причины:

Вы хотите использовать сверхбыстрый параллелизм GPU для таких задач, как загрузка больших фрагментов данных в память.
Вы хотите увеличить использование ресурсов вашего графического процессора и использовать как можно больше ускорений, чтобы сократить время ETL данных, обучения и оптимизации.
Вы хотите, чтобы специалисты по данным могли максимально эффективно использовать свое время, чаще выполнять итерации и создавать более совершенные модели и решения.

Когда NVIDIA анонсировала RAPIDS в 2018 году, в блоге разработчиков особое внимание было уделено этому последнему пункту со следующим рисунком:

Идея заключается в том, что если вы правильно используете GPU для всех рутинных задач, которые являются частью жизненного цикла машинного обучения, у вас будет гораздо больше времени для анализа результатов (и меньше времени для перерывов на кофе).

RAPIDS применяется

Итак, какие рабочие нагрузки подходят для RAPIDS и как мы можем начать работу с Paperspace Gradient?

Давайте посмотрим, как настроить и начать.

Предпосылки

Как вы скоро увидите, Gradient берет на себя большую часть вопросов по установке при загрузке RAPIDS, но нам нужно знать, что в настоящее время для RAPIDS требуется NVIDIA Pascal или более новая архитектура графического процессора с вычислительными возможностями 6.0+.

Для начала нам нужно выбрать инстанс P4000 или выше. Если у вас есть подписка G1 или выше, будет работать уровень Free-P5000 GPU. Если у вас нет платной подписки или вы решили не использовать уровень Free-P5000 GPU, вам будет выставляться счет по стандартной модели Paperspace Подписка + использование для инстансов P4000, P5000, P6000 или V100 GPU, совместимых с RAPIDS. . Пользователи уровня графических процессоров Free-M4000 исключают требуемые графические процессоры.

Запустите блокнот с помощью контейнера RAPIDS

Первое, что мы сделаем из консоли Paperspace, — это запустим новый ноутбук и выберем контейнер NVIDIA RAPIDS. Помните, что нам нужно выбрать графический процессор P4000 или лучше, поэтому здесь мы выбираем экземпляр уровня графического процессора Free-P5000, включенный в нашу подписку G1 или выше.

На данный момент мы собираемся запустить стандартный контейнер и рабочее пространство, которые предоставляет Gradient (которое клонировано из официальной документации RAPIDS), однако полезно отметить, что если мы захотим загрузить другое рабочее пространство из GitHub, мы бесплатно указать это на вкладке «Дополнительные параметры».

Мы также можем сделать то же самое для самого контейнера!

Исследуйте подготовленный блокнот

Как только блокнот будет настроен, мы сразу же заметим в файловом браузере, что теперь у нас есть папки, содержащие CLX, cuML и XGBoost.

Давайте взглянем на демонстрацию XGBoost, чтобы помочь разобраться с IDE Gradient Notebooks.

Вот компоненты Gradient IDE:

Селектор экземпляров — позволяет останавливать и запускать блокнот на любом графическом процессоре, предоставляемом Paperspace, непосредственно из блокнота.
JupyterLab — запускает текущую записную книжку в полной среде JupyterLab, позволяя выполнять такие действия, как загрузка данных.
Кнопка «Стоп» — приостанавливает (и делает снимки) текущего состояния блокнота.
Поделиться — создает ссылку одним щелчком для текущей записной книжки (и определенного файла записной книжки), чтобы поделиться с коллегами, друзьями или незнакомцами в Интернете.
Выполнить все — последовательно выполняет каждую ячейку в текущей записной книжке.
Панель использования —предоставляет отчет о состоянии экземпляра ноутбука, включая использование ЦП и ОЗУ, а также активное/неактивное состояние и базовый контейнер для справки.

Изучение демонстрационных ноутбуков

Ноутбук XGBoost предназначен для демонстрации возможного ускорения при использовании графических процессоров для выполнения задач подготовки данных, машинного обучения и глубокого обучения.

XGBoost дает реальные примеры загрузки/моделирования данных, преобразования данных в объекты DMatrix для XGBoost, настройки параметров и обучения модели. Вы также сможете работать с cuDF, библиотекой фреймов данных RAPIDS GPU.

И если вас интересуют подробности того, как работает этот блокнот, мы настоятельно рекомендуем вам ознакомиться с публикацией в блоге, где мы углубимся в примеры блокнотов.

Также есть запись отличной встречи PyData, в которой создатели блокнота шаг за шагом проходят ее — так что обязательно посмотрите и ее!

Последние мысли

Мы рекомендуем вам взглянуть на демонстрационные библиотеки, включенные в начальную среду выполнения RAPIDS. В частности, демонстрационный блокнот (NYC Taxi Spatial Notebook) объединяет множество библиотек и концепций RAPIDS в одном месте.

Если у вас есть какие-либо вопросы или комментарии, не стесняйтесь обратиться и дайте нам знать ваши мысли!