Сегодня мы рады объявить об общедоступности сред Spark в IBM Watson Studio!

Среды Spark были доступны в бета-версии (см. объявление здесь) в течение последнего месяца, чтобы вы могли рассказать нам о своем опыте. Мы учли ваши отзывы и добавили несколько новых интересных функций!

Среды Spark определяют конфигурации оборудования и программного обеспечения для запуска настраиваемых кластеров Spark по запросу. Среды Spark можно быстро увеличивать или уменьшать для ресурсов. Это делает их хорошо подходящими для множества сценариев использования, от опробования новых алгоритмов машинного обучения на выборочном наборе данных до выполнения больших производственных рабочих нагрузок на механизме распределенных вычислений. Среды Spark можно использовать с такими инструментами, как записные книжки, построитель моделей или редактор потоков в Watson Studio.

Среды Spark доступны по умолчанию для всех пользователей Watson Studio. Вам не нужно предоставлять или связывать какие-либо внешние службы Spark с вашим проектом Watson Studio. Вы просто выбираете аппаратную и программную конфигурацию службы среды выполнения Spark, необходимую для запуска вашего инструмента, а затем, когда вы запускаете инструмент с определением среды, создается экземпляр среды выполнения на основе ваших спецификаций конфигурации. Вычислительные ресурсы Spark предназначены только для вашего инструмента и не передаются соавторам.

Вы по-прежнему можете делиться файлами данных, библиотеками и результатами анализа с соавторами вашего проекта. Все, что вам нужно сделать, это сохранить это в облачном хранилище объектов, связанном с вашим проектом, и все участники вашего проекта смогут получить доступ к вашим файлам.

Чтобы вам было действительно легко начать работу со средой Spark, вы можете выбрать одно из значений по умолчанию Spark, которые мы включаем в каждый проект (одно для Python 3.5, а другое для Scala 2.11). Вы можете использовать одну из этих сред по умолчанию, чтобы быстро приступить к работе, без необходимости создавать настраиваемое определение среды.

Начните работу со своей собственной средой Spark

Если вы хотите указать собственную среду Spark, начните с создания определения среды:

  1. На вкладке Среды в своем проекте нажмите Определение новой среды.
  2. Введите имя и описание.
  3. Выберите тип среды Spark, чтобы просмотреть параметры конфигурации среды выполнения и выбрать конфигурацию оборудования и программного обеспечения. Вы можете создать среду Spark с 1 драйвером и до 10 исполнителями. Драйвер и исполнители могут быть сконфигурированы с 1 виртуальным ЦП и 4 ГБ ОЗУ или 2 виртуальными ЦП и 8 ГБ ОЗУ.
  4. Имея определение среды, вы можете создать записную книжку, модель машинного обучения или поток моделирования и выбрать только что созданную среду Spark в качестве среды выполнения для использования.

Среды Spark легко настраиваются как с точки зрения аппаратного, так и программного обеспечения. При создании определения среды Spark вы можете выбрать один из самых популярных языков для вашего кластера Spark, а именно Python 2.7, Python 3.5, R 3.4 и Scala 2.11. В зависимости от вашего варианта использования вы также можете настроить размеры оборудования для вашего драйвера Spark и исполнителей. Если вам нужно изменить размер оборудования по соображениям производительности, вы всегда можете вернуться и отредактировать определение среды даже после того, как вы его создали. Вы можете сделать это на странице вашего проекта "Среды".

Среды Spark и инструменты Watson Studio

Вы можете создать записную книжку Jupyter прямо со сводной страницы среды Spark, если вам нравится использовать ярлыки. Таким образом, будет выбрана только что созданная среда Spark.

Более того, теперь вы можете использовать среды Spark при создании модели или потока моделирования Spark. Созданная вами среда Spark появится в списке сред выполнения Spark, из которого вы можете выбрать. Хотя среды Spark для построителя моделей и разработчика моделей все еще находятся в стадии бета-тестирования, мы рекомендуем вам использовать эти среды при запуске моделей и потоков Spark Modeler.

Следите за своим использованием

Отслеживать использование среды выполнения Spark, за которую вам выставлен счет, просто в Watson Studio. Ваша среда Spark начинает потреблять единичные часы емкости (CUH), как только ваш кластер начинает работать, и останавливается, когда вы останавливаете среду выполнения. Это означает, что с вас взимается плата только за то, что вы используете, но вы должны не забыть остановить запуск, когда ваша работа будет завершена - на случай, если вы забудете, мы остановим его для вас после некоторого времени простоя.

Ознакомьтесь с нашей документацией, чтобы узнать больше о том, как рассчитать потребление CUH и где остановить активное время выполнения.

Новичок в ноутбуках Spark или Jupyter?

Нет проблем, у нас есть несколько примеров записных книжек в разделе сообщества, которые научат вас делать удивительные вещи с помощью Spark в записных книжках Jupyter.

Следите за новостями

Мы стремимся упростить вашу работу с машинным обучением и искусственным интеллектом. Мы продолжим добавлять много новых интересных функций:

  • Настройка пользовательского программного обеспечения для управления индивидуальными пакетами
  • Доступ к серверу истории Spark и пользовательскому интерфейсу приложения Spark
  • И многое другое!