Jupyter Notebook, ранее называвшийся IPython, представляет собой веб-среду IDE для разработки Spark. Jupyter позволяет пользователям писать код Scala, Python или R для Apache Spark, выполнять его на месте и документировать с использованием синтаксиса уценки.

Писать код на интерактивной веб-странице - это естественно и логично. Пользователь может написать несколько строк кода, выполнить его, исправить ошибки и добавить еще код (и исправить это). Все это проще, чем использовать клавиши курсора для итерации по истории команд или использовать текстовый редактор, не имеющий интерпретатора и соединения Spark. Вдобавок ко всему, пользователю Jupyter Notebook не нужно выполнять какую-либо настройку или беспокоиться о деталях реализации Spark.

Запуск и установка

Запустить Jupyter так же просто, как установить Docker, а затем выполнить эту команду, чтобы загрузить образ из Docker и запустить его:

1

docker run -d -p 8888: 8888 jupyter / all-spark-ноутбук

Затем откройте Jupyter, перейдя по адресу localhost: 8888 в своем браузере.

Как видите, когда вы нажимаете Создать, у вас появляется возможность написать код Scala, Python 2 или 3 или R. Существуют переводчики и для других языков.

На этом этапе открывается диалоговое окно, в котором вы можете вводить текст. Каждый из этих квадратов называется ячейкой. Ячейка может содержать код для выполнения или уценку для отображения.

Создайте СДР

Как и при использовании оболочек Spark, когда вы пишете код на Jupyter, нет необходимости устанавливать SQLContext / SparkContext или импортировать эти операторы, поскольку они уже автоматически вводятся в область видимости.

Теперь мы можем построить СДР. Вы просто записываете этот код в ячейку, а затем нажимаете Ячейка / Выполнить ячейки.

1

2

3

val data = Массив (1, 2, 3, 4, 5)

val distData = sc.parallelize (данные)

Работа с ноутбуком

Вы можете изменить название записной книжки, набрав слово «Без названия» в верхней части экрана. Нет кнопки «Сохранить». Jupyter сохраняет все ваши изменения в файле .ipynb во время работы.

Добавьте пустые ячейки, нажав Вставить.

По мере того, как вы работаете над своей программой, экран будет заполняться ошибками и запускаться. Нажмите Ячейки / Весь вывод / Очистить, чтобы очистить весь вывод.

Markdown

Markdown - это синтаксис, используемый для записи страниц README.md на Github. Используйте его для создания заголовков, маркированных и нумерованных списков, а также для создания блоков кода. Вы можете использовать эту шпаргалку для уценки.

Чтобы изменить код ячейки на уценку, нажмите Ячейка / Тип ячейки / Уценка.

Он может попытаться интерпретировать ваш ввод. Для его оценки нажмите Выполнить ячейки как обычно.

Развертывание Jupyter

Вы должны настроить Nginx или Apache в качестве обратного прокси-сервера перед Jupyter, если вы хотите запускать Jupyter через общедоступный Интернет, поскольку это открывает его на порту 80, поэтому нет необходимости изменять правила вашего брандмауэра. Обязательно укажите пароль, поскольку Jupyter Notebooks также позволяет писать код на Bash. Хакер может нанести реальный ущерб вашему компьютеру, если вы оставите его открытым.

Jupyter обычно настроен для работы для одного человека, то есть для локальной установки Spark. Но вы можете запустить его поверх кластера Spark Mesos. Вот несколько инструкций для этого.

Об авторе: Эл Нельсон

Эл помешан на технологиях. Он профессиональный технический писатель и разработчик программного обеспечения, который любит писать для технологических компаний и воспитывать счастливых пользователей. Вы можете найти его в Интернете по адресу http://www.alnelsonwrites.com или в Twitter под именем @musegarden.