Лучшая шпаргалка для ответа «Что такое Dataproc?»

Все, что вам нужно знать о Google Cloud Dataproc

Управляемый Hadoop и Spark #GCPSketchnote

Если вы используете экосистему Hadoop и хотите упростить управление, тогда Dataproc - это инструмент для проверки.

Dataproc - это управляемая служба Spark и Hadoop, которая позволяет использовать инструменты данных с открытым исходным кодом для пакетной обработки, запросов, потоковой передачи и машинного обучения.

Автоматизация Dataproc помогает быстро создавать кластеры, легко управлять ими и экономить деньги, отключая кластеры, когда они вам не нужны. С меньшими затратами времени и денег на администрирование вы можете сосредоточиться на самом важном - на ваших ДАННЫХ!

В этом видео я резюмирую то, что предлагает Dataproc, за 2 минуты.

Эрин и Сэм входят в растущую команду по анализу данных, использующую экосистему Apache Hadoop, и борются с эксплуатационной неэффективностью! Итак, они обращают внимание на Dataproc, который устанавливает кластер Hadoop за 90 секунд, что делает получение аналитических данных простым, быстрым и экономичным по сравнению с традиционными действиями по управлению кластером. Он поддерживает:

  • Инструменты с открытым исходным кодом - Hadoop, экосистема Spark
  • Настраиваемые виртуальные машины, масштабируемые вверх и вниз по мере необходимости
  • Временные кластеры по запросу для экономии затрат
  • Тесно интегрируется с другими сервисами Google Cloud.

Чтобы переместить свои задания Hadoop / Spark, все, что вам нужно сделать, это скопировать данные в Google Cloud Storage, обновить пути к файлам с HDFS на GS, и все готово!

Краткое объяснение того, как работает Dataproc:

Он разделяет хранилище и вычислительные ресурсы. Допустим, внешнее приложение отправляет журналы, которые вы хотите проанализировать, вы храните их в источнике данных. Данные из облачного хранилища (GCS) используются Dataproc для обработки, которая затем сохраняет их обратно в GCS, BigQuery или Bigtable. Вы также можете использовать данные для анализа в записной книжке и отправлять журналы в Cloud Monitoring and Logging.

Поскольку хранилище является отдельным, для долгоживущего кластера у вас может быть один кластер на задание, но для экономии средств можно использовать эфемерные кластеры, сгруппированные и выбранные по меткам. И, наконец, вы также можете использовать нужный объем памяти, ЦП и диска в соответствии с потребностями вашего приложения.

Следующие шаги

Если вам нравится этот #GCPSketchnote, то подпишитесь на мой YouTube канал, где я каждую неделю публикую скетноту по одной теме! И, если у вас есть мысли или идеи по другой теме, которые могут оказаться полезными в этом формате, пожалуйста, оставьте их в комментариях ниже!

Вот сайт для загрузок и распечаток👇