Публикации по теме 'dataproc'


Бессерверный конвейер Spark ML в GCP
В предыдущей статье о серии Serverless Spark мы описали, как можно разработать пример конвейера ETL. В этой статье мы расширим это, чтобы увидеть, как конвейер ML может быть разработан и организован с помощью Serverless Spark. Мы построим простую регрессионную модель для прогнозирования веса пингвинов. Набор данных для этого решения доступен в общедоступных наборах данных BigQuery в разделе bigquery-public-data.ml_datasets.penguins. Мы предскажем вес пингвина на основе вида пингвина,..

Динамическое ценообразование для otto.de
В статье описываются основные функции службы динамического ценообразования Otto , которая в настоящее время используется для установления цен на большинство товаров на otto.de. Далее в нем описывается, как мы успешно создали службу как надежное и масштабируемое облачное приложение , способное ежедневно предоставлять цены для миллионов статей. В нем также объясняется, какую пользу мы получили от работы над нашим приложением в многофункциональной команде, и как мы намерены обеспечить..

Как загрузить данные в Google BigQuery на Dataproc и AutoML
Что такое Google Dataproc? Dataproc - это недорогая, интегрированная в Google Cloud Platform, простая в использовании управляемая служба Spark и Hadoop, которую можно использовать для сценариев использования пакетной обработки, потоковой передачи и машинного обучения. Что такое Google BigQuery? BigQuery - это хранилище данных корпоративного уровня, которое позволяет выполнять высокопроизводительные SQL-запросы с использованием вычислительной мощности инфраструктуры Google. Загрузка..