Публикации по теме 'apache-spark'


Анализ данных с помощью Scala и Spark: часть 4
Анализ данных с помощью Scala и Spark: часть 4 Агрегации, гистограммы и коллекции Scala Второй раздел из серии «Наука о данных и расширенная аналитика в Spark, Scala, AWS и машинном обучении». Предыдущий раздел Apache Spark и Hadoop в кластере AWS с Flintrock medium.com Агрегации Давайте начнем исследовать некоторые различия между API-интерфейсами Scala и Spark, особенно в том, что касается группировки и агрегирования данных...

Sparkify прогнозирование оттока пользователей с помощью PySpark
Прогнозирование оттока пользователей сервиса потоковой передачи музыки на локальном компьютере и AWS EMR. Обзор Прогнозирование оттока (отмены) пользователей - обязательный инструмент прогнозирования. Этот проект решает эту проблему для сервиса потоковой передачи музыки: Sparkify. Изучая данные об использовании Sparkify, проект определяет функции для изучения моделей. По соображениям эффективности вычислений крошечный набор данных (240 МБ), образец полного набора данных (12 ГБ)..

Бессерверная система рекомендаций с использованием PySpark и GCP
За кулисами моей системы рекомендаций онлайн-фильмов и того, как она взаимодействует с Google Cloud Platform. «Как Netflix предсказывает мой вкус?» Это был вопрос, который пришел мне в голову, прежде чем я начал заниматься наукой о данных. Это вызвало у меня любопытство в этой области. Недавно я подумал, что пора мне ответить на этот вопрос. Итак, я решил создать веб-приложение, которое будет рекомендовать фильмы зарегистрированным пользователям. Моей главной целью было сделать..

Как сделать XGBoost доступным в блокноте Spark
Это пошаговое руководство по установке XGBoost (эффективная реализация повышения градиента) на Spark Notebook (инструмент для анализа Apache Spark и Scala и построения графиков, аналогичный Jupyter Notebook ). Если у вас не установлен блокнот Spark, вы можете следовать этому краткому руководству . Шаг 1: Создайте XGBoost Для этого шага нам нужно клонировать репозиторий с github и собрать проект: git clone --recursive https://github.com/dmlc/xgboost Далее нам нужно зайти во..

Apache Spark и RDD: распределенная отказоустойчивая абстракция в памяти для машинного обучения
Вступление В наши дни существует множество приложений, которые полагаются на тяжелую обработку данных и используют итерационные алгоритмы, такие как градиентный спуск, или выполняют интерактивные запросы интеллектуального анализа данных. Эти методы широко используются в области машинного обучения, анализа данных. Один из популярных фреймворков, обеспечивающих эту возможность, - Apache Spark . Основным строительным блоком Spark является отказоустойчивая абстракция распределенной..

Как сделать XGBoost доступным в Apache Zeppelin
Это пошаговое руководство по установке XGBoost (эффективная реализация повышения градиента) в Apache Zeppelin (веб-блокнот для интерактивной аналитики в SQL, Scala и Spark). Если у вас не установлен Zeppelin, воспользуйтесь этим кратким руководством . Шаг 1. Создайте XGBoost Для этого шага нам нужно клонировать репозиторий из github и собрать проект: git clone --recursive https://github.com/dmlc/xgboost Затем нам нужно войти в только что клонированный репозиторий и собрать..

Apache Spark и Hadoop в кластере AWS с Flintrock: часть 4
Apache Spark и Hadoop в кластере AWS с Flintrock: часть 4 Локальная загрузка Spark и развертывание проекта Spark в EC2 Первый раздел в серии «Наука о данных и расширенная аналитика в Spark, Scala, AWS и машинном обучении». Локальная загрузка Spark и развертывание проекта Spark в EC2 В этой части вы разрабатываете приложение Spark в своей обычной среде разработки, и когда вы будете готовы, вы отправите это задание для запуска в кластере Spark, работающем на EC2. Для этого нам..