Публикации по теме 'apache-spark'
Анализ данных с помощью Scala и Spark: часть 4
Анализ данных с помощью Scala и Spark: часть 4
Агрегации, гистограммы и коллекции Scala
Второй раздел из серии «Наука о данных и расширенная аналитика в Spark, Scala, AWS и машинном обучении».
Предыдущий раздел
Apache Spark и Hadoop в кластере AWS с Flintrock medium.com
Агрегации
Давайте начнем исследовать некоторые различия между API-интерфейсами Scala и Spark, особенно в том, что касается группировки и агрегирования данных...
Sparkify прогнозирование оттока пользователей с помощью PySpark
Прогнозирование оттока пользователей сервиса потоковой передачи музыки на локальном компьютере и AWS EMR.
Обзор
Прогнозирование оттока (отмены) пользователей - обязательный инструмент прогнозирования. Этот проект решает эту проблему для сервиса потоковой передачи музыки: Sparkify. Изучая данные об использовании Sparkify, проект определяет функции для изучения моделей. По соображениям эффективности вычислений крошечный набор данных (240 МБ), образец полного набора данных (12 ГБ)..
Бессерверная система рекомендаций с использованием PySpark и GCP
За кулисами моей системы рекомендаций онлайн-фильмов и того, как она взаимодействует с Google Cloud Platform.
«Как Netflix предсказывает мой вкус?» Это был вопрос, который пришел мне в голову, прежде чем я начал заниматься наукой о данных. Это вызвало у меня любопытство в этой области.
Недавно я подумал, что пора мне ответить на этот вопрос. Итак, я решил создать веб-приложение, которое будет рекомендовать фильмы зарегистрированным пользователям.
Моей главной целью было сделать..
Как сделать XGBoost доступным в блокноте Spark
Это пошаговое руководство по установке XGBoost (эффективная реализация повышения градиента) на Spark Notebook (инструмент для анализа Apache Spark и Scala и построения графиков, аналогичный Jupyter Notebook ).
Если у вас не установлен блокнот Spark, вы можете следовать этому краткому руководству .
Шаг 1: Создайте XGBoost
Для этого шага нам нужно клонировать репозиторий с github и собрать проект:
git clone --recursive https://github.com/dmlc/xgboost
Далее нам нужно зайти во..
Apache Spark и RDD: распределенная отказоустойчивая абстракция в памяти для машинного обучения
Вступление
В наши дни существует множество приложений, которые полагаются на тяжелую обработку данных и используют итерационные алгоритмы, такие как градиентный спуск, или выполняют интерактивные запросы интеллектуального анализа данных. Эти методы широко используются в области машинного обучения, анализа данных. Один из популярных фреймворков, обеспечивающих эту возможность, - Apache Spark . Основным строительным блоком Spark является отказоустойчивая абстракция распределенной..
Как сделать XGBoost доступным в Apache Zeppelin
Это пошаговое руководство по установке XGBoost (эффективная реализация повышения градиента) в Apache Zeppelin (веб-блокнот для интерактивной аналитики в SQL, Scala и Spark).
Если у вас не установлен Zeppelin, воспользуйтесь этим кратким руководством .
Шаг 1. Создайте XGBoost
Для этого шага нам нужно клонировать репозиторий из github и собрать проект:
git clone --recursive https://github.com/dmlc/xgboost
Затем нам нужно войти в только что клонированный репозиторий и собрать..
Apache Spark и Hadoop в кластере AWS с Flintrock: часть 4
Apache Spark и Hadoop в кластере AWS с Flintrock: часть 4
Локальная загрузка Spark и развертывание проекта Spark в EC2
Первый раздел в серии «Наука о данных и расширенная аналитика в Spark, Scala, AWS и машинном обучении».
Локальная загрузка Spark и развертывание проекта Spark в EC2
В этой части вы разрабатываете приложение Spark в своей обычной среде разработки, и когда вы будете готовы, вы отправите это задание для запуска в кластере Spark, работающем на EC2.
Для этого нам..