Публикации по теме 'apache-spark'


Watson Machine Learning для разработчиков
Понимание основных проблем и рабочего процесса (часть 1) Я не специалист по данным , но я разработчик, интересующийся наукой о данных и машинным обучением. Я надеюсь, что вы здесь, потому что вы тоже! Это первая часть из серии публикаций, направленных на знакомство разработчиков, таких как я и вы, с основными концепциями и инструментами машинного обучения, необходимыми для запуска и работы системы машинного обучения. Я не буду тратить много времени на разговоры о том, как очищать и..

Распределяй и властвуй: игровое руководство по распределенному выполнению Spark
Упрощенная распределенная архитектура Apache Spark Если вы читаете эту статью, вы, вероятно, знаете, что Spark как-то связан с большими данными. Spark — действительно хороший инструмент при работе с большими объемами данных, но почему? У Spark есть особый способ работы, поскольку он разделяет и распараллеливает усилия. Это означает, что он в основном «разделяет и властвует» для больших объемов данных. Продолжайте читать, чтобы узнать о компонентах Spark и о том, как они..

Прогнозирование временных рядов с использованием Spark
"Машинное обучение" Прогнозирование временных рядов с использованием Spark Прогнозирование пешеходного движения на следующий час с помощью Spark Введение в цель В наши дни в высокотехнологичных или умных городах подсчет пешеходов можно отслеживать путем развертывания датчиков в определенных местах, которые могут подсчитывать количество пешеходов каждый час (согласно данным, используемым для этого блога) или по мере необходимости. Из названия самого сообщения можно понять, что..

Создание совместимого потока данных электронной коммерции
Управляйте непрерывными потоками данных и проверяйте их в таблицах Delta Lake, чтобы соответствовать требованиям соответствия. Это сообщение изначально было опубликовано в блоге Redpanda . Строгие правила конфиденциальности и соответствия, такие как GDPR , заставили разработчиков переосмыслить то, как они создают приложения, которые хранят личную информацию и получают к ней доступ. Например, если ваше приложение имеет дело с личной идентифицируемой информацией (PII), такой как..

Логистическая регрессия с использованием машинного обучения Spark
В этом посте я покажу, как вы можете использовать библиотеки машинного обучения Apache Spark для выполнения бинарной классификации с использованием логистической регрессии. Набор данных, который я использую для этой демонстрации, взят из курса машинного обучения Эндрю Нг на Coursera . Давайте предположим сценарий в классе, где учащиеся сдают три экзамена, чтобы сдать класс. В наборе данных есть исторические данные о студентах с их баллами на первых двух экзаменах и столбец меток,..

Прогнозирование оттока с помощью Apache Spark и PySpark ML
Определение проекта Обзор проекта В рамках курса Udacity Data Science Nano Degree мы будем использовать Apache Spark и PySpark ML для прогнозирования оттока зарегистрированных пользователей службы потоковой передачи музыки Sparkify. Прогнозирование оттока имеет решающее значение для масштабирования такого сервиса, как Sparkify, поскольку оно позволяет вам в режиме реального времени определять, какие пользователи, вероятно, уйдут в следующий раз, и, следовательно, о них следует..

Усовершенствуйте свой код Pandas с помощью Apache Spark
Примечание редактора. Итай Яффе и Даниэль Хавив выступают на ODSC East 2022 . Обязательно ознакомьтесь с их выступлением «Бамбук Pandas: преодоление барьера Pandas с одной машиной с помощью Apache Spark » здесь! Pandas — это быстрая и мощная платформа для анализа и обработки данных с открытым исходным кодом, написанная на Python. Apache Spark — это унифицированный аналитический механизм с открытым исходным кодом для распределенной крупномасштабной обработки данных...