Публикации по теме apache-spark

Публикации по теме 'apache-spark'

5 ключевых факторов, которые следует учитывать при оптимизации Apache Spark в AWS (часть 2)

5 ключевых факторов, которые следует учитывать при оптимизации Apache Spark в AWS (часть 2) Это вторая часть ключевых факторов, о которых следует помнить при оптимизации Apache Spark. Если вы не читали первую, загляните здесь . Эта статья призвана помочь опытным разработчикам справиться с некоторыми узкими местами, с которыми сталкиваются при работе с огромным объемом данных с ограниченными ресурсами. Речь идет не об основах или методах теоретической оптимизации, которые часто..

Начало работы с Apache Spark — I

Серия статей, которые помогут вам начать работу с Apache Spark! Определение больших данных С постепенным увеличением распределенных вычислений, вычислительной мощности и множества вариантов хранения, появившихся в последнее десятилетие, термин «большие данные» стал широко использоваться. Что такое большие данные и какие данные можно назвать большими данными? По сути, мы можем описать это, используя Объем 3V Объем генерируемых данных (измеряется в байтах, мегабайтах,..

Кластеризация в Apache Spark

Этот проект состоит из реализации алгоритма кластеризации в распределенной среде и отображения результатов в блокноте Python. В частности, я использовал очень популярный набор данных MNIST в Apache Spark, используя библиотеку машинного обучения MLlib. Apache Spark позволяет использовать массивные наборы данных в нескольких кластерах, но для простоты я просто буду использовать стандартный MNIST вместо EMNIST или MNIST8M на своей единственной машине. Другой момент заключается в том, что..

Почему Apache Spark является противоядием от обработки данных разных поставщиков

Ландшафт больших данных с открытым исходным кодом эволюционировал. Сегодня организации имеют доступ ко всему спектру инструментов для быстрой и эффективной обработки огромных объемов данных. Среди множества технологий с открытым исходным кодом, обеспечивающих непревзойденные возможности обработки данных, одна выделяется как лидер — Apache Spark TM. Apache Spark получает признание на предприятиях благодаря своей скорости, итеративным вычислениям и лучшему доступу к данным. Но для..

Наука о данных для неудачников

Наука о данных для неудачников Часть 1. Анализ Anaconda, Jupyter и Twitter Http://blog.brakmic.com/data-science-for-losers Часть 2 - Использование SQL Server Http://blog.brakmic.com/data-science-for-losers-part-2 Часть 2 - Дополнение Http://blog.brakmic.com/data-science-for-losers-part-2-addendum Часть 3. Scala и Apache Spark Http://blog.brakmic.com/data-science-for-losers-part-3-scala-apache-spark Часть 4 - Машинное обучение..

СКАЧАТЬ ЭТУ КНИГУ

СКАЧАТЬ ЭТУ КНИГУ Размер: 10 МБ (10689318 байт) Расширение: pdf Автор(ы): Дэвид Кьеррумгаард Издательство: Manning Publications, Год: 2021. ISBN: 1617296880,9781617296888 Описание: Обеспечьте молниеносную и надежную передачу сообщений для ваших распределенных приложений с помощью гибкой и отказоустойчивой платформы Apache Pulsar. Из книги Apache Pulsar в действии вы узнаете, как: • Публиковать данные из Apache Pulsar в сторонние репозитории данных и платформы • Проектировать и..

Обучите свою первую модель с Apache Spark

Машинное обучение является частью энциклопедии, известной как Искусственный интеллект . Он развился из изучения распознавания образов и теории вычислительного обучения в искусственном интеллекте , машинное обучение исследует изучение и построение алгоритмов, которые могут учиться и делать прогнозы на данных - такие алгоритмы преодолевают следование строго статическим программным инструкциям, создавая данные прогнозы или решения, основанные на построении модели на основе выборки..