Публикации по теме 'apache-spark'
5 ключевых факторов, которые следует учитывать при оптимизации Apache Spark в AWS (часть 2)
5 ключевых факторов, которые следует учитывать при оптимизации Apache Spark в AWS (часть 2)
Это вторая часть ключевых факторов, о которых следует помнить при оптимизации Apache Spark. Если вы не читали первую, загляните здесь .
Эта статья призвана помочь опытным разработчикам справиться с некоторыми узкими местами, с которыми сталкиваются при работе с огромным объемом данных с ограниченными ресурсами. Речь идет не об основах или методах теоретической оптимизации, которые часто..
Начало работы с Apache Spark — I
Серия статей, которые помогут вам начать работу с Apache Spark!
Определение больших данных
С постепенным увеличением распределенных вычислений, вычислительной мощности и множества вариантов хранения, появившихся в последнее десятилетие, термин «большие данные» стал широко использоваться. Что такое большие данные и какие данные можно назвать большими данными?
По сути, мы можем описать это, используя Объем 3V Объем генерируемых данных (измеряется в байтах, мегабайтах,..
Кластеризация в Apache Spark
Этот проект состоит из реализации алгоритма кластеризации в распределенной среде и отображения результатов в блокноте Python. В частности, я использовал очень популярный набор данных MNIST в Apache Spark, используя библиотеку машинного обучения MLlib.
Apache Spark позволяет использовать массивные наборы данных в нескольких кластерах, но для простоты я просто буду использовать стандартный MNIST вместо EMNIST или MNIST8M на своей единственной машине. Другой момент заключается в том, что..
Почему Apache Spark является противоядием от обработки данных разных поставщиков
Ландшафт больших данных с открытым исходным кодом эволюционировал.
Сегодня организации имеют доступ ко всему спектру инструментов для быстрой и эффективной обработки огромных объемов данных. Среди множества технологий с открытым исходным кодом, обеспечивающих непревзойденные возможности обработки данных, одна выделяется как лидер — Apache Spark TM.
Apache Spark получает признание на предприятиях благодаря своей скорости, итеративным вычислениям и лучшему доступу к данным. Но для..
Наука о данных для неудачников
Наука о данных для неудачников
Часть 1. Анализ Anaconda, Jupyter и Twitter
Http://blog.brakmic.com/data-science-for-losers
Часть 2 - Использование SQL Server
Http://blog.brakmic.com/data-science-for-losers-part-2
Часть 2 - Дополнение
Http://blog.brakmic.com/data-science-for-losers-part-2-addendum
Часть 3. Scala и Apache Spark
Http://blog.brakmic.com/data-science-for-losers-part-3-scala-apache-spark
Часть 4 - Машинное обучение..
СКАЧАТЬ ЭТУ КНИГУ
СКАЧАТЬ ЭТУ КНИГУ
Размер: 10 МБ (10689318 байт) Расширение: pdf Автор(ы): Дэвид Кьеррумгаард
Издательство: Manning Publications, Год: 2021.
ISBN: 1617296880,9781617296888
Описание: Обеспечьте молниеносную и надежную передачу сообщений для ваших распределенных приложений с помощью гибкой и отказоустойчивой платформы Apache Pulsar.
Из книги Apache Pulsar в действии вы узнаете, как: • Публиковать данные из Apache Pulsar в сторонние репозитории данных и платформы • Проектировать и..
Обучите свою первую модель с Apache Spark
Машинное обучение является частью энциклопедии, известной как Искусственный интеллект . Он развился из изучения распознавания образов и теории вычислительного обучения в искусственном интеллекте , машинное обучение исследует изучение и построение алгоритмов, которые могут учиться и делать прогнозы на данных - такие алгоритмы преодолевают следование строго статическим программным инструкциям, создавая данные прогнозы или решения, основанные на построении модели на основе выборки..