Публикации по теме 'apache-spark'


Spark UDF - глубокое понимание производительности
Нихилеш Нукала - консультант (разработка данных), Юхао Чжу - консультант по расширенной аналитике , Гильерме Браччиалли - руководитель Специалист по обработке данных , Том Голденберг - младший директор (разработка данных), QuantumBlack В этом блоге будет продемонстрирован тест производительности в Apache Spark между Scala UDF, PySpark UDF и PySpark Pandas UDF. В QuantumBlack мы часто имеем дело с несколькими терабайтами данных для реализации проектов расширенной..

Генерация естественного языка, часть 1: возвращение к основам
Вы когда-нибудь сталкивались с постами в Facebook или Twitter, показывающими результат работы ИИ, который был «вынужден» смотреть телевизор или читать книги, и он дает новый результат, похожий на то, что он видел или читал? Обычно они довольно веселые и не совсем точно следуют тому, как кто-то на самом деле сказал бы что-то или написал, но они являются примерами генерации естественного языка. NLG - действительно интересная область машинного обучения, с которой можно весело поиграть и..

Master SparkML: практическое руководство по машинному обучению
Раскройте потенциал SparkML с помощью нашего практического руководства. Откройте для себя машинное обучение, которое стало простым и эффективным. Добро пожаловать в это вводное руководство по SparkML. Мир данных растет экспоненциально, и традиционные инструменты анализа данных часто не работают при работе с большими данными. Здесь в игру вступает Apache Spark. Благодаря способности выполнять обработку в памяти и запускать сложные алгоритмы в масштабе, Spark является важным..

Как построить крупномасштабную модель машинного обучения с Apache Spark и LightGBM для обнаружения мошенничества?
Хотя модель машинного обучения на ноутбуке Jupyter легко обучить на персональном компьютере с относительно небольшим набором статических данных, возникает проблема, когда ее нужно развернуть в реальной среде внутри финансового учреждения, где огромное количество транзакционных данных находится в Hadoop или озерах данных. В этом посте я собираюсь показать вам, как можно использовать Apache Spark для реализации основной части модели построения и обучения внутри среды Spark с помощью..

Понимание ограничений дельта-таблиц
Delta Lake — уровень хранения данных с открытым исходным кодом, обеспечивающий надежность озер данных, позволяет хранить данные в озерах данных и управлять ими. Дельта-таблицы — это основная концепция Delta Lake, которая обеспечивает управление версиями данных, транзакционные операции чтения и записи, принудительное применение схемы и управление метаданными. В этой статье мы сосредоточимся на ограничениях дельта-таблиц, на том, как они работают, и на их реализации с примерами кода...

Преодоление проблем MapReduce: сравнение с Apache Spark — BigData, часть 2
Введение Apache Spark зарекомендовал себя как мощная и универсальная распределенная вычислительная система для обработки больших данных, превосходящая традиционную модель MapReduce во многих аспектах. В этом сообщении блога мы рассмотрим ключевые проблемы, связанные с MapReduce, и то, как Spark преодолевает эти проблемы , что делает его лучшим выбором для обработки данных по сравнению с MapReduce. Давайте углубимся в !! Задача 1: MapReduce имеет много операций чтения диска..

Сочетание возможностей Hadoop, Spark и машинного обучения: мой путь
В сегодняшнюю цифровую эпоху данные — это постоянно растущий объект, который растет экспоненциально каждую секунду. Задача состоит не в том, чтобы агрегировать данные, а в том, чтобы эффективно использовать их для получения практических выводов. Чтобы вооружиться навыками, необходимыми мне для путешествия по этому огромному ландшафту, я отправился в образовательное путешествие и записался на два сложных курса, предлагаемых IBM Skills Network на Coursera. Курсы под названием «Введение в..