Публикации по теме 'apache-beam'


Привет, мир в потоке данных — Богемский подход
В эти выходные я проходил бессерверный курс Google на Coursera, где они представили Dataflow, полностью управляемый сервис для запуска конвейеров обработки данных с использованием Apache Beam SDK. Я прошел курс и выполнил соответствующие лабораторные работы Qwik. Когда-то приятной особенностью платформы Qwik labs было то, что вы почти не сталкиваетесь с какими-либо ошибками, и в случае, если вы это сделаете, Google хотел, чтобы вы столкнулись с этой ошибкой, и решение уже дано в шагах...

5 лучших примеров обработки больших данных в Apache Beam
ПУТЕШЕСТВИЕ ПО РАЗРАБОТКЕ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ 5 лучших примеров обработки больших данных в Apache Beam От примеров SQL к Java-коду Apache Beam Обзор Среди инженеров-программистов очень популярен язык SQL, который используется для запроса данных из нашей серверной базы данных для приложения. В этой статье я хотел бы рассказать, как научиться обрабатывать большие данные с помощью SQL, поделившись популярной обработкой данных. Я думаю, что многие люди с опытом работы с SQL могут..

Тестирование в Apache Beam, часть 2: Stream
Тестирование в Apache Beam, часть 2: Stream Исходный код, упомянутый в статье, можно найти здесь: https://github.com/papaizaa/apache-beam-examples/tree/master/src/main/java/com/papaizaa/streaming_example В Части 1 мы исследовали написание модульных тестов для конвейеров Apache Beam Batch. На этот раз мы рассмотрим, как писать тесты для потоковых конвейеров. Поскольку Apache Beam был разработан как единый SDK для пакетной обработки и потокового конвейера, мы должны ожидать, что..

Как начать работу с Apache Beam и Spring Boot
Руководство для начинающих с примером проекта на Java Apache Beam - это усовершенствованная унифицированная модель программирования, которая реализует задания пакетной и потоковой обработки данных, которые выполняются на любом механизме выполнения. На данный момент вы можете реализовать его на языках Java, Python и Go. Если вам нужно обрабатывать большие наборы данных или обрабатывать потоки данных, луч Apache - это инструмент, который может обрабатывать с помощью унифицированной,..

Вопросы по теме 'apache-beam'

Apache Beam с серверной частью Flink выдает NoSuchMethodError при вызовах методов библиотеки protobuf-java
Я пытаюсь запустить простой конвейер в локальном кластере, используя буфер протокола для передачи данных между функциями Beam. com.google.protobuf:protobuf-java включен в FatJar. Все работает нормально, если я запускаю его через: java -jar...
486 просмотров

Почему groupBy блокирует мой конвейер?
У меня есть конвейер, написанный на python apache-beam. Он выводит 800 000 данных с отметкой времени в 2-секундные окна, перекрывающиеся каждую 1 секунду. Мои элементы могут иметь разные ключи. Когда он выполнит groupBy, это займет 3 часа. Я...
219 просмотров

Apache Beam: пропуск шагов в уже построенном конвейере
Есть ли способ условно пропустить шаги в уже построенном конвейере? Или строительство трубопровода задумано как единственный способ контролировать, какие этапы выполняются?
676 просмотров
schedule 13.10.2022

Поддержка Azure Blob в Apache Beam?
Мне интересно, поддерживает ли Apache Beam файлы больших двоичных объектов хранилища Windows Azure (wasb) IO. Есть ли еще поддержка? Я спрашиваю, потому что я развернул приложение луча apache для запуска задания в кластере Azure Spark, и в...
928 просмотров

Потоковая передача — как постепенно обрабатывать события обновлений и удалений РСУБД
Мы пытаемся реорганизовать наш текущий конвейер данных и думаем, может ли потоковая передача стать альтернативой перемещению данных. События СУБД включают в себя INSERT, UPDATE и DELETE для существующих данных, а также для исторических данных. Все...
272 просмотров

имя python потока данных луча 'PipelineOptions' не определено
Я хочу создать очень простой конвейер и уже застрял в начале. Вот мой код: import apache_beam as beam options = PipelineOptions() google_cloud_options = options.view_as(GoogleCloudOptions) google_cloud_options.project = 'myproject'...
1800 просмотров
schedule 12.06.2023

Пример подсчета слов Apache Beam через Spark runner и сбой HDFS с ошибкой сериализации и десериализации свойства
Я пытаюсь запустить пример подсчета слов Apache Beam v2.0.0 на Spark v1.6.x (через Yarn v2.7.3), чтобы он читал и писал в HDFS (v2.7.3). В настоящее время я отправляю задание с помощью следующей команды: bin/spark-submit --class...
1196 просмотров
schedule 28.03.2023

Простые манипуляции с Apache Beam работают очень медленно
Я новичок в Apache Beam, и мои навыки работы с Java довольно низкие, но я хотел бы понять, почему мои простые манипуляции с записями работают так медленно с Apache Beam. Я пытаюсь выполнить следующее: у меня есть файл CSV с 1 миллионом записей (1...
3037 просмотров
schedule 30.12.2022

Очень низкая пропускная способность при использовании JdbcIO в потоке данных Google.
Я хочу загрузить данные в экземпляр Google CloudSQL через Google Dataflow. Я думаю, что встроенного приемника для CloudSQL нет, я решил использовать org.apache.beam.sdk.io.jdbc.JdbcIO. Но пропускная способность в CloudSQL очень низкая (около 6...
646 просмотров

Как получить PipelineOptions в составном PTransform в Beam 2.0?
После обновления до Beam 2.0 класс Pipeline больше не имеет класса getOptions() . У меня есть составной PTransform , который зависит от получения параметров в методе expand : public class MyCompositeTransform extends PTransform<PBegin,...
2385 просмотров
schedule 27.11.2022

Принудительное создание пустой панели / окна при потоковой передаче в Apache Beam
Я пытаюсь реализовать конвейер и принимает поток данных, и каждые минуты выводят True, если в минутном интервале есть какой-либо элемент, или False, если его нет. Панель (с триггером времени навсегда) или окно (фиксированное окно), похоже, не...
789 просмотров
schedule 18.06.2022

Как автоматически редактировать более 100 000 файлов в GCS с помощью Dataflow?
У меня есть более 100 000 файлов в Google Cloud Storage, содержащих объекты JSON, и я хочу создать зеркало с сохранением структуры файловой системы, но с удалением некоторых полей из содержимого файлов. Я пытался использовать Apache Beam в потоке...
368 просмотров

Apache Beam to BigQuery в пакетном режиме, промежуточные файлы, они генерируются только в JSON
Я читаю файлы CSV, преобразовываю их перед записью в BigQuery через луч (2.1.0) в облачном потоке данных. Сгенерированные промежуточные файлы в GCS для заданий загрузки Bq представляют собой файлы JSON. Есть ли способ сгенерировать их в CSV, а не в...
395 просмотров

MojoExecutionException при записи в BigQuery
Я относительно новичок в GCP и пробую свои силы, чтобы почувствовать различные услуги, предлагаемые в Google Cloud. При попытке использовать поток данных (Beam) с помощью Bigquery у меня возникло исключение, и я не могу ничего выяснить из...
271 просмотров

Apache Beam с использованием развертывания Spark Runner в Pivotal Cloud Foundry
Мне нужно развернуть приложение Apache Beam с помощью механизма Spark Runtime. Мой вопрос заключается в том, могу ли я развернуть приложение Spark в среде Pivotal Cloud Foundry. Не могли бы вы привести примеры, если таковые имеются. Спасибо
362 просмотров
schedule 21.01.2023

Как создать преобразование чтения с помощью ParDo и DoFn в Apache Beam
Согласно Apache Beam документация . Рекомендуемый способ написания простых источников - использование преобразований чтения и ParDo . К сожалению, документация Apache Beam подвела меня здесь. Я пытаюсь написать простой неограниченный источник...
2446 просмотров
schedule 02.07.2022

Внешние зависимости Python в конвейере потока данных
Можно ли загружать зависимости Python в конвейер Google Cloud Dataflow? Я хотел бы использовать программу моделирования фраз gensim , которая считывает данные построчно, чтобы автоматически обнаруживать общие фразы/биграммы (два слова, которые...
2871 просмотров

Записать конкретную коллекцию PCCollection в BigQuery
Допустим, я создаю две выходные PCollections в результате SideOutputs и в зависимости от какого-то условия хочу записать только одну из них в BigQuery. Как это сделать? В основном мой вариант использования заключается в том, что я пытаюсь сделать...
604 просмотров
schedule 04.05.2023

Масштабирование преобразований ParDo с блокировкой сетевых вызовов
У меня есть преобразование ParDo, внутри которого я делаю блокирующий вызов веб-службы для получения некоторых данных. Чтобы перезвонить, потребуется некоторое время (скажем, около 1 минуты). Я заметил, что это преобразование ParDo не сильно...
639 просмотров
schedule 21.05.2022

Пример в потоке данных / пучке с Python
Я пытаюсь получить образец элементов в PCollection , используя Python SDK в Dataflow / Beam. Хотя это не задокументировано, Sample.FixedSizeGlobally(n) существует. При тестировании кажется возвращение PCollection с одним элементом:...
758 просмотров
schedule 14.06.2023