Публикации по теме 'apache-beam'
Привет, мир в потоке данных — Богемский подход
В эти выходные я проходил бессерверный курс Google на Coursera, где они представили Dataflow, полностью управляемый сервис для запуска конвейеров обработки данных с использованием Apache Beam SDK. Я прошел курс и выполнил соответствующие лабораторные работы Qwik.
Когда-то приятной особенностью платформы Qwik labs было то, что вы почти не сталкиваетесь с какими-либо ошибками, и в случае, если вы это сделаете, Google хотел, чтобы вы столкнулись с этой ошибкой, и решение уже дано в шагах...
5 лучших примеров обработки больших данных в Apache Beam
ПУТЕШЕСТВИЕ ПО РАЗРАБОТКЕ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
5 лучших примеров обработки больших данных в Apache Beam
От примеров SQL к Java-коду Apache Beam
Обзор
Среди инженеров-программистов очень популярен язык SQL, который используется для запроса данных из нашей серверной базы данных для приложения. В этой статье я хотел бы рассказать, как научиться обрабатывать большие данные с помощью SQL, поделившись популярной обработкой данных. Я думаю, что многие люди с опытом работы с SQL могут..
Тестирование в Apache Beam, часть 2: Stream
Тестирование в Apache Beam, часть 2: Stream
Исходный код, упомянутый в статье, можно найти здесь: https://github.com/papaizaa/apache-beam-examples/tree/master/src/main/java/com/papaizaa/streaming_example
В Части 1 мы исследовали написание модульных тестов для конвейеров Apache Beam Batch. На этот раз мы рассмотрим, как писать тесты для потоковых конвейеров. Поскольку Apache Beam был разработан как единый SDK для пакетной обработки и потокового конвейера, мы должны ожидать, что..
Как начать работу с Apache Beam и Spring Boot
Руководство для начинающих с примером проекта на Java
Apache Beam - это усовершенствованная унифицированная модель программирования, которая реализует задания пакетной и потоковой обработки данных, которые выполняются на любом механизме выполнения. На данный момент вы можете реализовать его на языках Java, Python и Go. Если вам нужно обрабатывать большие наборы данных или обрабатывать потоки данных, луч Apache - это инструмент, который может обрабатывать с помощью унифицированной,..
Вопросы по теме 'apache-beam'
Apache Beam с серверной частью Flink выдает NoSuchMethodError при вызовах методов библиотеки protobuf-java
Я пытаюсь запустить простой конвейер в локальном кластере, используя буфер протокола для передачи данных между функциями Beam. com.google.protobuf:protobuf-java включен в FatJar.
Все работает нормально, если я запускаю его через:
java -jar...
486 просмотров
schedule
05.08.2023
Почему groupBy блокирует мой конвейер?
У меня есть конвейер, написанный на python apache-beam. Он выводит 800 000 данных с отметкой времени в 2-секундные окна, перекрывающиеся каждую 1 секунду. Мои элементы могут иметь разные ключи.
Когда он выполнит groupBy, это займет 3 часа. Я...
219 просмотров
schedule
24.07.2023
Apache Beam: пропуск шагов в уже построенном конвейере
Есть ли способ условно пропустить шаги в уже построенном конвейере? Или строительство трубопровода задумано как единственный способ контролировать, какие этапы выполняются?
676 просмотров
schedule
13.10.2022
Поддержка Azure Blob в Apache Beam?
Мне интересно, поддерживает ли Apache Beam файлы больших двоичных объектов хранилища Windows Azure (wasb) IO. Есть ли еще поддержка?
Я спрашиваю, потому что я развернул приложение луча apache для запуска задания в кластере Azure Spark, и в...
928 просмотров
schedule
28.12.2022
Потоковая передача — как постепенно обрабатывать события обновлений и удалений РСУБД
Мы пытаемся реорганизовать наш текущий конвейер данных и думаем, может ли потоковая передача стать альтернативой перемещению данных. События СУБД включают в себя INSERT, UPDATE и DELETE для существующих данных, а также для исторических данных. Все...
272 просмотров
schedule
28.06.2023
имя python потока данных луча 'PipelineOptions' не определено
Я хочу создать очень простой конвейер и уже застрял в начале. Вот мой код:
import apache_beam as beam
options = PipelineOptions()
google_cloud_options = options.view_as(GoogleCloudOptions)
google_cloud_options.project = 'myproject'...
1800 просмотров
schedule
12.06.2023
Пример подсчета слов Apache Beam через Spark runner и сбой HDFS с ошибкой сериализации и десериализации свойства
Я пытаюсь запустить пример подсчета слов Apache Beam v2.0.0 на Spark v1.6.x (через Yarn v2.7.3), чтобы он читал и писал в HDFS (v2.7.3).
В настоящее время я отправляю задание с помощью следующей команды:
bin/spark-submit --class...
1196 просмотров
schedule
28.03.2023
Простые манипуляции с Apache Beam работают очень медленно
Я новичок в Apache Beam, и мои навыки работы с Java довольно низкие, но я хотел бы понять, почему мои простые манипуляции с записями работают так медленно с Apache Beam.
Я пытаюсь выполнить следующее: у меня есть файл CSV с 1 миллионом записей (1...
3037 просмотров
schedule
30.12.2022
Очень низкая пропускная способность при использовании JdbcIO в потоке данных Google.
Я хочу загрузить данные в экземпляр Google CloudSQL через Google Dataflow. Я думаю, что встроенного приемника для CloudSQL нет, я решил использовать org.apache.beam.sdk.io.jdbc.JdbcIO. Но пропускная способность в CloudSQL очень низкая (около 6...
646 просмотров
schedule
16.04.2023
Как получить PipelineOptions в составном PTransform в Beam 2.0?
После обновления до Beam 2.0 класс Pipeline больше не имеет класса getOptions() . У меня есть составной PTransform , который зависит от получения параметров в методе expand :
public class MyCompositeTransform extends PTransform<PBegin,...
2385 просмотров
schedule
27.11.2022
Принудительное создание пустой панели / окна при потоковой передаче в Apache Beam
Я пытаюсь реализовать конвейер и принимает поток данных, и каждые минуты выводят True, если в минутном интервале есть какой-либо элемент, или False, если его нет. Панель (с триггером времени навсегда) или окно (фиксированное окно), похоже, не...
789 просмотров
schedule
18.06.2022
Как автоматически редактировать более 100 000 файлов в GCS с помощью Dataflow?
У меня есть более 100 000 файлов в Google Cloud Storage, содержащих объекты JSON, и я хочу создать зеркало с сохранением структуры файловой системы, но с удалением некоторых полей из содержимого файлов.
Я пытался использовать Apache Beam в потоке...
368 просмотров
schedule
09.12.2022
Apache Beam to BigQuery в пакетном режиме, промежуточные файлы, они генерируются только в JSON
Я читаю файлы CSV, преобразовываю их перед записью в BigQuery через луч (2.1.0) в облачном потоке данных. Сгенерированные промежуточные файлы в GCS для заданий загрузки Bq представляют собой файлы JSON. Есть ли способ сгенерировать их в CSV, а не в...
395 просмотров
schedule
04.10.2022
MojoExecutionException при записи в BigQuery
Я относительно новичок в GCP и пробую свои силы, чтобы почувствовать различные услуги, предлагаемые в Google Cloud.
При попытке использовать поток данных (Beam) с помощью Bigquery у меня возникло исключение, и я не могу ничего выяснить из...
271 просмотров
schedule
17.04.2023
Apache Beam с использованием развертывания Spark Runner в Pivotal Cloud Foundry
Мне нужно развернуть приложение Apache Beam с помощью механизма Spark Runtime. Мой вопрос заключается в том, могу ли я развернуть приложение Spark в среде Pivotal Cloud Foundry. Не могли бы вы привести примеры, если таковые имеются.
Спасибо
362 просмотров
schedule
21.01.2023
Как создать преобразование чтения с помощью ParDo и DoFn в Apache Beam
Согласно Apache Beam документация . Рекомендуемый способ написания простых источников - использование преобразований чтения и ParDo . К сожалению, документация Apache Beam подвела меня здесь.
Я пытаюсь написать простой неограниченный источник...
2446 просмотров
schedule
02.07.2022
Внешние зависимости Python в конвейере потока данных
Можно ли загружать зависимости Python в конвейер Google Cloud Dataflow?
Я хотел бы использовать программу моделирования фраз gensim , которая считывает данные построчно, чтобы автоматически обнаруживать общие фразы/биграммы (два слова, которые...
2871 просмотров
schedule
29.06.2022
Записать конкретную коллекцию PCCollection в BigQuery
Допустим, я создаю две выходные PCollections в результате SideOutputs и в зависимости от какого-то условия хочу записать только одну из них в BigQuery. Как это сделать?
В основном мой вариант использования заключается в том, что я пытаюсь сделать...
604 просмотров
schedule
04.05.2023
Масштабирование преобразований ParDo с блокировкой сетевых вызовов
У меня есть преобразование ParDo, внутри которого я делаю блокирующий вызов веб-службы для получения некоторых данных. Чтобы перезвонить, потребуется некоторое время (скажем, около 1 минуты). Я заметил, что это преобразование ParDo не сильно...
639 просмотров
schedule
21.05.2022
Пример в потоке данных / пучке с Python
Я пытаюсь получить образец элементов в PCollection , используя Python SDK в Dataflow / Beam.
Хотя это не задокументировано, Sample.FixedSizeGlobally(n) существует.
При тестировании кажется возвращение PCollection с одним элементом:...
758 просмотров
schedule
14.06.2023