Google Cloud Dataflow с Apache Beam не отображает журнал

Моя проблема в том, что в журналах потока данных ничего не отображается (мониторинг api включен), и я понятия не имею, почему.

С помощью следующего кода Apache Beam (взято из https://cloud.google.com/dataflow/docs/guides/logging),

import argparse
import logging
import re
from apache_beam.io import ReadFromText
from apache_beam.options.pipeline_options import PipelineOptions, SetupOptions
from apache_beam import FlatMap, Map, Pipeline


def run(argv=None):
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--input",
        dest="input",
        default="gs://dataflow-samples/shakespeare/kinglear.txt",
        help="Input file to process.",
    )
    known_args, pipeline_args = parser.parse_known_args(argv)

    pipeline_options = PipelineOptions(pipeline_args)
    pipeline_options.view_as(SetupOptions).save_main_session = True

    with Pipeline(options=pipeline_options) as p:
        filtered_words = (
            p
            | "Read" >> ReadFromText(known_args.input)
            | "Split" >> FlatMap(lambda x: re.findall(r"[A-Za-z\']+", x))
            | "Log" >> Map(lambda x: logging.info(f"x: {x}"))
        )


if __name__ == "__main__":
    logging.getLogger().setLevel(logging.INFO)
    run()

Бег локально с прямой урожайностью бегунов,

...
INFO:root:x: his
INFO:root:x: enemy
INFO:root:x: king
INFO:root:x: and
INFO:root:x: did
INFO:root:x: him
...

При работе в Google Cloud Dataflow ничего не дает. введите описание изображения здесь

введите описание изображения здесь

Вот зависимости,

python = "^3.8"
apache-beam = {extras = ["gcp"], version = "^2.28.0"}

person binkpitch    schedule 18.03.2021    source источник


Ответы (1)


Оказывается, приемник по умолчанию в маршрутизаторе журналов исключает журнал потока данных.

Создание нового приемника в Logs Router с фильтром включения resource.type="dataflow_step" устраняет проблему.

person binkpitch    schedule 18.03.2021