TFX на Kubeflow Pipelines не может запустить конвейер с слишком большой ошибкой объекта запроса

Мы развертываем наши конвейеры TFX 0.30.0 с использованием Kubeflow Pipelines 1.5.0. Kubeflow Pipelines развертывается со стандартными шаблонами в кластере GKE 1.19.9-gke.1400.

Используя интерфейс командной строки TFX, мы можем создать конвейер в Kubeflow с помощью следующей команды: tfx pipeline create --pipeline_path=src/pipeline_kubeflow.py --endpoint=0.0.0.0:8080

Это успешно создает конвейер, и его можно просмотреть в пользовательском интерфейсе Kubeflow.

Как только мы попытаемся запустить конвейер через интерфейс командной строки TFX или пользовательский интерфейс Kubeflow, мы получим следующее сообщение об ошибке:

{"error":"Failed to create a new run.: InternalServerError: Failed to create a workflow for (): Request entity too large: limit is 3145728","code":13,"message":"Failed to create a new run.: InternalServerError: Failed to create a workflow for (): Request entity too large: limit is 3145728","details":[{"@type":"type.googleapis.com/api.Error","error_message":"Internal Server Error","error_details":"Failed to create a new run.: InternalServerError: Failed to create a workflow for (): Request entity too large: limit is 3145728"}]}

Я считаю, что это указывает на то, что Kubeflow/Argo делает неприемлемый запрос к K8s и терпит неудачу. Пока в логах Kubeflow для pod'ов ничего полезного не нашел.

Редактировать: за счет сокращения этапов в конвейере TFX он будет работать успешно. Это может иметь какое-то отношение к этапу оценки и значениям, включенным в показатели.


person Ryan Smith    schedule 20.05.2021    source источник
comment
Отвечает ли это на ваш вопрос? Ограничения размера объекта Kubernetes   -  person Alex G    schedule 22.05.2021