Одна из моих DAG Airflow большую часть времени работает без проблем. Однако время от времени (каждые ›3 часа) он зависает.
В этом состоянии его задачи не ставятся в очередь (см. прикрепленное изображение), а также не активируются тайм-ауты, существующие на конкретных задачах. Единственный способ выйти из такого сценария — это вручную пометить этот запуск как неудачный.
За этой ошибкой всегда следует другая немедленная ошибка (см. пустые ячейки на изображении).
Что я должен искать в журналах и / или какие есть другие способы отладки?