Служба Fargate останавливается из-за сбоя проверки работоспособности ELB

Я новичок в мире AWS, и у меня возникла проблема с моей задачей Fargate: она всегда останавливается, потому что при проверке работоспособности возникает проблема:

Task failed ELB health checks in (target-group arn:aws:elasticloadbalancing:REGION:IDENTIFIER:targetgroup/TG_NAME/TG_ID)

Я прочитал много сообщений и провел много тестов, прежде чем опубликовать это ... и теперь я надеюсь, что мне не хватает чего-то очевидного для кого-то, кто более знаком с AWS.

Вот где я:

Моя служба (Fargate) включена в группу безопасности со следующими разрешениями:

TYPE         PROTOCOL  PORT_RANGE  SOURCE
--------------------------------------------
HTTP         TCP       80          0.0.0.0/0  // normally, only this one
All traffic  All       All         0.0.0.0/0  // but because I'm quite desperate
All traffic  All       All         ::/0

Связанная целевая группа имеет проверку работоспособности, определенную следующим образом:

Protocol: HTTP
Route: /awshealth
Port: Traffic port
...
Success codes: 200

Из моих журналов я знаю, что вызывается мой /awshealth маршрут, и отвечаю на статус 200:

введите описание изображения здесь

Тем не менее, моя задача через некоторое время останавливается из-за проблемы с проверкой работоспособности (тогда как до этого момента я мог запросить свой сервер в общедоступном DNS, связанном с моим балансировщиком нагрузки).

Кто-нибудь может помочь мне это исправить?

Заранее спасибо!

Примечание 1: мой балансировщик нагрузки связан со всеми моими зонами доступности (и всеми моими подсетями), использует тот же VPC и те же группы безопасности, что и моя служба.

Примечание 2. Службе требуется несколько минут для запуска, и я добавил Health check grace period из 300 в свою службу.


person romainsalles    schedule 19.09.2020    source источник


Ответы (1)


Это была проблема с памятью.

Сервер запускался правильно (что объясняет мои 200 статусы на моем /awshealth маршруте) ... но через несколько минут ЦП работал на 100%, и сервер отключился, что приводило к остановке моей службы.

Я только что добавил немного памяти, и теперь все в порядке.

person romainsalles    schedule 19.09.2020
comment
Есть признаки проблемы с памятью? - person valpa; 28.09.2020
comment
Я не понимаю вопроса - person romainsalles; 28.09.2020