Клиентские библиотеки Stackdriver Logging - что происходит во время простоя Google?

Если вы встраиваете клиентскую библиотеку Stackdrvier в свое приложение и API драйвера стека Google имеет время простоя (в документации Google указано время простоя 99,95% или 21,92 минуты в месяц)

У меня вопрос: что будет с моим приложением во время простоя? Будет ли информация журнала накапливаться в памяти? Приведет ли это к ошибкам приложения или данные журнала будут сброшены и продолжены?




Ответы (1)


Время простоя Logging API может иметь разные основные причины и последствия. Системные инженеры Google имеют механизмы для отслеживания и принятия мер по смягчению последствий, поэтому время простоя и его последствия минимальны, но Google не может гарантировать предотвращение потери данных при всех сбоях на постоянной основе, связанных с API журналирования.

Надеюсь, ваше приложение и конвейер могут выдержать ожидаемое время простоя до (21,56 минут) в месяц (SLA 99,95%) в соответствии с внутренними SLO и SLA GCP.

Три перечисленных вами сценария правдоподобны. В этот период ваше приложение, отправляющее журналы, может получить 500 ответов из сети, поэтому оно должно иметь возможность справляться с такого рода проблемами.

Если данные журналов попадают на платформу Google, но из-за сбоя данные становятся доступными, команда Google сделает все возможное, чтобы освободить журналы, повторно заполнить данные и т. Д. Они опубликуют общее уведомление на https://status.cloud.google.com/

Если проблема вызвана тем, что агент ведения журнала не отправляет данные на нашу платформу, данные журнала могут быть недоступны (но это все равно может быть сбой инфраструктуры с одним из продуктов GCP) или связаны с чем-то другим, кроме сбоя, например с вашим приложением. либо на его базовом хосте не хватает ресурсов, либо агент ведения журнала поврежден, что не покрывается соглашением об уровне обслуживания GCP Stackdriver [1].

Если конвейер, который принимает данные из Logging API, имеет задержку, это может вызвать сбой, но команда GCP постарается сделать все возможное, чтобы сделать данные доступными после того, как сбой закончится.

Если вы подозреваете, что проблема связана со сбоями Logging API, обратитесь в службу поддержки или в средство отслеживания проблем с файлами, или изучите открытые проблемы, где команда разработчиков продукта Google предоставит обновления в режиме реального времени. Ссылки ниже:

[1] https://cloud.google.com/stackdriver/sla#sla_exclusions

[2] создать новый инцидент: https://issuetracker.google.com/issues/new?component=187203&template=0

[3] открытые вопросы: https://issuetracker.google.com/savedsearches/559764

person Ashik Mahbub    schedule 13.08.2019
comment
Спасибо! Я спрошу об этом еще раз на странице клиента github, потому что мне нужны конкретные ответы о том, что происходит во время простоя в github.com/googleapis/nodejs-logging-bunyan Клиент ведения журнала stackdriver, поддерживаемый Google) - person Drew; 14.08.2019
comment
Ашик - Если агент ведения журнала Stackdriver (скажем, запущенный на GCE) получит сообщение об ошибке при публикации журналов, попытается ли агент повторить попытку? Если да, то насколько велики буферы / кеш, которые используются при ведении журнала Stackdriver? - person John Hanley; 15.08.2019
comment
Что касается механизмов повторных попыток google-fluentd, вы можете изучить проект Github здесь: cloud.google.com/logging/docs/agent/#source. Агент google-fluentd основан на проекте FluentD с открытым исходным кодом. Здесь есть некоторые документы по проектированию буфера, которые могут помочь: docs.fluentd.org/buffer # how-buffer-works и GCP: и я считаю, что это тоже может помочь: github.com/GoogleCloudPlatform/google-fluentd/blob/master/ - person Ashik Mahbub; 15.08.2019
comment
Ашик - Спасибо. - person John Hanley; 15.08.2019