Публикации по теме 'reliability-engineering'


Реализация шаблона прерывателя цепи
Статья опубликована на моем сайте . Когда у вас есть микросервисная архитектура, вам приходится иметь дело со сбоями на многих разных уровнях. Одним из шаблонов, обычно используемых для устранения сбоев удаленных вызовов, является прерыватель цепи . Это помогает предотвратить каскадные сбои, когда проблема в одной службе приводит к истощению ресурсов в других службах. Давайте рассмотрим один пример того, как можно реализовать этот шаблон в микросервисе Node.js. Сервис В качестве..

Демистификация математики SLO
Как установить SLO и оповещения для этих SLO для чайников Когда я начал заниматься SRE, я не осознавал, сколько времени уходит на правильную настройку SLO. На первый взгляд это довольно легко. Выберите процент, выберите порог и вперед. Затем вы начинаете настраивать оповещения для этого SLO, и ваш пейджер начинает постоянно отключаться. Или, что еще хуже, вовсе нет. Что такое SLO SLO, или цели уровня обслуживания, — это то, что мы используем для описания того, что означает, что..

Битва машинного обучения с загадкой Резникова.
Если бы существовала премия за честность в анализе надежности, ее следовало бы присудить Говарду Л. Резникоффу. Его расширенная статья «Математические аспекты технического обслуживания, ориентированного на надежность», опубликованная в 1978 году, является своего рода дополнением к легендарной работе Стэнли Ноулана и Говарда Хипа «Техническое обслуживание, ориентированное на надежность». Резникофф говорит об этом в своем предисловии еще до того, как начинает основные разделы. Одним..

Машинное обучение для обеспечения надежности (пример из практики)
Подход к прогнозированию и управлению здоровьем, основанный на данных ВВЕДЕНИЕ Большой объем данных, непрерывно собираемых из различных систем с использованием промышленного интернета вещей и датчиков мониторинга, создает проблемы для интерпретации таких данных, чтобы предвидеть сбои и обеспечивать бесперебойную работу предприятия. Своевременное обнаружение неисправностей, диагностика и прогнозирование имеют стратегическое значение для обеспечения бесперебойной работы предприятия...