Блог

Тег: observability

Подборка статей по выбранной теме.

14 минут · сохранять непрерывность распределённых трейсов на каждой границе сервисов

Передача контекста между микросервисами: практические паттерны OpenTelemetry

Оборванные трейсы чаще всего не из‑за отсутствия инструментирования, а из‑за потерянного traceparent на HTTP-вызове, в заголовке Kafka, в метаданных gRPC или в фоновом потоке. Освойте инъекцию, транспорт и извлечение — и весь путь запроса останется в одном трейсе.

Читать статью

14 минут · превратить сигналы наблюдаемости в надежные действия масштабирования

Автомасштабирование в Kubernetes на основе наблюдаемости: от метрик к действию

Масштабирование только по CPU реагирует тогда, когда задержка уже заметна пользователям. Постройте замкнутый контур: Prometheus считает насыщение и давление очереди, KEDA применяет ограниченное поведение HPA, а панели показывают качество масштабирования как отдельный SRE-сигнал.

Читать статью

14 минут · отлаживать задержки и сетевые проблемы на уровне ядра в продакшене

eBPF в продакшене: наблюдаемость и отладка на уровне ядра для DevOps-команд

Метрики приложений не объясняют повторные передачи TCP, задержки планирования cgroup или горячие точки системных вызовов. eBPF запускает изолированные программы в ядре Linux и снимает эти сигналы с минимальными накладными расходами — без strace, sidecar и пересборки ядра.

Читать статью

14 минут · прослеживать путь каждого запроса через микросервисы в Kubernetes

Распределённое трассирование OpenTelemetry в промышленном Kubernetes

Один запрос пользователя проходит через десятки сервисов до ответа. Логи и метрики не показывают, на каком шаге цепочки появилась задержка или ошибка. В материале — OpenTelemetry Operator, коллекторы агент и шлюз, автоинструментирование и передача контекста W3C в Tempo.

Читать статью

14 минут · объединить трейсы, метрики и логи через масштабируемый уровень Collector

OpenTelemetry Collector промышленного уровня: единый конвейер для трейсов, метрик и логов

Три отдельных стека — Jaeger, Prometheus и Fluentd — утраивают операционную нагрузку и мешают корреляции сигналов. В материале — агент и шлюз Collector с лимитами памяти, отложенной выборкой трейсов, очередями экспорта и развёртыванием через Helm в Kubernetes.

Читать статью

12 минут · собрать incident tooling в один аудируемый Slack-workflow

ChatOps при инцидентах: от алерта Alertmanager до решения в Slack

On-call до сих пор прыгает между PagerDuty, Grafana, kubectl и wiki, пока горят минуты. В материале — как связать Prometheus Alertmanager со Slack-ботом: обогащение алертов, runbook-действия и remediation с RBAC.

Читать статью

11 минут · задать измеримые цели надёжности через error budget

SLO, SLI и error budget для платформенных команд: минимальный контракт на надёжность

Дашборды и количество алертов не определяют надёжность. В статье — как небольшой platform-команде выбрать один–два пользовательских SLI, задать SLO на 30 дней с error budget, настроить burn-rate алерты и связать политику бюджета с решениями о релизах.

Читать статью

12 минут · гибридная платформа и единая модель эксплуатации

Стандартизация операций инфраструктуры для контейнеров и виртуальных машин

Гибридные контуры дробят команды по инструментам и процедурам и замедляют реакцию на инциденты. Разбираем единый операционный слой: общие интерфейсы поставки, сопоставимая наблюдаемость, policy-as-code, сеть и идентичность, которые работают и для Kubernetes, и для VM.

Читать статью

8 минут · повышение надежности и качества реакции на инциденты

Observability для небольших платформенных команд: с чего начать

Минималистичный blueprint мониторинга, который ускоряет реакцию на инциденты без тяжелого операционного оверхеда.

Читать статью

Ко всем статьям