Monitoramento não é ter dashboards bonitos. É detectar problemas antes que o cliente perceba e ter contexto suficiente para resolver em minutos, não horas.
Sem os três, você sempre vai ter pontos cegos.
| Pilar | Ferramenta | Por quê |
|---|---|---|
| Métricas | CloudWatch Metrics + Grafana | CloudWatch coleta nativamente, Grafana visualiza melhor |
| Logs | CloudWatch Logs + Insights | Busca poderosa sem infra adicional |
| Traces | X-Ray ou OpenTelemetry | Trace distribuído entre Lambda, ECS, API Gateway |
| Alertas | CloudWatch Alarms + SNS → PagerDuty/Slack | Escalonamento automático |
Esqueça métricas de vaidade. Foque no que impacta o negócio:
O CloudWatch é excelente para coleta e alarmes, mas a UX de dashboards é limitada. Usar o Amazon Managed Grafana como camada de visualização dá:
Ter 200 alarmes configurados que ninguém olha. Resultado: alarm fatigue — quando tudo é urgente, nada é urgente.
Menos alarmes, mais precisos. Cada alarme deve ter um runbook associado: “se disparou, faça X”. Sem runbook, o alarme não deveria existir.