AvançadoDevOpsAberto

Monitoramento e observabilidade com Grafana, Prometheus e alertas

Setup completo de monitoramento com métricas, logs e alertas para aplicações em produção.

monitoramentoGrafanaPrometheusobservabilidadealertas

Objetivo do Prompt

Implementar observabilidade completa que permita detectar problemas antes que os usuários percebam, com dashboards acionáveis e alertas inteligentes.

Exemplo Real de Uso

A SaaS gaúcha AgendaPro tem 5 mil clínicas usando o sistema diariamente. Na semana passada, o banco de dados ficou sem espaço às 3h da manhã e ninguém percebeu até 8h quando os clientes começaram a ligar. Perderam R$ 45 mil em churn. Precisam de monitoramento proativo.

Prompt

Configure um stack de observabilidade completo para [NOME DO PROJETO], uma aplicação [TIPO] com [NÚMERO] de usuários ativos rodando em [DOCKER/KUBERNETES/VPS].

**Serviços a monitorar:**
- [LISTA: ex. API Node.js, PostgreSQL, Redis, Nginx, Workers]
- Infraestrutura: CPU, memória, disco, rede

**1) Métricas (Prometheus + Grafana):**

**Prometheus:**
- Configuração do prometheus.yml com targets
- Scrape interval por serviço
- Exporters necessários: node_exporter, postgres_exporter, redis_exporter
- Custom metrics da aplicação (prom-client para Node.js):
  - `http_requests_total` (counter por route, method, status)
  - `http_request_duration_seconds` (histogram)
  - `active_connections` (gauge)
  - `business_events_total` (counter: signups, orders, payments)
  - `queue_size` (gauge por fila)
- Retention e storage sizing

**Grafana Dashboards:**
- Dashboard 1: Overview (uptime, request rate, error rate, latência p50/p95/p99)
- Dashboard 2: Infraestrutura (CPU, RAM, disco, rede por container)
- Dashboard 3: Banco de dados (connections, query duration, cache hit ratio, dead tuples)
- Dashboard 4: Business (receita/hora, conversões, churn indicators)
- Para cada dashboard: JSON exportável com variáveis template

**2) Logs (Grafana Loki ou ELK):**
- Formato de log estruturado (JSON)
- Log levels corretos: ERROR (falhas), WARN (degradação), INFO (eventos), DEBUG (dev)
- Correlation ID por request (trace ID)
- Log rotation e retention policy
- Query examples para troubleshooting comum

**3) Alertas (Alertmanager):**
- Regras de alerta por severidade:
  - **CRITICAL** (PagerDuty/SMS): downtime, error rate > 5%, disco > 95%
  - **WARNING** (Slack/Email): latência p95 > 2s, CPU > 80%, memory > 85%
  - **INFO** (Slack): deploy completado, backup finalizado, cron executado
- Routing: quem recebe qual alerta (on-call rotation)
- Silencing e inhibition rules
- Runbooks linkados em cada alerta (o que fazer quando disparar)

**4) Uptime Monitoring:**
- Health check endpoints padronizados (/health, /ready)
- Ping externo (UptimeRobot/Better Uptime)
- Status page pública para clientes

**5) docker-compose para o stack de monitoramento:**
- Prometheus + Grafana + Loki + Alertmanager
- Volumes persistentes para dados
- Configuração de rede

Forneça todos os arquivos de configuração e dashboards JSON.

Como usar este prompt

  1. 1Cole o prompt diretamente no ChatGPT, Claude, Gemini ou qualquer assistente de IA.
  2. 2Personalize os campos entre colchetes [assim] com suas informações específicas.
  3. 3Para melhores resultados, forneça contexto adicional sobre seu caso de uso.
  4. 4Combine múltiplos prompts em uma conversa para resultados mais completos.
  5. 5Salve os prompts que mais usa para acesso rápido no futuro.

Prompts relacionados

Ver todos

Explore outras categorias de prompts

Assine o AulasDeIA para desbloquear

Acesse 10.000+ prompts prontos para usar em qualquer profissão, além de todos os cursos da plataforma.

Assinar por R$ 49,90/mês

Cancele quando quiser. Sem multas.