AvançadoDevOpsAberto

Monitoramento e observabilidade com Grafana, Prometheus e alertas

Setup completo de monitoramento com métricas, logs e alertas para aplicações em produção.

monitoramentoGrafanaPrometheusobservabilidadealertas

Objetivo do Prompt

Implementar observabilidade completa que permita detectar problemas antes que os usuários percebam, com dashboards acionáveis e alertas inteligentes.

Exemplo Real de Uso

A SaaS gaúcha AgendaPro tem 5 mil clínicas usando o sistema diariamente. Na semana passada, o banco de dados ficou sem espaço às 3h da manhã e ninguém percebeu até 8h quando os clientes começaram a ligar. Perderam R$ 45 mil em churn. Precisam de monitoramento proativo.

Prompt

Configure um stack de observabilidade completo para [NOME DO PROJETO], uma aplicação [TIPO] com [NÚMERO] de usuários ativos rodando em [DOCKER/KUBERNETES/VPS].

**Serviços a monitorar:**
- [LISTA: ex. API Node.js, PostgreSQL, Redis, Nginx, Workers]
- Infraestrutura: CPU, memória, disco, rede

**1) Métricas (Prometheus + Grafana):**

**Prometheus:**
- Configuração do prometheus.yml com targets
- Scrape interval por serviço
- Exporters necessários: node_exporter, postgres_exporter, redis_exporter
- Custom metrics da aplicação (prom-client para Node.js):
  - `http_requests_total` (counter por route, method, status)
  - `http_request_duration_seconds` (histogram)
  - `active_connections` (gauge)
  - `business_events_total` (counter: signups, orders, payments)
  - `queue_size` (gauge por fila)
- Retention e storage sizing

**Grafana Dashboards:**
- Dashboard 1: Overview (uptime, request rate, error rate, latência p50/p95/p99)
- Dashboard 2: Infraestrutura (CPU, RAM, disco, rede por container)
- Dashboard 3: Banco de dados (connections, query duration, cache hit ratio, dead tuples)
- Dashboard 4: Business (receita/hora, conversões, churn indicators)
- Para cada dashboard: JSON exportável com variáveis template

**2) Logs (Grafana Loki ou ELK):**
- Formato de log estruturado (JSON)
- Log levels corretos: ERROR (falhas), WARN (degradação), INFO (eventos), DEBUG (dev)
- Correlation ID por request (trace ID)
- Log rotation e retention policy
- Query examples para troubleshooting comum

**3) Alertas (Alertmanager):**
- Regras de alerta por severidade:
  - **CRITICAL** (PagerDuty/SMS): downtime, error rate > 5%, disco > 95%
  - **WARNING** (Slack/Email): latência p95 > 2s, CPU > 80%, memory > 85%
  - **INFO** (Slack): deploy completado, backup finalizado, cron executado
- Routing: quem recebe qual alerta (on-call rotation)
- Silencing e inhibition rules
- Runbooks linkados em cada alerta (o que fazer quando disparar)

**4) Uptime Monitoring:**
- Health check endpoints padronizados (/health, /ready)
- Ping externo (UptimeRobot/Better Uptime)
- Status page pública para clientes

**5) docker-compose para o stack de monitoramento:**
- Prometheus + Grafana + Loki + Alertmanager
- Volumes persistentes para dados
- Configuração de rede

Forneça todos os arquivos de configuração e dashboards JSON.

Como usar este prompt

1Cole o prompt diretamente no ChatGPT, Claude, Gemini ou qualquer assistente de IA.
2Personalize os campos entre colchetes [assim] com suas informações específicas.
3Para melhores resultados, forneça contexto adicional sobre seu caso de uso.
4Combine múltiplos prompts em uma conversa para resultados mais completos.
5Salve os prompts que mais usa para acesso rápido no futuro.

Prompts relacionados

Ver todos

Pipeline CI/CD completo com GitHub Actions para aplicações Next.js

Configura pipeline automatizado com testes, build, preview deploys e deploy de produção.

IntermediárioCI/CDGitHub Actionspipeline

Aberto

Containerização com Docker e orquestração com Docker Compose para produção

Dockerfiles otimizados e docker-compose para ambientes de desenvolvimento e produção.

IntermediárioDockerDocker Composecontainerização

Aberto

Infraestrutura como código com Terraform para AWS/Hetzner

Provisionamento automatizado de infraestrutura cloud com Terraform, módulos reutilizáveis e state management.

AvançadoTerraforminfraestruturaAWS

Assinantes

Playbook de resposta a incidentes para equipes de engenharia

Processo estruturado de detecção, resposta, comunicação e postmortem para incidentes em produção.

InicianteincidentespostmortemSRE

Assinantes

Explore outras categorias de prompts

📊Análise de Dados 🎨Design e UX 📋Gestão de Projetos Ver todas as categorias

Assine o AulasDeIA para desbloquear

Acesse 10.000+ prompts prontos para usar em qualquer profissão, além de todos os cursos da plataforma.

Assinar por R$ 49,90/mês

Cancele quando quiser. Sem multas.