Visão, Mídia e Ética

Red Teaming

Prática de simular ataques e maus usos contra um sistema de IA para descobrir falhas antes de adversários.

Red teaming em IA é a prática estruturada de tentar fazer um sistema de IA falhar — produzindo conteúdo perigoso, vazando informações, sendo enganado, exibindo vieses. Vem do mundo de segurança da informação e cibersegurança, onde "red teams" simulam atacantes para testar defesas.

Para que serve:

  • Descobrir vulnerabilidades antes do release: ajustar antes de usuários reais explorarem.
  • Documentar limitações: deixar claro o que o sistema NÃO faz bem.
  • Treinar mitigações: usar findings para fine-tuning, RLHF, filtros.
  • Compliance: muitas regulações exigem.
  • Pesquisa: contribuir para campo de safety.

Tipos de red teaming:

  • Manual: humanos especialistas tentam jailbreaks, exploram casos extremos.
  • Automatizado: ferramentas que geram milhares de prompts adversariais.
  • Crowd-sourced: pesquisadores externos, hackers white-hat, programas de bug bounty.
  • Persona-based: red teamers atuam como diferentes personas (criança, criminoso, jornalista).
  • Domain-specific: especialistas em medicina, química, biologia testam capacidade de gerar instruções perigosas no domínio.

Áreas testadas:

  • Conteúdo perigoso: armas, drogas, malware, autoharm.
  • Bias e discriminação: respostas desiguais para grupos diferentes.
  • Privacidade: vazamento de PII, recall de dados de treino.
  • Honesty: modelo lá quando útil para usuário?
  • Manipulability: pode ser convencido a violar guidelines?
  • Tool misuse: agente faz ação não autorizada?
  • CBRN risks: chemical, biological, radiological, nuclear (preocupação crescente).
  • CSAM: detecção de geração de conteúdo inadequado.

Frameworks e ferramentas:

  • PyRIT (Microsoft): framework para red teaming automatizado.
  • Garak: scanner de vulnerabilidades para LLMs.
  • HarmBench, AdvBench: benchmarks de adversarial prompts.
  • OpenAI Evals, Anthropic Evals: frameworks internos.

Práticas em 2026:

  • Pre-release red teaming: padrão antes de lançar modelo grande.
  • Continuous red teaming: monitora produção continuamente.
  • External red teams: empresas como Apollo Research, METR.
  • Bug bounty programs: OpenAI, Anthropic, Google pagam por findings.

Caso real famoso: Anthropic publica "model cards" detalhando capacidades e limitações descobertas por red team. OpenAI publicou "GPT-4 System Card" pré-launch documentando red team findings. Padrão emergente da indústria.

No Brasil:

  • Empresas grandes (Itaú, Stone, Magalu, Hotmart) têm equipes internas de red team de IA.
  • Consultorias começando a oferecer red team-as-a-service.
  • Pesquisadores acadêmicos (USP, PUC) publicando.
  • PL 2338/2023 prevê auditoria de IA — red teaming deve virar requisito legal para sistemas de alto risco.

Para o profissional brasileiro:

  • Construindo produto com IA: red team interno mesmo informalmente.
  • Carreira em AI safety: red teaming é ponto de entrada concreto.
  • Compliance: documentar red team findings vira evidência de due diligence.
  • Comunidade: participar de bug bounties (OpenAI, Anthropic) é aprendizado e renda.

Em 2026, red teaming evoluiu de prática opcional para requisito profissional. Sistemas de IA séria deployados sem red teaming são considerados negligentes. Para empresas brasileiras, integrar red teaming ao ciclo de desenvolvimento é tão padrão quanto unit tests. Cultura de safety é diferencial competitivo.

Termos relacionados

← Voltar ao glossárioExplorar cursos completos →