Modelos de Linguagem (LLMs)

BLEU

Métrica clássica para avaliar tradução automática comparando saída com referências humanas.

BLEU (Bilingual Evaluation Understudy) é uma das métricas mais antigas e ainda usadas em NLP, criada em 2002 pela IBM. Avalia tradução automática (e por extensão, geração de texto) comparando a saída do modelo com uma ou mais traduções de referência feitas por humanos.

Como funciona: BLEU mede a sobreposição de n-gramas (sequências de 1, 2, 3, 4 palavras) entre a tradução do modelo e as referências humanas. Quanto mais n-gramas em comum, maior o score.

  • Score 0: nenhuma sobreposição.
  • Score 100: idêntico à referência.
  • Scores típicos: tradução boa de máquina varia entre 25 e 50.

Componentes:

  • Precisão de n-gramas: dos n-gramas no output, quantos aparecem nas referências.
  • Brevity penalty: penaliza outputs muito curtos (que poderiam "trapacear" tendo precisão alta).

Limitações fortes:

  • Não captura semântica: "O cachorro correu" e "O cão correu" têm BLEU baixo, mas são equivalentes.
  • Penaliza variação criativa: parafrases válidas pontuam mal.
  • Funciona melhor com várias referências: uma referência só é injusto.
  • Inadequado para diálogo, criatividade, raciocínio.

Por isso, em 2026, BLEU foi substituída em muitos contextos por:

  • BERTScore: usa embeddings para medir similaridade semântica.
  • METEOR: considera sinônimos e paráfrases.
  • chrF: baseado em caracteres, melhor para idiomas morfologicamente ricos.
  • COMET: rede neural treinada para predizer qualidade.
  • Avaliação humana: ainda padrão-ouro.
  • LLM-as-judge: usar GPT-4 ou Claude para avaliar saídas de outros modelos.

Para tradução pt-BR, BLEU ainda aparece em papers e benchmarks (como FLORES-200), mas para avaliar produtos reais, ninguém olha só BLEU.

Para o profissional brasileiro:

  • Se está construindo sistema de tradução (CAT tools, localização de e-commerce), BLEU pode ser uma das métricas — mas combine com BERTScore e revisão humana.
  • Para chatbots e assistentes, BLEU não faz sentido. Use métricas de utilidade, satisfação, taxa de resolução.
  • Para benchmarks de modelos (compare Claude vs GPT em tradução), BLEU ainda dá um sinal útil quando combinado com outras.

BLEU é um lembrete de que medir IA é difícil. Cada métrica captura um aspecto. Sistemas sérios em produção usam dashboards com várias métricas + amostragem para avaliação humana.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam BLEU no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →