BLEU (Bilingual Evaluation Understudy) é uma das métricas mais antigas e ainda usadas em NLP, criada em 2002 pela IBM. Avalia tradução automática (e por extensão, geração de texto) comparando a saída do modelo com uma ou mais traduções de referência feitas por humanos.

Como funciona: BLEU mede a sobreposição de n-gramas (sequências de 1, 2, 3, 4 palavras) entre a tradução do modelo e as referências humanas. Quanto mais n-gramas em comum, maior o score.

Score 0: nenhuma sobreposição.
Score 100: idêntico à referência.
Scores típicos: tradução boa de máquina varia entre 25 e 50.

Componentes:

Precisão de n-gramas: dos n-gramas no output, quantos aparecem nas referências.
Brevity penalty: penaliza outputs muito curtos (que poderiam "trapacear" tendo precisão alta).

Limitações fortes:

Não captura semântica: "O cachorro correu" e "O cão correu" têm BLEU baixo, mas são equivalentes.
Penaliza variação criativa: parafrases válidas pontuam mal.
Funciona melhor com várias referências: uma referência só é injusto.
Inadequado para diálogo, criatividade, raciocínio.

Por isso, em 2026, BLEU foi substituída em muitos contextos por:

BERTScore: usa embeddings para medir similaridade semântica.
METEOR: considera sinônimos e paráfrases.
chrF: baseado em caracteres, melhor para idiomas morfologicamente ricos.
COMET: rede neural treinada para predizer qualidade.
Avaliação humana: ainda padrão-ouro.
LLM-as-judge: usar GPT-4 ou Claude para avaliar saídas de outros modelos.

Para tradução pt-BR, BLEU ainda aparece em papers e benchmarks (como FLORES-200), mas para avaliar produtos reais, ninguém olha só BLEU.

Para o profissional brasileiro:

Se está construindo sistema de tradução (CAT tools, localização de e-commerce), BLEU pode ser uma das métricas — mas combine com BERTScore e revisão humana.
Para chatbots e assistentes, BLEU não faz sentido. Use métricas de utilidade, satisfação, taxa de resolução.
Para benchmarks de modelos (compare Claude vs GPT em tradução), BLEU ainda dá um sinal útil quando combinado com outras.

BLEU é um lembrete de que medir IA é difícil. Cada métrica captura um aspecto. Sistemas sérios em produção usam dashboards com várias métricas + amostragem para avaliação humana.

BLEU

Termos relacionados

Aprenda na prática