BLEU (Bilingual Evaluation Understudy) é uma das métricas mais antigas e ainda usadas em NLP, criada em 2002 pela IBM. Avalia tradução automática (e por extensão, geração de texto) comparando a saída do modelo com uma ou mais traduções de referência feitas por humanos.
Como funciona: BLEU mede a sobreposição de n-gramas (sequências de 1, 2, 3, 4 palavras) entre a tradução do modelo e as referências humanas. Quanto mais n-gramas em comum, maior o score.
- Score 0: nenhuma sobreposição.
- Score 100: idêntico à referência.
- Scores típicos: tradução boa de máquina varia entre 25 e 50.
Componentes:
- Precisão de n-gramas: dos n-gramas no output, quantos aparecem nas referências.
- Brevity penalty: penaliza outputs muito curtos (que poderiam "trapacear" tendo precisão alta).
Limitações fortes:
- Não captura semântica: "O cachorro correu" e "O cão correu" têm BLEU baixo, mas são equivalentes.
- Penaliza variação criativa: parafrases válidas pontuam mal.
- Funciona melhor com várias referências: uma referência só é injusto.
- Inadequado para diálogo, criatividade, raciocínio.
Por isso, em 2026, BLEU foi substituída em muitos contextos por:
- BERTScore: usa embeddings para medir similaridade semântica.
- METEOR: considera sinônimos e paráfrases.
- chrF: baseado em caracteres, melhor para idiomas morfologicamente ricos.
- COMET: rede neural treinada para predizer qualidade.
- Avaliação humana: ainda padrão-ouro.
- LLM-as-judge: usar GPT-4 ou Claude para avaliar saídas de outros modelos.
Para tradução pt-BR, BLEU ainda aparece em papers e benchmarks (como FLORES-200), mas para avaliar produtos reais, ninguém olha só BLEU.
Para o profissional brasileiro:
- Se está construindo sistema de tradução (CAT tools, localização de e-commerce), BLEU pode ser uma das métricas — mas combine com BERTScore e revisão humana.
- Para chatbots e assistentes, BLEU não faz sentido. Use métricas de utilidade, satisfação, taxa de resolução.
- Para benchmarks de modelos (compare Claude vs GPT em tradução), BLEU ainda dá um sinal útil quando combinado com outras.
BLEU é um lembrete de que medir IA é difícil. Cada métrica captura um aspecto. Sistemas sérios em produção usam dashboards com várias métricas + amostragem para avaliação humana.
