Rotulagem, ou labeling, é o trabalho humano de anotar dados com a resposta certa: dizer "esta foto é um gato", "este e-mail é spam", "este sentimento é negativo". Sem rotulagem, aprendizado supervisionado não acontece.

É um trabalho subestimado mas crítico: empresas investem milhões em modelos sofisticados que falham porque os dados de treino foram rotulados às pressas, com critérios inconsistentes ou por anotadores sem treinamento.

Tipos de rotulagem:

Classificação: escolher uma categoria (spam/não-spam).
Detecção: marcar caixas em torno de objetos numa imagem.
Segmentação: pintar pixel a pixel as regiões da imagem.
Anotação de texto: marcar entidades (pessoas, locais), sentimentos, intenções.
Ranking: ordenar respostas por qualidade (usado em RLHF).

Quem rotula?

Anotadores internos: equipe da própria empresa. Caro, mas qualidade alta.
Crowdsourcing (Mechanical Turk, Scale AI, Surge): trabalhadores remotos no mundo todo. Barato, qualidade variável.
Especialistas (médicos, advogados): para domínios técnicos. Caro mas insubstituível.
Active learning: o modelo escolhe quais exemplos rotular para maximizar aprendizado por rótulo.
Pseudo-labeling com IA: usar um modelo grande para rotular, humanos só revisam.

Boas práticas:

Guidelines claros: documentar critérios com exemplos.
Múltiplos anotadores por exemplo: medir concordância (Cohen's kappa).
QA contínuo: revisar amostras regularmente.
Dataset cards: documentar quem rotulou, como, com quais vieses.

No Brasil, empresas brasileiras fazem rotulagem para players globais (a Sama tem operações em SP). E startups locais como o Wix, Vtex e iFood têm equipes internas de rotulagem para seus modelos próprios.

Em 2026, com LLMs poderosos como GPT-5 e Claude Sonnet 4, parte da rotulagem está sendo automatizada. Mas humanos ainda são essenciais para casos limítrofes, validação final e decisões éticas. Rotulagem é onde a sensibilidade humana entra no pipeline da IA.

Rotulagem (Labeling)

Termos relacionados

Aprenda na prática