Rotulagem, ou labeling, é o trabalho humano de anotar dados com a resposta certa: dizer "esta foto é um gato", "este e-mail é spam", "este sentimento é negativo". Sem rotulagem, aprendizado supervisionado não acontece.
É um trabalho subestimado mas crítico: empresas investem milhões em modelos sofisticados que falham porque os dados de treino foram rotulados às pressas, com critérios inconsistentes ou por anotadores sem treinamento.
Tipos de rotulagem:
- Classificação: escolher uma categoria (spam/não-spam).
- Detecção: marcar caixas em torno de objetos numa imagem.
- Segmentação: pintar pixel a pixel as regiões da imagem.
- Anotação de texto: marcar entidades (pessoas, locais), sentimentos, intenções.
- Ranking: ordenar respostas por qualidade (usado em RLHF).
Quem rotula?
- Anotadores internos: equipe da própria empresa. Caro, mas qualidade alta.
- Crowdsourcing (Mechanical Turk, Scale AI, Surge): trabalhadores remotos no mundo todo. Barato, qualidade variável.
- Especialistas (médicos, advogados): para domínios técnicos. Caro mas insubstituível.
- Active learning: o modelo escolhe quais exemplos rotular para maximizar aprendizado por rótulo.
- Pseudo-labeling com IA: usar um modelo grande para rotular, humanos só revisam.
Boas práticas:
- Guidelines claros: documentar critérios com exemplos.
- Múltiplos anotadores por exemplo: medir concordância (Cohen's kappa).
- QA contínuo: revisar amostras regularmente.
- Dataset cards: documentar quem rotulou, como, com quais vieses.
No Brasil, empresas brasileiras fazem rotulagem para players globais (a Sama tem operações em SP). E startups locais como o Wix, Vtex e iFood têm equipes internas de rotulagem para seus modelos próprios.
Em 2026, com LLMs poderosos como GPT-5 e Claude Sonnet 4, parte da rotulagem está sendo automatizada. Mas humanos ainda são essenciais para casos limítrofes, validação final e decisões éticas. Rotulagem é onde a sensibilidade humana entra no pipeline da IA.
