Transformer é a arquitetura de rede neural que mudou tudo. Apresentada em 2017 no paper "Attention is All You Need" do Google, ela substituiu LSTMs e RNNs e virou a base de praticamente todo modelo de linguagem moderno: GPT, Claude, Gemini, Llama, Mistral.
A grande sacada do Transformer é o mecanismo de atenção (self-attention). Em vez de processar texto palavra por palavra em sequência (como RNN), ele olha todas as palavras de uma vez e calcula como cada uma se relaciona com cada outra. Isso permite:
- Paralelismo massivo: roda muito mais rápido em GPU.
- Contexto longo: consegue manter relações entre palavras distantes no texto.
- Escalabilidade: dobrar parâmetros melhora performance previsivelmente.
Componentes principais de um Transformer:
- Token embeddings: tokens viram vetores.
- Positional encodings: adiciona informação de posição (já que tudo é processado em paralelo).
- Multi-head attention: várias "cabeças" de atenção em paralelo, cada uma aprendendo diferentes tipos de relação.
- Feed-forward networks: camadas densas que processam cada posição.
- Layer normalization e conexões residuais: estabilizam o treino.
Variações:
- Encoder-only (BERT): bom para classificação, NER, embeddings.
- Decoder-only (GPT, Claude, Llama): bom para gerar texto.
- Encoder-decoder (T5, BART): bom para tradução, sumarização.
Em 2026, todos os modelos top são decoder-only com bilhões de parâmetros, treinados em trilhões de tokens. GPT-5, Claude Sonnet 4, Llama 4 — todos seguem essa receita.
Para o profissional brasileiro, você não precisa programar Transformers do zero — frameworks como PyTorch e bibliotecas como Hugging Face Transformers fazem isso. Mas entender o conceito ajuda a:
- Saber por que janela de contexto é cara (atenção é O(n²)).
- Entender as inovações recentes (atenção esparsa, linear attention, mixture of experts).
- Conversar com seu time técnico sobre escolhas de arquitetura.
