Transformer é a arquitetura de rede neural que mudou tudo. Apresentada em 2017 no paper "Attention is All You Need" do Google, ela substituiu LSTMs e RNNs e virou a base de praticamente todo modelo de linguagem moderno: GPT, Claude, Gemini, Llama, Mistral.

A grande sacada do Transformer é o mecanismo de atenção (self-attention). Em vez de processar texto palavra por palavra em sequência (como RNN), ele olha todas as palavras de uma vez e calcula como cada uma se relaciona com cada outra. Isso permite:

Paralelismo massivo: roda muito mais rápido em GPU.
Contexto longo: consegue manter relações entre palavras distantes no texto.
Escalabilidade: dobrar parâmetros melhora performance previsivelmente.

Componentes principais de um Transformer:

Token embeddings: tokens viram vetores.
Positional encodings: adiciona informação de posição (já que tudo é processado em paralelo).
Multi-head attention: várias "cabeças" de atenção em paralelo, cada uma aprendendo diferentes tipos de relação.
Feed-forward networks: camadas densas que processam cada posição.
Layer normalization e conexões residuais: estabilizam o treino.

Variações:

Encoder-only (BERT): bom para classificação, NER, embeddings.
Decoder-only (GPT, Claude, Llama): bom para gerar texto.
Encoder-decoder (T5, BART): bom para tradução, sumarização.

Em 2026, todos os modelos top são decoder-only com bilhões de parâmetros, treinados em trilhões de tokens. GPT-5, Claude Sonnet 4, Llama 4 — todos seguem essa receita.

Para o profissional brasileiro, você não precisa programar Transformers do zero — frameworks como PyTorch e bibliotecas como Hugging Face Transformers fazem isso. Mas entender o conceito ajuda a:

Saber por que janela de contexto é cara (atenção é O(n²)).
Entender as inovações recentes (atenção esparsa, linear attention, mixture of experts).
Conversar com seu time técnico sobre escolhas de arquitetura.

Transformer

Termos relacionados

Aprenda na prática