Modelos de Linguagem (LLMs)

Transformer

Arquitetura de rede neural baseada em atenção que revolucionou IA e é a base de todos os LLMs modernos.

Transformer é a arquitetura de rede neural que mudou tudo. Apresentada em 2017 no paper "Attention is All You Need" do Google, ela substituiu LSTMs e RNNs e virou a base de praticamente todo modelo de linguagem moderno: GPT, Claude, Gemini, Llama, Mistral.

A grande sacada do Transformer é o mecanismo de atenção (self-attention). Em vez de processar texto palavra por palavra em sequência (como RNN), ele olha todas as palavras de uma vez e calcula como cada uma se relaciona com cada outra. Isso permite:

  • Paralelismo massivo: roda muito mais rápido em GPU.
  • Contexto longo: consegue manter relações entre palavras distantes no texto.
  • Escalabilidade: dobrar parâmetros melhora performance previsivelmente.

Componentes principais de um Transformer:

  • Token embeddings: tokens viram vetores.
  • Positional encodings: adiciona informação de posição (já que tudo é processado em paralelo).
  • Multi-head attention: várias "cabeças" de atenção em paralelo, cada uma aprendendo diferentes tipos de relação.
  • Feed-forward networks: camadas densas que processam cada posição.
  • Layer normalization e conexões residuais: estabilizam o treino.

Variações:

  • Encoder-only (BERT): bom para classificação, NER, embeddings.
  • Decoder-only (GPT, Claude, Llama): bom para gerar texto.
  • Encoder-decoder (T5, BART): bom para tradução, sumarização.

Em 2026, todos os modelos top são decoder-only com bilhões de parâmetros, treinados em trilhões de tokens. GPT-5, Claude Sonnet 4, Llama 4 — todos seguem essa receita.

Para o profissional brasileiro, você não precisa programar Transformers do zero — frameworks como PyTorch e bibliotecas como Hugging Face Transformers fazem isso. Mas entender o conceito ajuda a:

  • Saber por que janela de contexto é cara (atenção é O(n²)).
  • Entender as inovações recentes (atenção esparsa, linear attention, mixture of experts).
  • Conversar com seu time técnico sobre escolhas de arquitetura.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam Transformer no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →