Treinamento é a fase em que o modelo aprende. Você dá um monte de exemplos, ele faz previsões, mede o erro, e ajusta seus parâmetros para errar menos da próxima vez. Repete isso milhões ou bilhões de vezes até convergir.
Treinar um modelo grande como GPT-5 ou Claude Sonnet 4 envolve:
- Coleta de dados: terabytes de texto (web, livros, código). Para multimodais, também imagens e áudio.
- Limpeza e tokenização: remover lixo, dividir texto em tokens.
- Pré-treinamento: passar todos os dados pelo modelo, ajustando pesos via gradiente descendente. Custa milhões de dólares e leva semanas.
- Fine-tuning: refinamento em dados específicos (instruções, preferências humanas).
- RLHF (aprendizado por reforço com feedback humano): humanos avaliam respostas e o modelo aprende a preferir as boas.
O treinamento é o que separa um modelo bobo de um útil. GPT-3 era treinado só em prever próximas palavras — era inteligente mas difícil de usar. ChatGPT virou ChatGPT depois de RLHF, que ensinou o modelo a seguir instruções.
Para a maioria dos profissionais, "treinamento do zero" não é realista — custa dezenas de milhões. Mas existem três níveis acessíveis:
- Prompt engineering: você não treina nada, só escreve instruções melhores. Acessível a todos.
- Fine-tuning: você ajusta um modelo existente em seus dados (centenas a milhares de exemplos). Custa de R$ 100 a R$ 10 mil dependendo do tamanho.
- LoRA / adapters: técnica de fine-tuning leve, treina só uma fração dos pesos. Viável até em GPU de gamer.
No Brasil, empresas como Maritaca AI já treinam modelos próprios em português. Para a maior parte dos casos, porém, vale começar com modelos prontos via API (OpenAI, Anthropic) e só treinar quando o caso de uso justificar o custo.
