CPU (Central Processing Unit) é o processador clássico, presente em todo computador. Tem poucos núcleos (4-32 no consumidor, até 128 em servidores) mas cada um é muito rápido e versátil. Boa em tarefas sequenciais, lógica complexa, controle de fluxo.
Em IA moderna, a CPU não desapareceu — ela continua essencial:
- Pré-processamento de dados: ler arquivos, parsear JSON, limpar texto, tokenizar.
- Pipeline de inferência: orquestração, lógica de negócio em torno do modelo.
- Modelos pequenos: classificadores tradicionais (XGBoost, LightGBM) rodam ótimo em CPU.
- Inferência leve: modelos quantizados pequenos (Phi-3, Gemma 2B) já rodam aceitavelmente em CPU.
Para LLMs grandes, no entanto, CPU é lenta demais. Gerar um token em GPT-class no CPU pode levar segundos; em GPU, milissegundos.
Existem variações:
- CPUs de servidor: Intel Xeon, AMD EPYC. Muitos núcleos, muita memória.
- CPUs de consumidor: Intel Core, AMD Ryzen, Apple M-series.
- Apple Silicon (M1/M2/M3/M4): arquitetura ARM com unified memory, ótima para rodar LLMs locais. Um Mac M3 com 64GB RAM consegue rodar modelos de 70B com qualidade boa.
Para o profissional brasileiro:
- Se vai usar APIs: qualquer CPU moderna serve.
- Se quer rodar LLMs localmente: Mac M-series ou PC com bastante RAM e GPU dedicada.
- Para servidores Linux rodando inferência: importa balance entre CPU (orquestração) e GPU (modelo).
Em 2026, surgiram NPUs (Neural Processing Units) nos chips móveis — Apple Neural Engine, Qualcomm AI Engine, Snapdragon X Elite — para rodar IA localmente sem depender de nuvem. É a tendência: cada vez mais modelo no dispositivo.
