Visão computacional (computer vision) é a área da IA que ensina máquinas a "ver" — processar imagens e vídeos para extrair informação útil. Em 2026, está em todo lugar: reconhecimento facial no celular, controle de qualidade em fábrica, diagnóstico médico, carros autônomos.

Tarefas clássicas:

Classificação de imagem: "isso é um gato" / "raio-X normal".
Detecção de objeto: "há 3 carros e 2 pedestres na imagem, com bounding boxes".
Segmentação semântica: classifica cada pixel ("este pixel é estrada, este é céu").
Segmentação de instância: separa objetos individuais.
Pose estimation: detecta articulações de pessoas.
OCR: extrai texto de imagens.
Face recognition: identifica pessoas.
Action recognition em vídeo: o que está acontecendo no clipe.
Geração de imagem: criar visuais novos (Stable Diffusion, Midjourney).

Modelos importantes:

CNN clássicas: ResNet, VGG, EfficientNet.
Transformers para visão: ViT, Swin Transformer.
YOLO (You Only Look Once): rápido para detecção em tempo real.
Segment Anything (SAM) da Meta: segmentação universal.
CLIP da OpenAI: une visão e linguagem.
Multimodais: GPT-5, Claude Sonnet 4, Gemini — incorporam visão nativamente.

Em 2026, LLMs multimodais transformaram visão computacional. Você não precisa mais treinar modelo específico — joga imagem no GPT-5 e pergunta "o que tem aqui?" ou "extraia dados da nota fiscal".

Casos de uso brasileiros:

Saúde: análise de exames de imagem em hospitais (Sírio, Albert Einstein, A.C. Camargo).
Agronegócio: drones com IA para identificar pragas e estimar produtividade.
Varejo: análise de comportamento em loja (heatmaps de circulação).
Industrial: controle de qualidade automatizado em linhas de produção.
Segurança: reconhecimento facial em estádios, eventos, transporte público.
Trânsito: detecção de infrações, fluxo, acidentes (Detran de vários estados).
Marketing: análise visual de marca em redes sociais.

Ferramentas:

OpenCV: clássico, base de muitos sistemas.
YOLO (Ultralytics): para detecção em tempo real.
MediaPipe (Google): pose, hands, face para apps.
Azure Computer Vision, Google Vision API, AWS Rekognition: APIs prontas.
Hugging Face: modelos abertos.
Roboflow: plataforma para datasets e treinamento.

Cuidados éticos:

Reconhecimento facial: questões enormes de privacidade e viés racial.
Vigilância massiva: balanço entre segurança e direitos.
Discriminação: modelos com performance desigual entre grupos.
Deepfakes: usar tecnologia para enganar.

Para o profissional brasileiro:

Para tarefas comuns (OCR, classificação): use APIs prontas ou multimodais (GPT-5, Claude).
Para tarefas específicas em escala: vale fine-tunar modelos próprios (YOLO, ViT).
Para projetos sensíveis: considere implicações éticas e legais.

Em 2026, visão computacional virou commodity. O diferencial competitivo está em casos de uso e dados, não em algoritmos. Profissionais brasileiros que combinam visão com domínio (agronegócio, saúde, varejo) constroem produtos diferenciados.

Visão Computacional

Termos relacionados

Aprenda na prática