Visão computacional (computer vision) é a área da IA que ensina máquinas a "ver" — processar imagens e vídeos para extrair informação útil. Em 2026, está em todo lugar: reconhecimento facial no celular, controle de qualidade em fábrica, diagnóstico médico, carros autônomos.
Tarefas clássicas:
- Classificação de imagem: "isso é um gato" / "raio-X normal".
- Detecção de objeto: "há 3 carros e 2 pedestres na imagem, com bounding boxes".
- Segmentação semântica: classifica cada pixel ("este pixel é estrada, este é céu").
- Segmentação de instância: separa objetos individuais.
- Pose estimation: detecta articulações de pessoas.
- OCR: extrai texto de imagens.
- Face recognition: identifica pessoas.
- Action recognition em vídeo: o que está acontecendo no clipe.
- Geração de imagem: criar visuais novos (Stable Diffusion, Midjourney).
Modelos importantes:
- CNN clássicas: ResNet, VGG, EfficientNet.
- Transformers para visão: ViT, Swin Transformer.
- YOLO (You Only Look Once): rápido para detecção em tempo real.
- Segment Anything (SAM) da Meta: segmentação universal.
- CLIP da OpenAI: une visão e linguagem.
- Multimodais: GPT-5, Claude Sonnet 4, Gemini — incorporam visão nativamente.
Em 2026, LLMs multimodais transformaram visão computacional. Você não precisa mais treinar modelo específico — joga imagem no GPT-5 e pergunta "o que tem aqui?" ou "extraia dados da nota fiscal".
Casos de uso brasileiros:
- Saúde: análise de exames de imagem em hospitais (Sírio, Albert Einstein, A.C. Camargo).
- Agronegócio: drones com IA para identificar pragas e estimar produtividade.
- Varejo: análise de comportamento em loja (heatmaps de circulação).
- Industrial: controle de qualidade automatizado em linhas de produção.
- Segurança: reconhecimento facial em estádios, eventos, transporte público.
- Trânsito: detecção de infrações, fluxo, acidentes (Detran de vários estados).
- Marketing: análise visual de marca em redes sociais.
Ferramentas:
- OpenCV: clássico, base de muitos sistemas.
- YOLO (Ultralytics): para detecção em tempo real.
- MediaPipe (Google): pose, hands, face para apps.
- Azure Computer Vision, Google Vision API, AWS Rekognition: APIs prontas.
- Hugging Face: modelos abertos.
- Roboflow: plataforma para datasets e treinamento.
Cuidados éticos:
- Reconhecimento facial: questões enormes de privacidade e viés racial.
- Vigilância massiva: balanço entre segurança e direitos.
- Discriminação: modelos com performance desigual entre grupos.
- Deepfakes: usar tecnologia para enganar.
Para o profissional brasileiro:
- Para tarefas comuns (OCR, classificação): use APIs prontas ou multimodais (GPT-5, Claude).
- Para tarefas específicas em escala: vale fine-tunar modelos próprios (YOLO, ViT).
- Para projetos sensíveis: considere implicações éticas e legais.
Em 2026, visão computacional virou commodity. O diferencial competitivo está em casos de uso e dados, não em algoritmos. Profissionais brasileiros que combinam visão com domínio (agronegócio, saúde, varejo) constroem produtos diferenciados.
