Visão, Mídia e Ética

Visão Computacional

Subárea da IA que ensina computadores a entender e interpretar imagens e vídeos.

Visão computacional (computer vision) é a área da IA que ensina máquinas a "ver" — processar imagens e vídeos para extrair informação útil. Em 2026, está em todo lugar: reconhecimento facial no celular, controle de qualidade em fábrica, diagnóstico médico, carros autônomos.

Tarefas clássicas:

  • Classificação de imagem: "isso é um gato" / "raio-X normal".
  • Detecção de objeto: "há 3 carros e 2 pedestres na imagem, com bounding boxes".
  • Segmentação semântica: classifica cada pixel ("este pixel é estrada, este é céu").
  • Segmentação de instância: separa objetos individuais.
  • Pose estimation: detecta articulações de pessoas.
  • OCR: extrai texto de imagens.
  • Face recognition: identifica pessoas.
  • Action recognition em vídeo: o que está acontecendo no clipe.
  • Geração de imagem: criar visuais novos (Stable Diffusion, Midjourney).

Modelos importantes:

  • CNN clássicas: ResNet, VGG, EfficientNet.
  • Transformers para visão: ViT, Swin Transformer.
  • YOLO (You Only Look Once): rápido para detecção em tempo real.
  • Segment Anything (SAM) da Meta: segmentação universal.
  • CLIP da OpenAI: une visão e linguagem.
  • Multimodais: GPT-5, Claude Sonnet 4, Gemini — incorporam visão nativamente.

Em 2026, LLMs multimodais transformaram visão computacional. Você não precisa mais treinar modelo específico — joga imagem no GPT-5 e pergunta "o que tem aqui?" ou "extraia dados da nota fiscal".

Casos de uso brasileiros:

  • Saúde: análise de exames de imagem em hospitais (Sírio, Albert Einstein, A.C. Camargo).
  • Agronegócio: drones com IA para identificar pragas e estimar produtividade.
  • Varejo: análise de comportamento em loja (heatmaps de circulação).
  • Industrial: controle de qualidade automatizado em linhas de produção.
  • Segurança: reconhecimento facial em estádios, eventos, transporte público.
  • Trânsito: detecção de infrações, fluxo, acidentes (Detran de vários estados).
  • Marketing: análise visual de marca em redes sociais.

Ferramentas:

  • OpenCV: clássico, base de muitos sistemas.
  • YOLO (Ultralytics): para detecção em tempo real.
  • MediaPipe (Google): pose, hands, face para apps.
  • Azure Computer Vision, Google Vision API, AWS Rekognition: APIs prontas.
  • Hugging Face: modelos abertos.
  • Roboflow: plataforma para datasets e treinamento.

Cuidados éticos:

  • Reconhecimento facial: questões enormes de privacidade e viés racial.
  • Vigilância massiva: balanço entre segurança e direitos.
  • Discriminação: modelos com performance desigual entre grupos.
  • Deepfakes: usar tecnologia para enganar.

Para o profissional brasileiro:

  • Para tarefas comuns (OCR, classificação): use APIs prontas ou multimodais (GPT-5, Claude).
  • Para tarefas específicas em escala: vale fine-tunar modelos próprios (YOLO, ViT).
  • Para projetos sensíveis: considere implicações éticas e legais.

Em 2026, visão computacional virou commodity. O diferencial competitivo está em casos de uso e dados, não em algoritmos. Profissionais brasileiros que combinam visão com domínio (agronegócio, saúde, varejo) constroem produtos diferenciados.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam Visão Computacional no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →