Ir para o conteúdo

Visão, Mídia e Ética

Visão Computacional

Subárea da IA que ensina computadores a entender e interpretar imagens e vídeos.

Visão computacional (computer vision) é a área da IA que ensina máquinas a "ver" — processar imagens e vídeos para extrair informação útil. Em 2026, está em todo lugar: reconhecimento facial no celular, controle de qualidade em fábrica, diagnóstico médico, carros autônomos.

Tarefas clássicas:

  • Classificação de imagem: "isso é um gato" / "raio-X normal".
  • Detecção de objeto: "há 3 carros e 2 pedestres na imagem, com bounding boxes".
  • Segmentação semântica: classifica cada pixel ("este pixel é estrada, este é céu").
  • Segmentação de instância: separa objetos individuais.
  • Pose estimation: detecta articulações de pessoas.
  • OCR: extrai texto de imagens.
  • Face recognition: identifica pessoas.
  • Action recognition em vídeo: o que está acontecendo no clipe.
  • Geração de imagem: criar visuais novos (Stable Diffusion, Midjourney).

Modelos importantes:

  • CNN clássicas: ResNet, VGG, EfficientNet.
  • Transformers para visão: ViT, Swin Transformer.
  • YOLO (You Only Look Once): rápido para detecção em tempo real.
  • Segment Anything (SAM) da Meta: segmentação universal.
  • CLIP da OpenAI: une visão e linguagem.
  • Multimodais: GPT-5, Claude Sonnet 4, Gemini — incorporam visão nativamente.

Em 2026, LLMs multimodais transformaram visão computacional. Você não precisa mais treinar modelo específico — joga imagem no GPT-5 e pergunta "o que tem aqui?" ou "extraia dados da nota fiscal".

Casos de uso brasileiros:

  • Saúde: análise de exames de imagem em hospitais (Sírio, Albert Einstein, A.C. Camargo).
  • Agronegócio: drones com IA para identificar pragas e estimar produtividade.
  • Varejo: análise de comportamento em loja (heatmaps de circulação).
  • Industrial: controle de qualidade automatizado em linhas de produção.
  • Segurança: reconhecimento facial em estádios, eventos, transporte público.
  • Trânsito: detecção de infrações, fluxo, acidentes (Detran de vários estados).
  • Marketing: análise visual de marca em redes sociais.

Ferramentas:

  • OpenCV: clássico, base de muitos sistemas.
  • YOLO (Ultralytics): para detecção em tempo real.
  • MediaPipe (Google): pose, hands, face para apps.
  • Azure Computer Vision, Google Vision API, AWS Rekognition: APIs prontas.
  • Hugging Face: modelos abertos.
  • Roboflow: plataforma para datasets e treinamento.

Cuidados éticos:

  • Reconhecimento facial: questões enormes de privacidade e viés racial.
  • Vigilância massiva: balanço entre segurança e direitos.
  • Discriminação: modelos com performance desigual entre grupos.
  • Deepfakes: usar tecnologia para enganar.

Para o profissional brasileiro:

  • Para tarefas comuns (OCR, classificação): use APIs prontas ou multimodais (GPT-5, Claude).
  • Para tarefas específicas em escala: vale fine-tunar modelos próprios (YOLO, ViT).
  • Para projetos sensíveis: considere implicações éticas e legais.

Em 2026, visão computacional virou commodity. O diferencial competitivo está em casos de uso e dados, não em algoritmos. Profissionais brasileiros que combinam visão com domínio (agronegócio, saúde, varejo) constroem produtos diferenciados.

Termos relacionados

Aprenda na prática

Cursos do Aulas de IA que aplicam Visão Computacional no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →