Segmentação Semântica

TLDR: A segmentação semântica rotula cada pixel de uma imagem com uma categoria de classe. Ela oferece às máquinas uma compreensão detalhada da cena em nível de pixel.

Segmentação semântica é uma tarefa em visão computacional. Ela classifica cada pixel de uma imagem em uma categoria predefinida — por exemplo: estrada, carro, pedestre, céu ou edifício. Ao contrário da detecção de objetos, que desenha caixas delimitadoras, a segmentação semântica produz uma máscara de pixel exata por classe. Ela fornece ao modelo uma compreensão refinada da forma e localização dos objetos. Essa precisão é fundamental para veículos autônomos e imagens médicas.

Tipos de Segmentação

Segmentação Semântica: Todos os pixels da mesma classe compartilham um único rótulo. Dois carros são rotulados como ‘carro’ — sem distinção entre instâncias individuais.
Segmentação de Instâncias: Distingue objetos individuais da mesma classe. Cada carro recebe um ID e uma máscara únicos.
Segmentação Panóptica: Combina ambas — todos os pixels rotulados por classe, com IDs de instância únicos para objetos contáveis como carros e pessoas.

Principais Arquiteturas de Modelos

Fully Convolutional Network (FCN): O primeiro modelo de ponta a ponta para segmentação semântica. Substitui camadas densas por convolucionais para saída pixel a pixel.
U-Net: Codificador-decodificador com conexões de salto. Arquitetura padrão para segmentação de imagens médicas.
DeepLab v3+: Usa convoluções atrous e ASPP para capturar contexto multiescala. Estado da arte em conjuntos de dados de referência.
Segment Anything Model (SAM): Modelo de fundação da Meta para segmentação zero-shot em qualquer categoria de objeto.

Aplicações

Veículos Autônomos: Segmenta estradas, marcações de faixa, veículos e pedestres em tempo real. Combinado com nuvens de pontos LiDAR point clouds para compreensão de cenas 3D.
Imagens Médicas: Segmenta tumores, órgãos e tecidos em exames de ressonância magnética, tomografia computadorizada e patologia.
Imagens de Satélite: Mapeia uso do solo, detecta desmatamento e monitora infraestrutura a partir de imagens aéreas.
Robótica: Segmenta superfícies do espaço de trabalho para guiar a manipulação robótica e a navegação segura.
Realidade Aumentada: Separa o primeiro plano do plano de fundo para sobreposições de cenas e efeitos.

Dados de Treinamento para Modelos de Segmentação

A segmentação semântica requer imagens densamente anotadas. Cada pixel deve ter um rótulo — uma das formas mais trabalhosas de rotulagem de dados. Uma única cena de direção pode levar 90 minutos para ser anotada com perfeição em nível de pixel. Dados sintéticos de simulações fornecem verdade fundamental em nível de pixel gratuitamente e reduzem drasticamente o custo de anotação. Os conjuntos de dados da Bright Data oferecem grandes coleções de imagens para criar conjuntos de dados de treinamento para segmentação em escala.

Teste grátis Registro no Google