Modelo de Difusão

TLDR: Um modelo de difusão gera dados realistas aprendendo a reverter um processo de adição de ruído. Stable Diffusion e DALL-E são os exemplos mais proeminentes.

Um modelo de difusão é uma classe de modelo de IA generativa. Ele aprende a criar dados revertendo um processo de destruição controlada. Durante o treinamento, o modelo vê uma imagem em cada estágio de uma ‘difusão progressiva’: ruído gaussiano é adicionado passo a passo até que a imagem seja ruído puro. O modelo aprende o inverso — como remover o ruído em cada etapa. Na inferência, ele começa com ruído aleatório e remove o ruído passo a passo para produzir uma nova imagem.

Como Funcionam os Modelos de Difusão

Processo Progressivo: Ruído gaussiano é adicionado a uma amostra de treinamento ao longo de T etapas temporais. Na etapa T, os dados são indistinguíveis de ruído aleatório.
Processo Reverso: Uma rede neural — tipicamente U-Net ou um transformer — aprende a prever e remover o ruído em cada etapa.
Objetivo de Treinamento: A rede minimiza a diferença entre o ruído previsto e o ruído real adicionado em cada etapa temporal.
Amostragem: Partindo de ruído gaussiano puro, o modelo remove o ruído ao longo de T etapas reversas para produzir uma nova amostra realista.

Condicionamento e Controle por Texto

Modelos de difusão podem ser condicionados em prompts de texto, rótulos de classe ou imagens. Modelos de texto para imagem usam um codificador de texto (ex.: CLIP) para guiar o processo de remoção de ruído. Camadas de atenção cruzada injetam o sinal de texto em cada etapa de remoção de ruído. Isso permite controle preciso: o modelo gera exatamente o que o prompt descreve. A qualidade dos prompts de texto importa enormemente — veja engenharia de prompts.

Modelos de Difusão Notáveis

Stable Diffusion: Modelo de texto para imagem de código aberto. Amplamente usado para geração de arte e criação de conjuntos de dados sintéticos.
DALL-E 3: Modelo de texto para imagem da OpenAI. Destaca-se na aderência a prompts e no fotorrealismo.
Imagen: Modelo de difusão do Google, que usa um LLM para codificação de texto.
Sora: Modelo de texto para vídeo da OpenAI. Gera clipes de vídeo realistas a partir de prompts de texto.
AudioLDM: Gera áudio e música a partir de descrições em texto.

Modelos de Difusão e Dados de Treinamento

Modelos de difusão também são usados para gerar dados de treinamento sintéticos para outros sistemas de IA. Em visão computacional, imagens sintéticas preenchem lacunas onde dados rotulados reais são escassos. Treinar modelos de difusão requer bilhões de pares imagem-texto em escala. Os conjuntos de dados da Bright Data fornecem dados de treinamento curados em larga escala para construção e ajuste fino de modelos generativos.

Teste grátis Registro no Google