Blog / AI
AI

O que é o Zero-Shot Learning?

A aprendizagem zero-shot permite que a IA processe novas informações sem treinamento prévio, o que a torna um divisor de águas para a adaptabilidade da IA e para as aplicações no mundo real.
16 min de leitura
What is Zero-Shot Learning blog image

Tente conversar com um LLM sobre algo que ele nunca viu. Ele consegue entender? Isso geralmente é visto como o verdadeiro teste de inteligência. Quando um modelo usa inferência e generalizações para aprender sem dados de treinamento, isso é chamado de aprendizagem zero-shot.

Tradicionalmente, os modelos de IA precisam de conjuntos de dados gigantescos com exemplos rotulados. A aprendizagem zero-shot espera que um modelo aprenda rapidamente, sem dados de treinamento. A aprendizagem zero-shot não substitui o treinamento padrão. O zero-shot é usado para levar os modelos pré-treinados para o próximo nível. Você pode lançar uma IA em algo que ela nunca viu e ela ainda terá um bom desempenho.

Acompanhe e aprenda os prós e contras do aprendizado de tiro zero.

Onde o Zero-Shot Learning é usado?

Você já precisou de alguém que olhasse seu trabalho de uma perspectiva diferente? É aí que entra o zero-shot. Com o aprendizado zero-shot, um modelo de IA recebe informações, processa-as e emite uma opinião sem nenhum treinamento. Isso produz resultados promissores em todos os tipos de setor. Quando você pede à IA para processar o desconhecido e obtém resultados, isso é o aprendizado zero-shot em ação.

  • Assistência médica: Ao diagnosticar condições raras ou inéditas, os modelos usam o zero-shot para diagnosticar condições médicas raras e nunca antes vistas. Nessas situações, os dados são escassos ou até mesmo inexistentes.
  • Produtos farmacêuticos: Os modelos podem analisar dados não vistos anteriormente para prever a eficácia de compostos que ainda não existem.
  • Processamento de linguagem natural: Os modelos de linguagem grande (LLMs) estão conversando com as pessoas sem parar o dia todo, todos os dias. Quando surgem novas gírias ou quando alguém fala sobre seus problemas individuais, os modelos utilizam o zero-shot para fazer inferências e generalizações que os humanos comuns fariam.
  • Visão computacional e robótica: É praticamente impossível treinar um modelo em todas as imagens que ele possa encontrar no mundo real. Os modelos reconhecem novas imagens e descobrem o que fazer com elas. Um carro que dirige sozinho para em um cruzamento que nunca viu. Um Roomba vê seus móveis e os evita.
  • Setores criativos e de entretenimento: O Zero-shot permite que os modelos criem personagens de jogos exclusivos. DALL-E e modelos semelhantes geram peças de arte exclusivas que ninguém jamais viu antes.

O aprendizado zero-shot já é usado em todo o mundo. Quanto maior for a adoção da IA, mais o zero-shot continuará a crescer.

Zero-Shot vs. outros paradigmas

Comparando os paradigmas

Você já trabalhou em um emprego com péssima gerência e nenhum treinamento real? Se sim, você já usou a aprendizagem zero-shot. O aprendizado de zero-shot faz parte de um paradigma maior chamado aprendizado “n-shot”. N representa o número de exemplos rotulados. A aprendizagem zero-shot implica nenhum treinamento prévio. O aprendizado de máquina tradicional usa conjuntos de dados gigantescos de entradas rotuladas.

  • Aprendizagem em uma única etapa: Um modelo é treinado em dados com apenas uma amostra rotulada por classe.
  • Aprendizado de poucas tentativas: O modelo é treinado em uma pequena quantidade de exemplos rotulados.
  • Aprendizado de máquina tradicional: Com a aprendizagem tradicional, um modelo é treinado em enormes conjuntos de dados com exemplos rotulados. Isso é o oposto do zero-shot.
  • Aprendizagem de tiro zero: O modelo vê coisas que nunca viu ou que nunca lhe foram ensinadas antes. Ele é simplesmente jogado na mistura e espera-se que ele descubra as coisas e aprenda.

O aprendizado de tiro zero é comparável ao aprendizado instantâneo do mundo real. Seu chefe o joga no meio da confusão e espera que você dê conta do recado.

Aprendizado convencional com Zero-Shot (ZSL)

Procurando uma fonte de informações inúteis para responder a uma única pergunta prática? Um LLM pode fazer isso para você. Os LLMs são exemplos clássicos de ZSL convencional. Esses modelos são pré-treinados com mais dados do que você ou eu podemos imaginar. Pense em toda a Wikipédia, qualquer mídia social que a empresa considere apropriada, milhares de livros e muito, muito mais.

Quando você treina formalmente uma IA, ela recebe uma série de aulas. Se quisermos treinar uma IA sobre cavalos, podemos dar a ela fotos e livros sobre cavalos. Quando fazemos isso, criamos uma classe: “Cavalo”. Em seguida, o modelo cria regras internas e generalizações sobre como lidar com as informações relacionadas à sua classe de cavalos.

Depois que um modelo tiver recebido o pré-treinamento adequado, ele poderá receber novos dados e criar suas próprias classes. Se dermos ao nosso modelo treinado em cavalos uma imagem de uma zebra, ele poderá inferir que um cavalo com listras é uma zebra. Mesmo que não tenha sido treinado em zebras, ele é inteligente o suficiente para criar uma nova classe interna de zebra e começar a criar regras sobre como lidar com a zebra.

Devido aos grandes requisitos de pré-treinamento, a ZSL tem um custo bastante alto. Nosso modelo pode entender as zebras, mas nós o treinamos em metade do mundo para chegar lá! Devido ao pré-treinamento, a ZSL não é muito eficiente. Da próxima vez que você perguntar algo sem sentido ao ChatGPT, pense no que a máquina teve de fazer para responder à sua simples pergunta.

Aprendizagem Generalizada Zero-Shot (GZSL)

A GZSL utiliza os conceitos da ZSL e os simplifica para ser mais eficiente. Com a GZSL, usamos o caos para simplificar o processo de aprendizagem. A aprendizagem generalizada de tiro zero mistura várias incógnitas no processo de treinamento. Em seguida, o modelo usa generalizações para criar classes e regras internas a partir dessas incógnitas.

Em vez de pré-treinar nosso modelo em cavalos, por que não damos a ele uma única imagem contendo cavalos e uma zebra? Também podemos lhe dar um pequeno texto: “A imagem que estou lhe dando contém vários cavalos e uma zebra. Uma zebra é um cavalo com listras”.

O modelo pode usar essa breve descrição e uma única imagem para criar uma classe de cavalo e uma classe de zebra.

  • Classe de cavalo: O modelo criará uma classe de cavalo e armazenará os dados dos cavalos não listrados na imagem.
  • Classe Zebra: Ele criará uma classe de zebra usando apenas nossa breve descrição e o cavalo listrado da imagem.

Isso reduz drasticamente o tamanho dos nossos dados de treinamento. Agora treinamos nosso modelo para reconhecer vários cavalos e uma zebra a partir de uma única imagem com algum texto. Se nossa imagem média tiver aproximadamente 4kb, o treinamento com quatro cavalos nos daria um conjunto de dados mínimo de 16kb. Quando adicionamos algum caos e incluímos todos os animais em uma única imagem, nosso conjunto de dados de treinamento é de apenas 4kb. Com o GZSL, fornecemos dados mais enxutos e de alta qualidade para um processo de treinamento mais rápido e um modelo menor.

Como funciona o aprendizado Zero-Shot

Como funciona o aprendizado Zero-Shot

Vamos dissecar o cérebro de nosso hipotético LLM para ver o que realmente está acontecendo. Sabemos que um modelo recebe dados de entrada. Em seguida, ele cria novas regras e classes por conta própria. Vamos entender melhor como ele faz isso.

Rótulos

O pré-treinamento é como uma escola. O modelo aprende as noções básicas de como processar informações e “pensar”. Quando o pré-treinamento é concluído, o modelo aprendeu conosco todos os tipos de classes e regras rotuladas. Durante esse estágio, fornecemos ao modelo classes e rótulos. Quando ele se formar, já saberá como aprender. Não precisamos continuar alimentando-o como fazíamos no início.

Nosso modelo não espera que forneçamos rótulos. Lembra-se de nosso exemplo do cavalo e da zebra? O modelo cria as classes e as rotula sem a nossa ajuda. Isso nos poupa um tempo precioso de treinamento e permite que o modelo pratique algum nível de autonomia.

Aprendizagem por transferência

Os modelos fazem inferências. Quando nosso modelo treinado em cavalos aprender a usar a zebra, ele transferirá muitas (se não todas) das regras existentes da classe dos cavalos para a nova classe das zebras. O aprendizado é transferido de uma parte do modelo para a outra.

Imagine que você treina um modelo para extrair dados de hotéis do Google (você pode aprender a fazer isso manualmente aqui). Em seguida, você o ensina a extrair dados do Booking.com (você pode aprender a extraí-los manualmente aqui). Quando o modelo extrair os dados do Booking.com, ele usará seu conhecimento sobre os hotéis do Google para ajudá-lo a extrair os novos hotéis do Booking.com.

Raciocínio

A capacidade de raciocínio é o cerne do aprendizado zero. Quando você foi jogado em um emprego terrível, sem treinamento ou experiência, como sobreviveu? Provavelmente, você descobriu isso usando o raciocínio e o bom senso. Imagine que damos ao nosso bebê com IA um conjunto de dados “Ver e Dizer”. Estabeleceríamos uma classe e regras para cada classe. Pense: “A vaca diz mugido!”. Criaríamos uma classe de vaca e escreveríamos a regra de que ela diz “mugido”.

Quando nossa IA tiver crescido, não precisaremos fazer isso. Nosso modelo vê a foto de uma galinha com legendas ruins como “cluck” (cacarejar) ou “feathers” (penas). Usando essas dicas simples, o modelo pré-treinado descobre que se trata de uma galinha. Em seguida, ele cria uma classe de galinha com regras como “cluck” e “feathers”. Quando raciocina, nosso modelo usa o bom senso e a inteligência das ruas para resolver problemas do mundo real (não importa o quanto estejam relacionados à fazenda).

Modelos de base pré-treinados

Na verdade, nosso modelo começa de forma muito semelhante a um bebê recém-nascido. Ele é completamente indefeso e não pode fazer nada por si mesmo. O pré-treinamento é como o nosso modelo cresce e passa a pensar por si mesmo. Antes de poder aprender usando o zero-shot, o modelo precisa “aprender a aprender”.

Todos os seres humanos fazem isso quando estão crescendo. Primeiro, aprendemos a nos alimentar. Depois, aprendemos a comer alimentos sólidos e a nos sentar. Por volta de um ano de idade, aprendemos a andar e a falar. Em vez de aprender a andar, falar e usar o penico, os modelos de IA começam aprendendo coisas básicas como matemática e processamento de linguagem. Em seguida, eles aprendem a ingerir dados.

Depois que um modelo sabe como processar dados, nós o alimentamos com todos os dados que podemos encontrar. Em seguida, alimentamos o modelo com mais dados! Eventualmente, ele aprende a acessar suas próprias classes internas. Quando o modelo puder ler e gravar classes, ele começará a fazer generalizações que evoluem para o raciocínio ao longo do tempo. Com um pré-treinamento eficaz, os modelos podem usar o zero-shot para aprender de forma independente.

Métodos de aprendizado zero-shot

Do lado de fora, o aprendizado de tiro zero parece mágica. Mas, como em qualquer truque de mágica, tudo isso é uma ilusão. Os modelos de IA dependem de um conjunto muito específico de habilidades. Os dados brutos são coletados e convertidos em respostas reais que podemos ler ou ouvir. Vamos ver o que acontece antes de o coelho ser tirado da cartola.

Atributos

Nosso modelo decifra diferentes animais usando características ou atributos. Os atributos são tão simples quanto parecem. Quando nosso modelo observa uma imagem com uma variedade de animais, ele usa suas características para descobrir o que é o quê.

  • Cavalo: Zumbido, 4 patas, cascos.
  • Frango: Piu-piu, 2 pernas, asas.
  • Vaca: Moo, 4 pernas, cascos.

Os atributos permitem que a máquina faça suposições fundamentadas, da mesma forma que um ser humano faria.

Embeddings

As máquinas não veem os dados da mesma forma que você e eu. Em vez disso, elas mantêm listas numéricas de dados chamadas matrizes. Vamos supor que queremos representar nossos atributos de cavalo, galinha e vaca como números.

Animal Som Pernas Recursos
Cavalo Vizinho 4 Cascos
Frango Cluck 2 Asas
Vaca Moo 4 Cascos

Cada linha dessa tabela pode ser representada como uma lista.

  • Cavalo: [Neigh, 4, Hooves]
  • Galinhas: [Cluck, 2, Wings]
  • Vaca: [Moo, 4, Hooves]

No entanto, as listas acima ainda não são legíveis por máquinas. As máquinas são excelentes quando entendem números. Para sons, codificaremos 1, 2 e 3 para representar “relinchar”, “cacarejar” e “mugir”. Como só temos dois recursos com que nos preocupar (cascos e asas), 1 representará cascos e 2 representará asas.

Veja como nosso modelo pode ver essas informações.

  • Cavalo: [1, 4, 1]
  • Frango: [2, 2, 2]
  • Vaca: [3, 4, 1]

Ao incorporar nossos dados usando números, os modelos de IA podem processá-los com eficiência para descobrir relacionamentos e regras. Essa é a base de suas habilidades de generalização e raciocínio. Saiba mais sobre embeddings em ML.

Gerador

Os modelos inventam novas classes do nada. Os métodos generativos permitem que o modelo chegue a uma conclusão observando as relações nos atributos incorporados. Quando nosso modelo identifica a zebra sem treinamento, isso é generativo. O modelo viu que se tratava de um cavalo listrado. Em seguida, gerou a conclusão de que um cavalo listrado é uma zebra.

Se você estiver coletando dados de hotéis, mas não tiver uma classificação, um modelo de IA poderá gerar uma com base nas informações fornecidas. Os modelos de IA usam sua imaginação para gerar novos dados. O modelo pode decidir que, se um quarto tem uma cama grande e uma banheira de hidromassagem, ele tem 5 estrelas. Isso é incrivelmente poderoso, mas também pode levar a alucinações.

Ao usar métodos generativos, é importante ter cuidado. É ótimo se um modelo puder atribuir classificações de hotéis. Se você perguntar ao seu modelo: “Qual foi a última coisa que Confúcio escreveu em 2025?” Confúcio está morto há milhares de anos, mas os modelos de IA raramente lhe dirão “não sei”. É possível que você receba uma resposta como a que está abaixo.

ChatGPT Saída alucinatória

O resultado acima é, na verdade, mais taoista do que confucionista. As IAs modernas têm proteções muito fortes contra alucinação. Na verdade, tive que dar permissão ao ChatGPT para aluciná-lo! Se você quiser fazer experiências com a imaginação de um modelo, diga a ele para ficar “completamente desequilibrado” e observe-o cair na loucura total.

Aprendizagem Contrastiva

Como uma IA consegue distinguir um gato de um cachorro sem treinamento? A resposta está no aprendizado contrastivo. Abaixo, dividimos cão e gato em atributos, como fizemos com outros animais anteriormente.

  • Cão: Woof, 4 pernas, patas
  • Gato: Miau, 4 pernas, patas

Os animais acima são quase idênticos, mas não exatamente. Esses animais emitem sons contrastantes. O cachorro diz “woof”, enquanto o gato diz “meow”. O modelo converte esses dados em números. Em seguida, ele encontra rapidamente a diferença entre os dois animais. Usando o tiro zero, os modelos de IA filtram rapidamente seus embeddings em busca de informações contrastantes.

Engenharia imediata

A engenharia imediata é a arte de conversar com a IA. Quando você sabe o que dizer, pode fazer com que o modelo gere o resultado exato que você deseja. Em um artigo anterior sobre raspagem da Web com o Claude, usei o seguinte prompt.

"""Hello, please parse this chunk of the HTML page and convert it to JSON.  Make sure to strip newlines, remove escape characters, and whitespace:  {response.text}"""

O prompt é claro e o modelo sabe exatamente o que eu quero que ele faça. Ele exibe uma lista de citações da página. Aqui está apenas um trecho dela.

"quotes": [
    {
      "text": "The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.",
      "author": "Albert Einstein",
      "tags": ["change", "deep-thoughts", "thinking", "world"]
    },
    {
      "text": "It is our choices, Harry, that show what we truly are, far more than our abilities.",
      "author": "J.K. Rowling",
      "tags": ["abilities", "choices"]
    },

Se eu não tivesse especificado o formato de dados, ele provavelmente me forneceria toda a saída em formato de texto simples. O texto simples é bom para a legibilidade humana, mas se você estiver escrevendo um programa, é muito melhor trabalhar com JSON. O modelo me dá o que eu quero porque eu escrevi o prompt para gerar exatamente o que eu quero. A engenharia de prompts controla a saída generativa para que seja factual e formatada corretamente.

Desafios e limitações do aprendizado zero

O aprendizado com tiro zero tem um preço. Como mencionamos anteriormente, o zero-shot deixa espaço para alucinações. Os modelos de IA não gostam de dizer “não sei” nem de admitir quando estão errados.

Para nos protegermos contra alucinações, dependemos muito do pré-treinamento. Os dados de treinamento são caros e geralmente bagunçados. Se você mesmo estiver coletando os dados, precisará criar um pipeline de ETL. ETL significa “Extrair, Transferir, Carregar”. Em escala, o ETL não é uma tarefa fácil. Você precisa extrair terabytes e mais terabytes de dados relevantes. Em seguida, você precisa limpá-los e formatá-los (transferir). Por fim, você os carrega no modelo. Saiba mais sobre as armadilhas da IA.

Aqui na Bright Data, oferecemos conjuntos de dados limpos e pré-fabricados. Eles podem levar seu pré-treinamento para o próximo nível e economizar horas (até mesmo dias) de extração, limpeza e formatação. Dê uma olhada em nossos conjuntos de dados estruturados.

Conclusão

O aprendizado zero-shot está revolucionando a IA ao permitir que os modelos processem novas informações sem treinamento prévio. Com o aumento da adoção da IA, essa técnica se tornará ainda mais essencial em todos os setores.

Pronto para potencializar sua IA com dados de alta qualidade? Inicie sua avaliação gratuita com a Bright Data e acesse conjuntos de dados de primeira linha hoje mesmo!

Não é necessário cartão de crédito