VLAs e World Models Precisam de Dados em Escala Web. Só Que Não os Mesmos Dados

Cinco conclusões do nosso painel sobre VLA: por que o pré-treinamento em escala web, a velocidade de curadoria e a proveniência dos dados definem a corrida para construir robôs no mundo real.
11 min de leitura

Um resumo da noite de VLA no web data loft.

Reunimos engenheiros da Agility Robotics, Tesla, Prometheus e Distill Labs no Web Data Loft da Bright Data em San Francisco para discutir uma questão:

O que realmente é necessário para passar de um modelo de linguagem para um robô que funciona no mundo real?

A resposta foi mais concreta do que o hype sugere. O gargalo não está apenas na arquitetura do modelo. Está no corpus de treinamento: o que você coleta, como mistura, de onde vem e se é possível curá-lo em uma escala que nenhuma equipe manual consegue alcançar.

No painel estavam Sri e Ahmed da Agility Robotics, Ankur, engenheiro de ML em robótica falando em capacidade pessoal, Daniel da Prometheus, ex-1X e Waymo, e Jacek, cofundador da Distill Labs. A conversa foi moderada por Adam do HackerSquad e do Builders Collective.

Abaixo estão os cinco pontos principais que importam se você está desenvolvendo um modelo Vision-Language-Action, um world model ou o pipeline de dados por trás de um.

1. Um VLA é um VLM com um cabeçalho de ação, e sua generalização vem do pré-treinamento em escala web

A definição de trabalho do painel era simples: um VLA começa como um modelo de visão-linguagem treinado em textos e imagens em escala de internet, em tarefas como legendagem, segmentação e compreensão de objetos. Em seguida, adiciona-se um componente de ação e faz-se o ajuste fino com dados robóticos.

Essa distinção é importante. Os dados robóticos ensinam a execução. O pré-treinamento em escala web ensina ao modelo o que é o mundo.

É por isso que um VLA às vezes consegue pegar um objeto para o qual nunca foi explicitamente treinado. A generalização não vem apenas de um pequeno conjunto de demonstrações robóticas teleoperadas. Ela vem de uma ampla exposição visual e semântica antes de o robô entrar no ciclo.

Se o seu corpus de pré-treinamento for restrito, nenhuma quantidade de dados caros de teleoperação recupera totalmente a generalização que foi ignorada.

“É treinado em dados de texto e imagens em escala de internet… depois você faz o ajuste fino do VLM em dados robóticos e obtém um modelo visão-linguagem-ação. O bom é que ele tem melhor generalização: se você o treina para pegar um certo objeto, pode pedir que pegue um objeto diferente, porque já viu coisas semelhantes.”
Ankur, engenheiro de ML em robótica, falando em capacidade pessoal. Assistir aos 9:59 →

📖 Leitura relacionada: O que é um Modelo Visão-Linguagem (VLA)? · Melhores Bibliotecas de IA para Robótica · Foundation Models explicados

2. Visão, linguagem e ação estão convergindo para um único espaço de tokens

Os VLAs modernos se assemelham cada vez mais aos LLMs em um aspecto importante: eles preveem o próximo token.

Esse token pode ser uma palavra, um patch de imagem ou um comando de controle no espaço de juntas. Como Jacek, cofundador da Distill Labs, explicou, a conexão com agentes de software é direta. Um LLM chama ferramentas via API. Um VLA chama ferramentas físicas. O contexto muda de “chamar um endpoint” para “pegar o copo”, mas o padrão subjacente é semelhante.

A implicação é poderosa: toda modalidade que pode ser tokenizada pode fazer parte do mesmo espaço de treinamento. Vídeo da web, filmagens egocêntricas, demonstrações humanas, teleoperação e dados robóticos on-policy podem contribuir para uma representação compartilhada.

A restrição passa então de “o modelo consegue usar isso?” para “conseguimos obter os exemplos certos na escala certa?”

“Você pode pensar no seu espaço de ação como chamadas de função para LLMs… você divide assim e não é diferente do que as pessoas constroem para o mundo não físico, agentes que ativam subagentes em um contexto que expõe ferramentas. Agora o contexto é mais físico. É isso que o torna poderoso, porque você pode contar com dados de treinamento da web para obter um bom ponto de partida.”
Jacek, cofundador, Distill Labs. Assistir aos 15:14 →

📖 Leitura relacionada: Tokenização explicada · Por Dentro do Tech Stack de Agentes de IA · Como Construir Agentes de IA: Roteiro Completo

3. VLAs e world models precisam de dados diferentes; confundir os dois é custoso

Uma das distinções mais marcantes da noite foi entre o treinamento de VLA e o treinamento de world model.

Como Ankur enquadrou, um VLA é essencialmente um problema de aprendizado por imitação. Você quer trajetórias limpas, bem-sucedidas e de alta qualidade. Demonstrações ruins podem prejudicar.

Um world model é diferente. Ele precisa prever o que acontece a seguir dado uma ação, o que significa que deve entender não apenas resultados bem-sucedidos, mas também erros, casos extremos e falhas. Se você quer usar um world model para planejamento ou como simulador aprendido para aprendizado por reforço, ele precisa representar toda a gama de futuros possíveis.

Daniel, engenheiro na Prometheus que anteriormente liderou trabalhos com world models na 1X, explicou por que isso é difícil. Muitos world models atuais são tendenciosos em direção a resultados bem-sucedidos. Quando mostrados uma trajetória prestes a falhar, podem alucinar uma recuperação em vez de modelar o erro. Em robótica, isso é especialmente perigoso. O modelo precisa ser controlável por ação precisamente nos momentos em que contato, apreensão e falha são mais prováveis.

A conclusão: “dados de robótica” não é um balde genérico. Políticas de imitação e world models requerem corpora deliberadamente diferentes.

“Você realmente quer um world model que seja muito controlável por ação… o momento decisivo quando você está apreendendo um objeto. Se houver lacunas ali, é um sinal muito ruim.”
Daniel, Prometheus, ex-1X. Assistir aos 35:36 →

📖 Leitura relacionada: O que é Treinamento de Modelo de IA? · Alucinação de IA explicada · Conjuntos de dados de robótica

4. A hierarquia de dados é real: dados da web dão amplitude, dados robóticos dão controle

Ahmed, engenheiro na Agility Robotics, apresentou uma hierarquia clara de sinal.

Os dados de teleoperação contêm as informações de controle mais fortes porque incluem o estado completo do robô. Demonstrações humanas e vídeos egocêntricos carregam menos sinal de controle direto. O vídeo da web carrega o menor sinal na camada de controle de baixo nível.

Mas isso não torna os dados da web menos importantes. Torna seu papel diferente.

O vídeo em escala web ensina semântica, contexto, estrutura de tarefas, diversidade de objetos e conhecimento geral do mundo. Ajuda o modelo a entender como salas, ferramentas, pessoas, objetos e metas se parecem em enorme variação. O que não ensina bem é a física refinada de um corpo robótico específico executando uma ação específica.

Ankur deu a analogia mais clara: você pode assistir a todos os vídeos de Messi ou Ronaldo já gravados e entender profundamente o futebol, mas ainda assim não consegue jogar sem praticar. Os dados da web ensinam o jogo. Os dados on-robot ensinam o corpo.

O insight prático sobre orçamento de dados veio da mesma troca: uma hora de dados da web pode fornecer aproximadamente o valor transferível de cinco minutos de dados de teleoperação. Os dados da web não substituem a teleop, mas um pré-treinamento forte em escala web pode reduzir a quantidade de dados robóticos caros necessários para alcançar uma execução confiável.

“Podemos assistir a muitos vídeos de futebol do Messi ou do Ronaldo, mas até praticarmos nós mesmos não conseguimos jogar de verdade. O entendimento da tarefa obtemos dos dados da web. Para realmente executá-la, precisamos de dados on-robot… talvez uma hora de dados da web equivalha a cinco minutos de dados de teleop.”
Ankur, engenheiro de ML em robótica, falando em capacidade pessoal. Assistir aos 1:01:09 →

📖 Leitura relacionada: Dados para IA em vídeo · Conjunto de Dados de Vídeos do YouTube · Conjuntos de Dados de Áudio para IA · Conjuntos de Dados de Imagens

5. Ainda não existem leis de escalonamento confiáveis, então a velocidade de curadoria se torna a vantagem

Para LLMs, o setor conta com as leis de escalonamento de Kaplan e Chinchilla. Para VLAs e world models, Daniel foi direto: a robótica ainda não chegou lá.

As equipes ainda não conseguem prever de forma confiável o desempenho do robô como função limpa de tokens da web, horas de teleop, dados de implantação, computação ou tamanho do modelo. Parte do desafio é que o aprendizado por imitação e a modelagem de mundo usam sinais de supervisão diferentes. Outro é que a métrica que importa é o sucesso na tarefa downstream, não a perda de pré-treinamento.

Daniel também traçou um contraste útil com a simulação de veículos autônomos. Na direção autônoma, a simulação frequentemente para quando ocorre contato. Em robótica, o contato é onde começa a complexidade real. Apreender, empurrar, escorregar, deformar, colidir e se recuperar não são casos extremos. São a tarefa.

Até que melhores leis de escalonamento surjam, a vantagem vai para as equipes que conseguem encontrar e curar os exemplos certos mais rapidamente: cenas específicas, famílias de tarefas, interações com objetos, falhas e momentos ricos em contato. Isso não é apenas um desafio de modelagem. É um desafio de descoberta e de pipeline de dados.

“Responder às leis de escalonamento em relação a contagens de flops ou tokens é comum para LLMs, Kaplan et al., as leis de escalonamento Chinchilla. Não estamos realmente fazendo essas perguntas para comparar cientificamente VLAs e world models hoje… Acho que a resposta é que ainda não chegamos lá, e realmente deveríamos chegar.”
Daniel, Prometheus, ex-1X e Waymo. Assistir aos 54:35 →

📖 Leitura relacionada: Descoberta de Dados · Melhores Provedores de Dados para Treinamento de IA · Dados de Treinamento para LLM

O que isso significa para sua estratégia de dados em robótica

O painel convergiu para uma conclusão clara:

Dados em escala web dão aos robôs uma compreensão ampla do mundo. Dados on-robot ensinam como agir nele. Quanto melhor for seu corpus de pré-treinamento, menos dados robóticos caros você precisa para alcançar uma execução confiável.

Agir com base nisso requer três capacidades que a maioria das equipes subestima:

🌐 Extração em escala web

Coleta de vídeo, imagem e áudio em escala de petabytes da web aberta, não apenas conjuntos de dados acadêmicos congelados com taxonomias desatualizadas. Veja a infraestrutura de coleta de dados em escala web da Bright Data e as soluções de dados personalizadas.

A diversidade de tarefas mais valiosa frequentemente aparece em cenas que nunca são descritas em um título, tag ou legenda. A busca por palavras-chave perde grande parte da cauda longa. Explore a descoberta visual e semântica via Discover API.

⚖️ Proveniência defensável

Modelos de texto treinam em trilhões de tokens. VLAs treinam em trilhões de frames. Cada frame pode carregar uma questão de licenciamento e proveniência, e a implantação de robôs no mundo real eleva as apostas. Saiba mais em nosso Trust Center e em nossas diretrizes de coleta ética de dados.

Os modelos estão convergindo. O diferencial está se tornando o corpus: quão amplo é, quão relevante é e se você consegue defender de onde veio.

Desenvolvendo um VLA ou world model?

Fale com nossa equipe → sobre descoberta e obtenção de vídeo de treinamento em escala web.

Saiba mais sobre a Bright Data para IA, explore nossa oferta de dados de vídeo para VLAs ou navegue pelos nossos conjuntos de dados prontos para robótica, visão computacional e treinamento multimodal.