AI

Rastreador de visibilidade de IA de código aberto e como os Scrapers LLM da Bright Data tornaram isso possível

Saiba como o GEO/AEO Tracker, um software gratuito e de código aberto, usa os LLM Scrapers da Bright Data para monitorar a visibilidade da marca em seis plataformas de IA.
15 min de leitura
Open-Source AI Visibility Tracker

Modelos de IA agora respondem às perguntas que seus clientes costumavam fazer no Google. Se sua marca não estiver nessas respostas, você está praticamente invisível e provavelmente nem sabe disso. Eu criei uma ferramenta gratuita e de código aberto para rastrear exatamente isso. Aqui está o que aprendi e por que as APIs Scraper da Bright Data foram a única infraestrutura capaz de fazer isso funcionar.

Resumo rápido:

  • O GEO/AEO Tracker é um painel de visibilidade de IA gratuito e de código aberto que rastreia 6 modelos de IA simultaneamente.
  • Ele usa os LLM Scrapers da Bright Data para consultar o ChatGPT, o Gemini, o Perplexity, o Grok, o Copilot e o Google AI Mode.
  • A Bright Data fornece resultados estruturados (citações, fontes, texto da resposta) por modelo, por meio de um único padrão de API.
  • Ferramentas empresariais pagas cobram de US$ 200 a US$ 600 por mês e bloqueiam seus dados; essa pilha custa frações de um centavo por consulta, com todos os dados permanecendo locais.
  • O SRO Pipeline utiliza a API SERP, o Web Unlocker e os LLM Scrapers da Bright Data em um fluxo de trabalho completo.
  • Todos os dados permanecem em seu próprio ambiente. Sem dependência de fornecedores, sem banco de dados externo.

O problema GEO que ninguém resolveu totalmente ainda

O ChatGPT ultrapassou 900 milhões de usuários ativos semanais no início de 2026. As visões gerais de IA do Google agora aparecem em cerca de 16% de todas as pesquisas. E o tráfego proveniente de mecanismos de busca com IA converte 23 vezes melhor do que os visitantes orgânicos tradicionais. A Ahrefs confirmou isso com seus próprios dados, descobrindo que 0,5% de seu tráfego proveniente de fontes de IA gerou 12,1% de todas as inscrições.

A McKinsey projeta que US$ 750 bilhões em receita nos EUA passarão por pesquisas impulsionadas por IA até 2028. Isso não é uma previsão sobre algum estado futuro. Já está acontecendo, consulta por consulta, toda vez que alguém pergunta ao ChatGPT “qual CRM devo usar?” ou ao Perplexity “quem faz o melhor software de gerenciamento de projetos?”

Não é possível otimizar o que não se pode medir. E medir a visibilidade da IA tem sido muito caro, muito limitado ou ambos.

O que eu criei: o GEO/AEO Tracker em 60 segundos

O GEO/AEO Tracker é um painel de inteligência de visibilidade de IA de código aberto e com prioridade local. Você pode experimentar a demonstração ao vivo agora mesmo, sem precisar de uma chave de API.

Ele rastreia sua marca no ChatGPT, Perplexity, Gemini, Grok, Google IA Mode e Microsoft Copilot simultaneamente, em paralelo, com todos os dados armazenados localmente no seu navegador via IndexedDB. Sem banco de dados externo. Sem dependência de fornecedor.

13 recursos, 6 modelos de IA, zero dependência de fornecedores

Criei isso porque sempre me deparava com o mesmo problema: todas as ferramentas que eu avaliava ou custavam muito caro, me prendiam ao ecossistema delas ou não cobriam modelos suficientes. Então, criei o que eu queria usar.

Os recursos mais importantes para o acompanhamento de marcas no mundo real:

O Prompt Hub executa qualquer prompt em todos os 6 modelos de uma só vez. Para uma equipe de marketing de produto que monitora consultas competitivas, essa é a diferença entre realizar 6 experimentos separados e realizar apenas um. Você pode gerenciar uma biblioteca completa de prompts, usar a injeção {brand} para substituição dinâmica e acionar execuções em lote, tudo em paralelo.

O Visibility Analytics fornece uma pontuação de 0 a 100 com base na taxa de menção da marca, posição nas respostas, frequência de citação e sentimento ao longo do tempo. Esse é o KPI que os CMOs podem reportar à alta administração sem precisar de uma explicação de 20 slides. Também é exportável como CSV.

O Citation Opportunities é o recurso do qual mais me orgulho. Ele mostra quais URLs dos concorrentes são citadas em lugares onde você não aparece. Trata-se de uma lacuna de conteúdo direta e um feed de inteligência para construção de links, fornecido automaticamente.

A Análise SRO (mais detalhes abaixo) é um pipeline de 6 etapas que avalia o quão bem uma página específica está otimizada para resultados de pesquisa de IA, de 0 a 100, com recomendações priorizadas e acionáveis. Ela utiliza vários produtos da Bright Data em um único fluxo de trabalho.

Os Alertas de Desvio são acionados automaticamente quando sua pontuação de visibilidade muda significativamente. Uma mudança na reputação da marca nas respostas da IA pode se agravar rapidamente. Saber disso em poucos dias é muito diferente de saber na sua revisão mensal.

Por que a Bright Data foi a única base viável

Essa é a parte da história de desenvolvimento que a maioria das pessoas ignora, mas é exatamente por isso que a ferramenta funciona com qualidade de produção, em vez de quebrar toda semana.

O desafio do scraping que ninguém menciona

ChatGPT, Perplexity, Gemini, Grok, Google IA Mode e Copilot são todos:

  • Totalmente renderizados em JavaScript. Uma simples solicitação HTTP não retorna nada útil.
  • Bloqueados agressivamente por bots. Eles detectam padrões de tráfego automatizados e os rejeitam. As técnicas anti-scraping mais comuns — que incluem impressão digital do navegador, desafios CAPTCHA e análise comportamental — estão todas em ação simultaneamente nessas plataformas.
  • Estruturalmente diferentes umas das outras. Cada plataforma retorna dados em um formato diferente. O Perplexity usa markdown com fontes embutidas. O Gemini retorna citações como uma matriz estruturada separada. O Grok possui um campo response_raw ao lado de answer_text_markdown.
  • Dependentes de geolocalização. O mesmo prompt pode retornar respostas e citações diferentes dependendo do país de onde a solicitação parece vir.

Construir e manter Scrapers para todas as seis plataformas do zero exigiria infraestrutura de Proxies residenciais, Resolução de CAPTCHA, gerenciamento de sessão, normalização de respostas entre modelos, polling para respostas assíncronas e manutenção contínua sempre que uma plataforma atualiza sua estrutura. São meses de trabalho de engenharia antes mesmo de você escrever uma única linha de lógica de rastreamento.

A Bright Data reduz tudo isso a uma única chamada de API por modelo.

Seis Scrapers, uma chave de API: como funciona no código

A integração principal em brightdata-scraper.ts segue um padrão simples e repetível em todos os seis provedores:

// Passo 1: POST para o endpoint dos Conjuntos de dados da Bright Data
const scrapeResponse = await fetch(
  `https://api.brightdata.com/datasets/v3/scrape?dataset_id=${datasetId}&format=json`,
  {
    method: "POST",
    headers: { Authorization: `Bearer ${BRIGHT_DATA_KEY}`, "Content-Type": "application/json" },
    body: JSON.stringify({
      input: [{ url: providerBaseUrl[provider], prompt: request.prompt, index: 1 }]
    }),
  }
);

// Etapa 2: Tratar a resposta assíncrona — verificar se o snapshot está pronto
if (scrapeResponse.status === 202) {
  const { snapshot_id } = await scrapeResponse.json();
  await monitorUntilReady(snapshot_id); // verifica /progress/{id} a cada 2 segundos
  payload = await downloadSnapshot(snapshot_id); // GET /snapshot/{id}?format=json
}

// Etapa 3: Normalizar o resultado
const answer = normalizeAnswer(record); // lida com todos os 6 formatos de modelo
const sources = extractSourcesFromAnswer(answer); // mescla texto + citações estruturadas

Todos os modelos utilizam esse mesmo padrão. A única coisa que muda é o dataset_id, uma variável de ambiente por provedor: BRIGHT_DATA_DATASET_CHATGPT, BRIGHT_DATA_DATASET_PERPLEXITY e assim por diante.

Essa é a arquitetura: um padrão de integração, seis modelos, saída estruturada consistente sempre.

Como é a saída estruturada na prática

Cada Scraper da Bright Data retorna campos específicos do modelo. A função normalizeAnswer() lida com as diferenças de formato entre os modelos para que o restante da aplicação veja uma interface consistente:

Modelo Campos-chave retornados
ChatGPT answer_text, links_attached, citations, recommendations, country
Perplexity answer_text_markdown, sources, source_html, is_shopping_data
Gemini texto_da_resposta, citações, links_anexados, índice, país
Grok texto_da_resposta, texto_da_resposta_markdown, citações, resposta_bruta
Modo IA do Google texto_da_resposta, citações, links_anexados, índice, país
Copilot texto_da_resposta_markdown, fontes, seção_da_resposta_html, índice

A camada de normalização verifica primeiro o answer_text, recorre ao answer_text_markdown, depois ao response_raw e, por fim, realiza uma extração recursiva profunda no registro bruto. A Bright Data lida com a complexidade específica da plataforma; o aplicativo lida com a normalização entre plataformas. Separação clara de responsabilidades.

O Pipeline SRO: a pilha completa da Bright Data em um único recurso

A Análise SRO é o recurso tecnicamente mais complexo do rastreador e também a demonstração mais clara do que a infraestrutura da Bright Data permite em escala.

A ideia: avaliar o quão bem uma página específica está otimizada para resultados de pesquisa de IA, de 0 a 100, com recomendações concretas. O pipeline de seis etapas por trás dessa pontuação:

Etapa 1: Gemini Grounding. Utiliza a API do Google Gemini para compreender como os sistemas de IA percebem a página, incluindo seu tema, sinais de autoridade e estrutura de conteúdo.

Etapa 2: Citações entre plataformas. Chama todos os 6 Scrapers LLM da Bright Data em paralelo via scrapeAllPlatforms() para verificar se a URL ou domínio de destino é citado quando a palavra-chave relevante é pesquisada no ChatGPT, Perplexity, Gemini, Grok, Google AI Mode e Copilot.

Etapa 3: Análise de SERP. Utiliza a API SERP da Bright Data para extrair dados de classificação orgânica para a palavra-chave. Se a página estiver em primeiro lugar na classificação orgânica, mas não for citada em nenhuma resposta de IA, isso representa uma lacuna GEO que vale a pena destacar.

Etapa 4: Scraping de Páginas. Utiliza o Web Unlocker da Bright Data para buscar o conteúdo real da página e analisar sua estrutura, profundidade, densidade de BLUF, hierarquia de títulos e marcação de esquema. Sem paywall, sem bloqueio de bots.

Etapa 5: Contexto do site. Utiliza novamente o Web Unlocker da Bright Data para extrair a página inicial e identificar sinais de autoridade da marca que os sistemas de IA usam ao decidir se devem citar uma fonte.

Etapa 6: Análise de LLM. Sintetiza tudo o que foi mencionado acima em uma pontuação SRO final, além de uma lista de recomendações priorizadas: o que corrigir primeiro, quais lacunas de conteúdo existem e onde os concorrentes estão superando você em citações de IA.

Um recurso. Seis integrações de produtos da Bright Data. O resultado é um fluxo de trabalho de auditoria que levaria meses para uma equipe corporativa construir do zero, e esse é o ponto.

Casos de uso corporativo: o que as empresas estão realmente fazendo com isso

O rastreador é de código aberto, mas a infraestrutura na qual ele se baseia (as APIs LLM Scraper da Bright Data) é o que se adapta às cargas de trabalho reais das empresas. Veja como isso funciona na prática.

Monitoramento da reputação da marca em escala

Um diretor de marketing de uma empresa de SaaS de médio porte precisa saber: quando um usuário pergunta ao ChatGPT “em qual [categoria de produto] devo confiar?”, o que ele responde? A resposta é precisa? O sentimento é positivo? Ele ao menos menciona a marca?

Sem uma ferramenta de monitoramento, você só descobre três meses depois, quando um cliente em potencial lhe diz que perguntou a uma IA e ela recomendou um concorrente. Com o rastreador, você executa semanalmente um lote de prompts sensíveis à reputação, alertas de desvio são acionados quando o sentimento muda, e a guia “Oportunidades de Citação” mostra exatamente qual conteúdo produzir ou quais backlinks obter para alterar a resposta da IA. Para equipes que desejam se aprofundar, há um passo a passo detalhado sobre como criar um fluxo de trabalho automatizado de monitoramento da reputação da marca usando o SDK da Bright Data.

Inteligência competitiva para equipes de vendas

As equipes de capacitação de vendas e marketing de produto enfrentam um problema específico: os concorrentes estão aparecendo nas respostas da IA para consultas que deveriam pertencer a elas. Elas não sabem quais consultas, quais modelos, por que isso acontece ou o que fazer a respeito.

A guia “Competitor Battlecards” gera comparações lado a lado, alimentadas por IA, entre sua marca e qualquer concorrente. A análise de lacunas de citação mostra exatamente quais URLs o concorrente é citado e onde você não é. Esse era o tipo de inteligência que as agências cobravam US$ 50 mil por ano para produzir.

Estratégia GEO para equipes multimarcas ou agências

Uma agência que gerencia 12 marcas não pode arcar com US$ 500/mês por marca para o rastreamento de visibilidade por IA. A conta não bate.

O suporte a múltiplos espaços de trabalho do rastreador e o modelo BYOK (Bring Your Own Key) significam que você paga apenas pelo uso da API da Bright Data. A US$ 1,50 por 1.000 registros no modelo pay-as-you-go, executar um lote de rastreamento semanal completo em 10 prompts e 6 modelos custa frações de um dólar por marca. Dez marcas rastreadas por menos do que o custo de uma licença de SaaS.

Auditorias técnicas de GEO para clientes de SEO

Quando clientes de SEO perguntam “estamos otimizados para GEO?”, a resposta honesta, sem ferramentas, é vaga. A Análise SRO muda isso. Ela fornece uma pontuação de 0 a 100 por página com uma lista de prioridades concreta: corrigir a marcação de esquema, melhorar a densidade de BLUF no parágrafo inicial, obter citações desses três domínios. É a diferença entre uma auditoria que diz “a otimização por IA é importante” e outra que diz “aqui estão as cinco coisas a fazer esta semana”. Se você quiser ver como esse tipo de fluxo de trabalho de otimização GEO com múltiplos agentes pode ser construído de ponta a ponta, o guia de otimização de conteúdo GEO e SEO com a CrewAI explica exatamente isso.

Requisitos de soberania de dados

As equipes jurídicas e de compras corporativas têm uma preocupação legítima: elas não podem enviar dados de rastreamento de marca para os servidores de um fornecedor SaaS terceirizado. Isso bloqueia a adoção de quase todas as ferramentas GEO comerciais no nível corporativo.

A arquitetura “local-first” do rastreador (IndexedDB + localStorage) significa que a Bright Data fornece dados estruturados via API, e a empresa decide para onde eles vão. A própria Bright Data é compatível com SOC 2 Tipo II, ISO 27001, GDPR e CCPA, portanto, passa nas avaliações de segurança corporativas. O fluxo de dados é limpo: resposta estruturada recebida, armazenamento local, sem intermediários.

O que isso significa se você quiser construir algo semelhante

O rastreador é uma aplicação das APIs LLM Scraper da Bright Data. A infraestrutura em que ele roda é de uso geral.

Se você está criando um painel de monitoramento de IA, uma ferramenta de inteligência de marca, um produto de pesquisa competitiva ou qualquer aplicação que precise consultar modelos de IA em escala e obter dados estruturados, os blocos de construção são os mesmos. Para contextualizar o que está disponível para esses casos de uso, a comparação das principais APIs SERP e de pesquisa na web abrange bem o panorama. A rede da Bright Data de mais de 150 milhões de IPs residencialis em 195 países significa que as plataformas de IA veem tráfego real de usuários. O tempo de atividade de 99,99% significa que seus pipelines automatizados não falham silenciosamente em uma terça-feira de manhã. O processamento de solicitações em massa de até 5.000 URLs significa que você pode executar rastreamento em lote em escala empresarial em uma única operação. A entrega de resultados para S3, GCS, Snowflake, Azure e SFTP significa que os dados são enviados diretamente para qualquer pilha que você já tenha.

Se você também está considerando as melhores estruturas de agentes de IA para orquestrar esses Scrapers em um pipeline totalmente autônomo, esse é o próximo passo natural. Todas as principais estruturas se integram diretamente com a Bright Data.

A questão não é se você deve rastrear a visibilidade da IA. É com que rapidez você pode implementar a infraestrutura necessária para agir com base no que encontrar.

Comece a usar os scrapers LLM da Bright Data

Se você quiser executar sua própria instância do GEO/AEO Tracker, clone o repositório e adicione sua chave de API da Bright Data. Você estará pronto em menos de 10 minutos:

git clone https://github.com/danishashko/geo-aeo-tracker.git
cd geo-aeo-tracker && npm install
# Adicione BRIGHT_DATA_KEY + 6 IDs de Conjuntos de dados ao .env
npm run dev

Os seis IDs de conjuntos de dados dos scrapers da Bright Data (para a API do ChatGPT Scraper, Perplexity Scraper, Gemini Scraper, Grok Scraper, Google AI Mode Scraper e Copilot Scraper) estão disponíveis diretamente no Bright Data Scrapers Marketplace assim que você tiver uma conta.

Se você deseja criar algo personalizado em escala empresarial, os LLM Scrapers são a camada de infraestrutura. Ambos os caminhos começam no mesmo lugar: um teste grátis da Bright Data.

Veja o repositório de código aberto no GitHub