4.6 de cinco estrelas de avaliação no Trustpilot

4.8 de 5 estrelas de avaliação no Capterra

Arquivo API

Acesse as vastas coleções em cache da Bright Data, oferecendo descoberta econômica de HTML de bilhões de domínios. Com mais de 1 PB adicionado semanalmente, fique à frente com as mais recentes percepções de dados. Experimente uma recuperação de dados perfeita e eficiente como nunca antes.

Fale com um especialista

Descubra novas fontes por meio de metadados filtráveis
Direcione com precisão por modalidade, idioma ou domínio
Faça a curadoria de Conjuntos de dados personalizados para necessidades contínuas ou pontuais
Serviços opcionais de anotação e rotulagem disponíveis

Aprovado por 20,000+ clientes em todo o mundo.

Acesse dados da Web em grande escala

O Archive API da Bright Data oferece dados atualizados continuamente e em tempo real com opções avançadas de filtragem e entrega.

Coleta de dados

Captura continuamente dados públicos da Web em tempo real, fornecendo resultados tão recentes quanto "agora".

Volume de dados

17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas com ~1 PB e 2 bilhões de URLs exclusivos adicionados por semana.

Filtragem e entrega

Plataforma completa de descoberta e fornecimento - filtre por categoria, domínio, idioma, data etc. Fornecido via Amazon S3 ou webhook.

Cobertura e relevância

O Archive API se concentra em dados de sites relevantes e de alto valor com base em necessidades reais de negócios de raspagem.

Arquivo API Playground

Pesquisa de Arquivo Web de Demonstração

Veja como nossa API de arquivo da web funciona com domínios de exemplo

Domínios de Demonstração

example.com

Intervalo de Tempo

Idade Máxima: 1 dia

Resultados do Arquivo

Os resultados do seu arquivo aparecerão aqui

Clique em "Mostrar Dados do Arquivo de Demonstração" para ver a saída de exemplo ou configurar filtros para pesquisar

Exemplos de Código

Pronto para integrar a API SERP?

Comece com nossa poderosa API SERP. Acesse resultados de pesquisa em tempo real do Google, Bing e mais.

Comece Grátis Documentação Postman

Obtenha uma fatia da Web com o Archive API

Recupere dados de um arquivo da Web em escala de petabytes com bilhões de páginas HTML. Descubra URLs de vídeos e imagens, textos em mais de 100 idiomas ou SERPs históricos.

Estruturado e limpo

Dados pré-processados com esquemas consistentes, perfeitos para treinamento e inferência de modelos de IA.

Exemplos de códigos

Snippets de Python, Node.js, cURL, PHP, Go, Java e Ruby prontos para uso para fácil integração com fluxos de trabalho de IA.

Documentação

Guias e notebooks abrangentes para ChatGPT, Claude e outras integrações do LLM.

                              # Para iniciar uma pesquisa em nosso arquivo, use o seguinte ponto de extremidade /search. Ponto final: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization: Bearer $API_KEY" 
  -H "Content-Type: application/json 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'

                              # Para verificar o status de uma consulta específica que foi feita. Ponto de extremidade: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization: Bearer $API_KEY"

                              # Verifique o status de todas as pesquisas atuais. Ponto final: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Bearer $API_KEY"

Casos de uso da API de arquivamento

Acompanhe as alterações de conteúdo e analise as tendências em bilhões de instantâneos históricos da Web. Acesse 17,5 PB de dados armazenados em cache de 40 milhões de domínios para estudos longitudinais, análise competitiva e Inteligência de mercado sem precisar rastrear novamente.

Fale com um especialista

Crie índices de pesquisa abrangentes instantaneamente com conteúdo pré-raspado e renderizado por JS de milhões de domínios. Filtre por categoria, idioma e data para criar índices focados e reduzir os custos de infraestrutura.

Fale com um especialista

Treine modelos de IA com 17,5 PB de dados limpos da Web. Obtenha conteúdo novo e de alta qualidade de diversas fontes, com 1 PB adicionado semanalmente, fornecido em formatos otimizados para aplicativos de aprendizado de máquina.

Fale com um especialista

Recuperação perfeita de dados de bilhões de domínios

Descubra e recupere facilmente URLs de vídeo, imagens, áudio e muito mais.

FLEXÍVEL

Infraestrutura de nível empresarial

A plataforma da Bright Data tem mais de 20,000+ empresas em todo o mundo, oferecendo tranquilidade com 99,99% de tempo de atividade, acesso a 400M+ IPs de usuários reais que abrangem 195 países.

ESCALÁVEL

Descoberta, coleta e processamento avançados de dados

Obtenha o máximo de controle e flexibilidade sem manter uma infraestrutura de proxy e desbloqueio. Extraia facilmente dados de qualquer localização geográfica, evitando CAPTCHAs e bloqueios.

ESTÁVEL

Adaptado ao seu fluxo de trabalho

Obtenha dados estruturados e validados com opções personalizadas de entrega e integração, incluindo relatórios, painéis e análises sob medida, em rastreamentos históricos e vários sites.

CONFORME

Conformidade líder do setor

Nossas práticas de privacidade estão em conformidade com as leis de proteção de dados, incluindo a estrutura regulatória de proteção de dados da UE, o GDPR e a CCPA, respeitando as solicitações de exercício de direitos de privacidade e muito mais.

Comece a coletar dados da Web. Sem esforço.

Fale com um especialista

Arquivar perguntas frequentes sobre a API

O que é Archive API?

O Archive API é um repositório em cache maciço e em contínua expansão da Bright Data, projetado para capturar e fornecer dados públicos da Web em escala.

Ele fornece páginas da Web e metadados completos, o que o torna ideal para treinamento de IA, aprendizado de máquina e análise de dados em grande escala.

Ao contrário dos rastreamentos tradicionais da Web, o Archive API prioriza a relevância, o frescor e a usabilidade, fornecendo acesso às partes mais importantes da Internet à medida que são raspadas diariamente.

Quantos dados estão disponíveis no Archive API da Bright Data?

O Archive API da Bright Data já coletou 17,5 PB de dados, abrangendo 28 bilhões de URLs exclusivos de 40 milhões de domínios, apenas nos primeiros 8 meses de seu lançamento.

Continuamos a adicionar cerca de 1 PB de novos dados a cada semana, juntamente com cerca de 2 bilhões de URLs exclusivos, tornando o Archive o maior e mais atualizado repositório de dados da Web disponível - perfeito para IA e aplicativos orientados por dados.

Com que rapidez posso acessar os dados do arquivo?

Você pode começar a acessar os dados imediatamente por meio da nossa API do Archive. A API permite que você pesquise, recupere e filtre instantâneos de dados do Archive de forma contínua e eficiente.

Dados dos últimos 3 dias: A entrega levará de alguns minutos a algumas horas (dependendo do tamanho do snapshot)

Dados com mais de 3 dias: Levará de algumas horas a até 3 dias para serem processados e entregues (dependendo do tamanho do instantâneo)

Como meus dados podem ser entregues?

O Archive oferece duas opções de entrega para garantir uma integração perfeita em seus fluxos de trabalho existentes:

Bucket do Amazon S3: Tenha seu Data Snapshot entregue diretamente em seu bucket S3.

Webhook: Recuperado via webhook para integração em tempo real em seus sistemas.

Posso filtrar os dados do Archive para obter somente o que preciso?

Com certeza! A API Archive permite a filtragem por categoria, domínios, data, idiomas e país antes de recuperar os dados, garantindo que você receba apenas o que precisa.