Arquivo API
Acesse as vastas coleções em cache da Bright Data, oferecendo descoberta econômica de HTML de bilhões de domínios. Com mais de 1 PB adicionado semanalmente, fique à frente com as mais recentes percepções de dados. Experimente uma recuperação de dados perfeita e eficiente como nunca antes.
- Descubra novas fontes por meio de metadados filtráveis
- Direcione com precisão por modalidade, idioma ou domínio
- Faça a curadoria de Conjuntos de dados personalizados para necessidades contínuas ou pontuais
- Serviços opcionais de anotação e rotulagem disponíveis
Trusted by 20,000+ customers worldwide
Acesse dados da Web em grande escala
O Archive API da Bright Data oferece dados atualizados continuamente e em tempo real com opções avançadas de filtragem e entrega.
Coleta de dados
Captura continuamente dados públicos da Web em tempo real, fornecendo resultados tão recentes quanto "agora".
Volume de dados
17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas com ~1 PB e 2 bilhões de URLs exclusivos adicionados por semana.
Filtragem e entrega
Cobertura e relevância
Arquivo API Playground
Pronto para integrar a API de Arquivo da Web?
Obtenha uma fatia da Web com o Archive API
Recupere dados de um arquivo da Web em escala de petabytes com bilhões de páginas HTML. Descubra URLs de vídeos e imagens, textos em mais de 100 idiomas ou SERPs históricos.
Estruturado e limpo
Dados pré-processados com esquemas consistentes, perfeitos para treinamento e inferência de modelos de IA.
Exemplos de códigos
Snippets de Python, Node.js, cURL, PHP, Go, Java e Ruby prontos para uso para fácil integração com fluxos de trabalho de IA.
Documentação
Guias e notebooks abrangentes para ChatGPT, Claude e outras integrações do LLM.
# Para iniciar uma pesquisa em nosso arquivo, use o seguinte ponto de extremidade /search. Ponto final: POST api.brightdata.com/webarchive/search
curl -X POST https://api.brightdata.com/webarchive/search
-H "Authorization: Bearer $API_KEY"
-H "Content-Type: application/json
--data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
# Para verificar o status de uma consulta específica que foi feita. Ponto de extremidade: GET api.brightdata.com/webarchive/search/
curl https://api.brightdata.com/webarchive/search/$SEARCH_ID
-H "Authorization: Bearer $API_KEY"
# Verifique o status de todas as pesquisas atuais. Ponto final: GET api.brightdata.com/webarchive/searches
curl https://api.brightdata.com/webarchive/searches
-H "Authorization: Bearer $API_KEY"
Casos de uso da API de arquivamento
Recuperação perfeita de dados de bilhões de domínios
Descubra e recupere facilmente URLs de vídeo, imagens, áudio e muito mais.

Infraestrutura de nível empresarial
A plataforma da Bright Data tem mais de 20,000+ empresas em todo o mundo, oferecendo tranquilidade com 99,99% de tempo de atividade, acesso a 150M+ IPs de usuários reais que abrangem 195 países.

Descoberta, coleta e processamento avançados de dados
Obtenha o máximo de controle e flexibilidade sem manter uma infraestrutura de proxy e desbloqueio. Extraia facilmente dados de qualquer localização geográfica, evitando CAPTCHAs e bloqueios.

Adaptado ao seu fluxo de trabalho
Obtenha dados estruturados e validados com opções personalizadas de entrega e integração, incluindo relatórios, painéis e análises sob medida, em rastreamentos históricos e vários sites.
Conformidade líder do setor
Nossas práticas de privacidade estão em conformidade com as leis de proteção de dados, incluindo a estrutura regulatória de proteção de dados da UE, o GDPR e a CCPA, respeitando as solicitações de exercício de direitos de privacidade e muito mais.
Comece a coletar dados da Web. Sem esforço.
Arquivar perguntas frequentes sobre a API
O que é Archive API?
O Archive API é um repositório em cache maciço e em contínua expansão da Bright Data, projetado para capturar e fornecer dados públicos da Web em escala.
Ele fornece páginas da Web e metadados completos, o que o torna ideal para treinamento de IA, aprendizado de máquina e análise de dados em grande escala.
Ao contrário dos rastreamentos tradicionais da Web, o Archive API prioriza a relevância, o frescor e a usabilidade, fornecendo acesso às partes mais importantes da Internet à medida que são raspadas diariamente.
Quantos dados estão disponíveis no Archive API da Bright Data?
O Archive API da Bright Data já coletou 17,5 PB de dados, abrangendo 28 bilhões de URLs exclusivos de 40 milhões de domínios, apenas nos primeiros 8 meses de seu lançamento.
Continuamos a adicionar cerca de 1 PB de novos dados a cada semana, juntamente com cerca de 2 bilhões de URLs exclusivos, tornando o Archive o maior e mais atualizado repositório de dados da Web disponível - perfeito para IA e aplicativos orientados por dados.
Com que rapidez posso acessar os dados do arquivo?
Você pode começar a acessar os dados imediatamente por meio da nossa API do Archive. A API permite que você pesquise, recupere e filtre instantâneos de dados do Archive de forma contínua e eficiente.
Dados dos últimos 3 dias: A entrega levará de alguns minutos a algumas horas (dependendo do tamanho do snapshot)
Dados com mais de 3 dias: Levará de algumas horas a até 3 dias para serem processados e entregues (dependendo do tamanho do instantâneo)
Como meus dados podem ser entregues?
O Archive oferece duas opções de entrega para garantir uma integração perfeita em seus fluxos de trabalho existentes:
Bucket do Amazon S3: Tenha seu Data Snapshot entregue diretamente em seu bucket S3.
Webhook: Recuperado via webhook para integração em tempo real em seus sistemas.
Posso filtrar os dados do Archive para obter somente o que preciso?
Com certeza! A API Archive permite a filtragem por categoria, domínios, data, idiomas e país antes de recuperar os dados, garantindo que você receba apenas o que precisa.