Arquivo API

Acesse as vastas coleções em cache da Bright Data, oferecendo descoberta econômica de HTML de bilhões de domínios. Com mais de 1 PB adicionado semanalmente, fique à frente com as mais recentes percepções de dados. Experimente uma recuperação de dados perfeita e eficiente como nunca antes.

Fale com um especialista
archive api
  • Descubra novas fontes por meio de metadados filtráveis
  • Direcione com precisão por modalidade, idioma ou domínio
  • Faça a curadoria de Conjuntos de dados personalizados para necessidades contínuas ou pontuais
  • Serviços opcionais de anotação e rotulagem disponíveis
TRUSTED BY 20,000+ CUSTOMERS WORLDWIDE

Acesse dados da Web em grande escala

O Archive API da Bright Data oferece dados atualizados continuamente e em tempo real com opções avançadas de filtragem e entrega.

data collection

Coleta de dados

Captura continuamente dados públicos da Web em tempo real, fornecendo resultados tão recentes quanto "agora".

data volume

Volume de dados

17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas com ~1 PB e 2 bilhões de URLs exclusivos adicionados por semana.

delivery

Filtragem e entrega

Plataforma completa de descoberta e fornecimento - filtre por categoria, domínio, idioma, data etc. Fornecido via Amazon S3 ou webhook.
coverage

Cobertura e relevância

O Archive API se concentra em dados de sites relevantes e de alto valor com base em necessidades reais de negócios de raspagem.

Arquivo API Playground

Pesquisa de Arquivo Web de Demonstração
Veja como nossa API de arquivo da web funciona com domínios de exemplo
Domínios de Demonstração
example.com
Intervalo de Tempo
Idade Máxima: 1 dia
Resultados do Arquivo
Os resultados do seu arquivo aparecerão aqui
Clique em "Mostrar Dados do Arquivo de Demonstração" para ver a saída de exemplo ou configurar filtros para pesquisar
            
          
Exemplos de Código
                
              

Pronto para integrar a API de Arquivo da Web?

Comece com nossa poderosa API de Arquivo Web. Acesse dados históricos da web com nossa infraestrutura escalável.

Obtenha uma fatia da Web com o Archive API

Recupere dados de um arquivo da Web em escala de petabytes com bilhões de páginas HTML. Descubra URLs de vídeos e imagens, textos em mais de 100 idiomas ou SERPs históricos.

structured

Estruturado e limpo

Dados pré-processados com esquemas consistentes, perfeitos para treinamento e inferência de modelos de IA.

code examples

Exemplos de códigos

Snippets de Python, Node.js, cURL, PHP, Go, Java e Ruby prontos para uso para fácil integração com fluxos de trabalho de IA.

documentation

Documentação

Guias e notebooks abrangentes para ChatGPT, Claude e outras integrações do LLM.

                              # Para iniciar uma pesquisa em nosso arquivo, use o seguinte ponto de extremidade /search. Ponto final: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization: Bearer $API_KEY" 
  -H "Content-Type: application/json 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
                              
                            
                              # Para verificar o status de uma consulta específica que foi feita. Ponto de extremidade: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization: Bearer $API_KEY"
                              
                            
                              # Verifique o status de todas as pesquisas atuais. Ponto final: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Bearer $API_KEY"
                              
                            

Casos de uso da API de arquivamento

Acompanhe as alterações de conteúdo e analise as tendências em bilhões de instantâneos históricos da Web. Acesse 17,5 PB de dados armazenados em cache de 40 milhões de domínios para estudos longitudinais, análise competitiva e Inteligência de mercado sem precisar rastrear novamente.
Fale com um especialista
deep research
Crie índices de pesquisa abrangentes instantaneamente com conteúdo pré-raspado e renderizado por JS de milhões de domínios. Filtre por categoria, idioma e data para criar índices focados e reduzir os custos de infraestrutura.
Fale com um especialista
Treine modelos de IA com 17,5 PB de dados limpos da Web. Obtenha conteúdo novo e de alta qualidade de diversas fontes, com 1 PB adicionado semanalmente, fornecido em formatos otimizados para aplicativos de aprendizado de máquina.
Fale com um especialista
data_enrichment_for_ai_models

Recuperação perfeita de dados de bilhões de domínios

Descubra e recupere facilmente URLs de vídeo, imagens, áudio e muito mais.

FLEXÍVEL

Infraestrutura de nível empresarial

A plataforma da Bright Data tem mais de 20,000+ empresas em todo o mundo, oferecendo tranquilidade com 99,99% de tempo de atividade, acesso a 150M+ IPs de usuários reais que abrangem 195 países.

ESCALÁVEL

Descoberta, coleta e processamento avançados de dados

Obtenha o máximo de controle e flexibilidade sem manter uma infraestrutura de proxy e desbloqueio. Extraia facilmente dados de qualquer localização geográfica, evitando CAPTCHAs e bloqueios.

ESTÁVEL

Adaptado ao seu fluxo de trabalho

Obtenha dados estruturados e validados com opções personalizadas de entrega e integração, incluindo relatórios, painéis e análises sob medida, em rastreamentos históricos e vários sites.

compliance
CONFORME

Conformidade líder do setor

Nossas práticas de privacidade estão em conformidade com as leis de proteção de dados, incluindo a estrutura regulatória de proteção de dados da UE, o GDPR e a CCPA, respeitando as solicitações de exercício de direitos de privacidade e muito mais.

Comece a coletar dados da Web. Sem esforço.

Arquivar perguntas frequentes sobre a API

O Archive API é um repositório em cache maciço e em contínua expansão da Bright Data, projetado para capturar e fornecer dados públicos da Web em escala.

Ele fornece páginas da Web e metadados completos, o que o torna ideal para treinamento de IA, aprendizado de máquina e análise de dados em grande escala.

Ao contrário dos rastreamentos tradicionais da Web, o Archive API prioriza a relevância, o frescor e a usabilidade, fornecendo acesso às partes mais importantes da Internet à medida que são raspadas diariamente.

O Archive API da Bright Data já coletou 17,5 PB de dados, abrangendo 28 bilhões de URLs exclusivos de 40 milhões de domínios, apenas nos primeiros 8 meses de seu lançamento.

Continuamos a adicionar cerca de 1 PB de novos dados a cada semana, juntamente com cerca de 2 bilhões de URLs exclusivos, tornando o Archive o maior e mais atualizado repositório de dados da Web disponível - perfeito para IA e aplicativos orientados por dados.

Você pode começar a acessar os dados imediatamente por meio da nossa API do Archive. A API permite que você pesquise, recupere e filtre instantâneos de dados do Archive de forma contínua e eficiente.

Dados dos últimos 3 dias: A entrega levará de alguns minutos a algumas horas (dependendo do tamanho do snapshot)

Dados com mais de 3 dias: Levará de algumas horas a até 3 dias para serem processados e entregues (dependendo do tamanho do instantâneo)

O Archive oferece duas opções de entrega para garantir uma integração perfeita em seus fluxos de trabalho existentes:

Bucket do Amazon S3: Tenha seu Data Snapshot entregue diretamente em seu bucket S3.

Webhook: Recuperado via webhook para integração em tempo real em seus sistemas.

Com certeza! A API Archive permite a filtragem por categoria, domínios, data, idiomas e país antes de recuperar os dados, garantindo que você receba apenas o que precisa.