Archive API Pricing

Power advanced pipelines for model training and web search with the world's largest web data repository

pay as you go plan icon
PAGUE O QUE GASTAR
$0.2 /1K HTMLs
Sem compromisso
Comece já
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Historical data (+72 hours) starts at $1/1K HTMLs
2nd plan icon
EMPRESA
Contact us for a
personalized quote
Talk to a sales expert
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Dedicated Account Manager
  • 24/7 premium support
  • SLA guarantees
  • Volume discounts for large-scale data needs
  • Custom integration support
  • Extended delivery options
* Volume discounts are available for large data volumes, long-term commitments, or multi-solution projects.
Aceitamos esses métodos de pagamento:
AWS logoUsa a AWS? Agora você pode pagar por meio do AWS Marketplace
Comece já

Customer favorite features

  • Repositório em escala de petabytes
  • Páginas HTML completas e metadados
  • Filtragem e pesquisa avançadas
  • ~2,5 PB adicionados diariamente
  • Texto, imagens, vídeo e áudio
  • Opções de entrega flexíveis
  • Mais de 5 T tokens de texto adicionados diariamente
  • Acesso API-first
  • Dados prontos para IA
  • Mais de 2,5 bilhões de URLs de imagens/vídeos adicionados diariamente
  • Sem manutenção
  • 99,99% de tempo de atividade + suporte 24 horas por dia, 7 dias por semana
SIMPLIFICADO

Pagamentos com o AWS Marketplace

Aproveite suas compras para cumprir seus compromissos com a AWS e desfrute de um processo simplificado de aquisição e faturação em um só lugar. Beneficie-se das robustas verificações de validação e conformidade da AWS para parceiros.

CONFORMIDADE

Conformidade líder do setor

Nossas práticas de privacidade estão em conformidade com as leis de proteção de dados, incluindo a estrutura regulatória de proteção de dados da UE, GDPR e CCPA – respeitando as solicitações para exercer direitos de privacidade e muito mais.

Perguntas frequentes sobre a API de arquivo

A API Archive é um repositório enorme, em constante expansão e armazenado em cache da Bright Data, projetado para capturar e fornecer dados públicos da web em grande escala. Ela fornece páginas da web completas e metadados, tornando-a ideal para treinamento de IA, aprendizado de máquina e análise de dados em grande escala. Ao contrário dos rastreamentos tradicionais da web, a API Archive prioriza a relevância, a atualidade e a usabilidade, dando a você acesso às partes mais importantes da internet, pois elas são coletadas diariamente.

Você pode começar a acessar os dados imediatamente por meio de nossa API de arquivo. A API permite pesquisar, recuperar e filtrar instantâneos de dados do arquivo de maneira integrada e eficiente.

  • Dados dos últimos 3 dias: a entrega levará de alguns minutos a algumas horas (dependendo do tamanho do instantâneo)
  • Dados com mais de 3 dias: levará de algumas horas a até 3 dias para processar e entregar (dependendo do tamanho do instantâneo)

O Archive oferece duas opções de entrega para garantir uma integração perfeita com seus fluxos de trabalho existentes:

  • Bucket Amazon S3: receba seu Data Snapshot diretamente no seu bucket S3.
  • Webhook: recuperado via webhook para integração em tempo real aos seus sistemas.

Com certeza! A API do Archive permite filtrar por categoria, domínios, data, idiomas e país antes de recuperar os dados, garantindo que você obtenha apenas o que precisa.

Ao trabalhar com dados da web em grande escala, atualidade, relevância e acessibilidade são fundamentais. Enquanto o Common Crawl fornece um amplo panorama histórico da web, a API de arquivo da Bright Data oferece dados em tempo real, atualizados continuamente, com opções avançadas de filtragem e entrega. Veja como eles se comparam:

Recurso Arquivo da Bright Data Common Crawl
Coleta de dados Captura continuamente dados públicos da web em tempo real, fornecendo resultados tão recentes quanto “agora”. Rastreamento periódico da web (não em tempo real), atualizado mensalmente ou bimestralmente. Os dados podem estar desatualizados
Volume de dados 17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas (28 bilhões de URLs exclusivos de 40 milhões de domínios). Adiciona ~2,5 PBs e bilhões de URLs exclusivos/semana. 250 bilhões de páginas coletadas ao longo de 18 anos.
Cobertura e relevância do site Foca em dados de sites relevantes e de alto valor com base nas necessidades reais de scraping das empresas. Rastreia indiscriminadamente, incluindo páginas desatualizadas ou de baixa qualidade.
Tipos de dados Páginas da web completas (renderizadas em JS) 98,6% HTML e texto
Filtragem e entrega Plataforma completa de descoberta e entrega - filtragem por categoria, domínio, idioma, data, etc. Entrega via Amazon S3 ou webhook. Sem filtragem ou entrega integrada. Necessidade de processar manualmente grandes arquivos WARC brutos.

Não tem certeza do que precisa?