Data Firehose & Web Archive Pricing

Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.

DATA FIREHOSE (LAST 24 HRS)
$0.2/ 1K HTMLs
Fale com um especialista em dados
Inclui:
  • Fresh data - up to 24 hours
  • ~1 hour delivery (depending on snapshot size)
  • Acesso à API com filtragem avançada (domínios, categorias, datas, idiomas, países, caminhos)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook)
  • suporte 24/7
  • Descontos por volume para necessidades de dados em grande escala
Best for: Continuously refreshed data pipelines
Common use case:
  • AI search & analytics pipelines requiring up-to-date content
  • Aggregated Web Unlocker and SERP cache - updated hourly
  • Continuous web monitoring and indexing
Archived data (Over 24 hrs)
$1/ 1K HTMLs
Fale com um especialista em dados
Inclui:
  • Historical data - Over 24 hours
  • Minimum 2 days delivery (depending on snapshot size)
  • Acesso à API com filtragem avançada (domínios, categorias, datas, idiomas, países, caminhos)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook
  • suporte 24/7
  • Descontos por volume para necessidades de dados em grande escala
Best for: Historical data at scale
Common use case:
  • AI model training data backfilling at scale
  • Reproducible historical snapshots for research & indexing
  • Auditing or analyzing past web content across domains
* Descontos por volume estão disponíveis para grandes volumes de dados, compromissos de longo prazo ou múltiplos projetos de Scraper
Aceitamos esses métodos de pagamento:

Customer favorite features

  • Repositório em escala de petabytes
  • Páginas HTML completas e metadados
  • Filtragem e pesquisa avançadas
  • ~2,5 PB adicionados diariamente
  • Texto, imagens, vídeo e áudio
  • Opções flexíveis de entrega
  • Mais de 5T tokens de texto adicionados diariamente
  • Acesso API-first
  • Dados para IA prontos para uso
  • Mais de 2,5 bilhões de URLs de imagem/vídeo adicionados diariamente
  • Sem necessidade de manutenção
  • 99,99% de uptime + suporte 24/7
STREAMLINED

Pagamentos com AWS Marketplace

Aproveite suas compras para cumprir seus compromissos com a AWS e desfrute de aquisição e faturamento simplificados em um só lugar. Beneficie-se da robusta validação e verificações de conformidade da AWS para parceiros.

COMPLIANT

Conformidade Líder do Setor

Nossas práticas de privacidade estão em conformidade com as leis de proteção de dados, incluindo o marco regulatório de proteção de dados da UE, GDPR e CCPA – respeitando solicitações para exercer direitos de privacidade e muito mais.

Não sabe o que precisa?

Perguntas frequentes sobre a Archive API

O Data Firehose entrega um fluxo contínuo e em tempo real de dados da web ao vivo conforme são coletados (~1 bilhão de registros ingeridos diariamente), ideal para monitoramento ativo, rastreamento de preços e pipelines contínuos de treinamento de IA. O Web Archive fornece acesso a um enorme repositório histórico de mais de 624 bilhões de páginas web em cache (90 PB+), perfeito para pesquisas aprofundadas, backtesting e análise longitudinal. Muitas equipes corporativas usam ambos: o Firehose para sinais recentes e o Archive para contexto histórico.

Você pode começar a acessar os dados imediatamente por meio do nosso Data Firehose. A API permite pesquisar, recuperar e filtrar snapshots de dados de forma simples e eficiente.

  • Dados do último 1 dia: serão entregues em minutos a algumas horas (dependendo do tamanho do snapshot)
  • Dados com mais de 1 dia: levarão de algumas horas a até 3 dias para serem processados e entregues (dependendo do tamanho do snapshot)

O Archive oferece duas opções de entrega para garantir integração perfeita com seus fluxos de trabalho existentes:

  • Bucket Amazon S3: Receba seu Snapshot de Dados diretamente no seu bucket S3.
  • Webhook: Recuperado via webhook para integração em tempo real nos seus sistemas.

Com certeza! Tanto o Data Firehose quanto a Archive API permitem filtragem por categoria, domínios, data, idiomas e país antes de recuperar os dados, garantindo que você receba apenas o que precisa.

Não, os métodos de entrega padrão estão incluídos no custo. Para o Data Firehose e o Web Archive, você pode optar por receber seus dados diretamente em um bucket Amazon S3 ou recuperá-los via Webhook para integração perfeita com seus sistemas existentes. O Data Firehose também suporta streaming contínuo e imediato.

Não, a filtragem personalizada é uma funcionalidade principal, não um complemento pago. Incentivamos a filtragem rigorosa por categoria, domínio, data, idioma e país. Ao definir cuidadosamente o escopo do seu stream ou recuperação de arquivo, você reduz o volume total de registros irrelevantes recebidos, otimizando seus custos gerais de dados.

Ao trabalhar com dados da web em grande escala, atualidade, relevância e acessibilidade são fundamentais. Enquanto o Common Crawl fornece um amplo snapshot histórico da web, a Archive API da Bright Data oferece dados em tempo real, continuamente atualizados, com filtragem avançada e opções de entrega. Veja como eles se comparam:

Recurso Archive da Bright Data Common Crawl
Coleta de Dados Captura continuamente dados públicos da web em tempo real, fornecendo resultados tão recentes quanto "agora". Rastreamento periódico da web (não em tempo real), atualizado mensalmente ou bimestralmente. Os dados podem estar desatualizados
Volume de Dados 17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas (28 bilhões de URLs únicos de 40 milhões de domínios). Adiciona ~2,5 PBs e bilhões de URLs únicos por semana. 250 bilhões de páginas coletadas em 18 anos.
Cobertura e Relevância de Sites Foca em dados de sites relevantes e de alto valor com base em necessidades reais de scraping de dados. Rastreia indiscriminadamente, incluindo páginas desatualizadas ou de baixa qualidade.
Tipos de Dados Páginas web completas (renderizadas com JS) 98,6% HTML e texto
Filtragem e Entrega Plataforma completa de descoberta e entrega – filtragem por categoria, domínio, idioma, data etc. Entregue via Amazon S3 ou webhook. Sem filtragem ou entrega integradas. É necessário processar manualmente enormes arquivos WARC brutos.