Data Firehose & Web Archive Pricing

Q: Como o Archive da Bright Data se compara ao Common Crawl?

Ao trabalhar com dados da web em grande escala, atualidade, relevância e acessibilidade são fundamentais. Enquanto o Common Crawl fornece um amplo snapshot histórico da web, a Archive API da Bright Data oferece dados em tempo real, continuamente atualizados, com filtragem avançada e opções de entrega. Veja como eles se comparam: Recurso Archive da Bright Data Common Crawl Coleta de Dados Captura continuamente dados públicos da web em tempo real, fornecendo resultados tão recentes quanto "agora". Rastreamento periódico da web (não em tempo real), atualizado mensalmente ou bimestralmente. Os dados podem estar desatualizados Volume de Dados 17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas (28 bilhões de URLs únicos de 40 milhões de domínios). Adiciona ~2,5 PBs e bilhões de URLs únicos por semana. 250 bilhões de páginas coletadas em 18 anos. Cobertura e Relevância de Sites Foca em dados de sites relevantes e de alto valor com base em necessidades reais de scraping de dados. Rastreia indiscriminadamente, incluindo páginas desatualizadas ou de baixa qualidade. Tipos de Dados Páginas web completas (renderizadas com JS) 98,6% HTML e texto Filtragem e Entrega Plataforma completa de descoberta e entrega – filtragem por categoria, domínio, idioma, data etc. Entregue via Amazon S3 ou webhook. Sem filtragem ou entrega integradas. É necessário processar manualmente enormes arquivos WARC brutos.

Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.

Cadastre-se agora e dobraremos seu primeiro depósito, até US$ 500!

Start now

DATA FIREHOSE (LAST 24 HRS)

$0.2/ 1K HTMLs

Fale com um especialista em dados

Inclui:

Fresh data - up to 24 hours
~1 hour delivery (depending on snapshot size)
Acesso à API com filtragem avançada (domínios, categorias, datas, idiomas, países, caminhos)
Flexible delivery: Amazon S3, Azure Blob Storage, Webhook)
suporte 24/7
Descontos por volume para necessidades de dados em grande escala

Best for: Continuously refreshed data pipelines

Common use case:

AI search & analytics pipelines requiring up-to-date content
Aggregated Web Unlocker and SERP cache - updated hourly
Continuous web monitoring and indexing

Archived data (Over 24 hrs)

$1/ 1K HTMLs

Fale com um especialista em dados

Inclui:

Historical data - Over 24 hours
Minimum 2 days delivery (depending on snapshot size)
Acesso à API com filtragem avançada (domínios, categorias, datas, idiomas, países, caminhos)
Flexible delivery: Amazon S3, Azure Blob Storage, Webhook
suporte 24/7
Descontos por volume para necessidades de dados em grande escala

Best for: Historical data at scale

Common use case:

AI model training data backfilling at scale
Reproducible historical snapshots for research & indexing
Auditing or analyzing past web content across domains

* Descontos por volume estão disponíveis para grandes volumes de dados, compromissos de longo prazo ou múltiplos projetos de Scraper

Aceitamos esses métodos de pagamento:

Aprovado por 20,000+ clientes em todo o mundo.

Customer favorite features

Repositório em escala de petabytes
Páginas HTML completas e metadados
Filtragem e pesquisa avançadas
~2,5 PB adicionados diariamente
Texto, imagens, vídeo e áudio
Opções flexíveis de entrega
Mais de 5T tokens de texto adicionados diariamente
Acesso API-first
Dados para IA prontos para uso
Mais de 2,5 bilhões de URLs de imagem/vídeo adicionados diariamente
Sem necessidade de manutenção
99,99% de uptime + suporte 24/7

STREAMLINED

Pagamentos com AWS Marketplace

Aproveite suas compras para cumprir seus compromissos com a AWS e desfrute de aquisição e faturamento simplificados em um só lugar. Beneficie-se da robusta validação e verificações de conformidade da AWS para parceiros.

COMPLIANT

Conformidade Líder do Setor

Nossas práticas de privacidade estão em conformidade com as leis de proteção de dados, incluindo o marco regulatório de proteção de dados da UE, GDPR e CCPA – respeitando solicitações para exercer direitos de privacidade e muito mais.

Não sabe o que precisa?

Fale com um especialista em dados

Perguntas frequentes sobre a Archive API

Qual é a diferença entre Data Firehose e Web Archive?

O Data Firehose entrega um fluxo contínuo e em tempo real de dados da web ao vivo conforme são coletados (~1 bilhão de registros ingeridos diariamente), ideal para monitoramento ativo, rastreamento de preços e pipelines contínuos de treinamento de IA. O Web Archive fornece acesso a um enorme repositório histórico de mais de 624 bilhões de páginas web em cache (90 PB+), perfeito para pesquisas aprofundadas, backtesting e análise longitudinal. Muitas equipes corporativas usam ambos: o Firehose para sinais recentes e o Archive para contexto histórico.

Com que rapidez posso acessar os dados?

Você pode começar a acessar os dados imediatamente por meio do nosso Data Firehose. A API permite pesquisar, recuperar e filtrar snapshots de dados de forma simples e eficiente.

Dados do último 1 dia: serão entregues em minutos a algumas horas (dependendo do tamanho do snapshot)
Dados com mais de 1 dia: levarão de algumas horas a até 3 dias para serem processados e entregues (dependendo do tamanho do snapshot)

Como meus dados podem ser entregues?

O Archive oferece duas opções de entrega para garantir integração perfeita com seus fluxos de trabalho existentes:

Bucket Amazon S3: Receba seu Snapshot de Dados diretamente no seu bucket S3.
Webhook: Recuperado via webhook para integração em tempo real nos seus sistemas.

Posso filtrar os dados do Archive para obter apenas o que preciso?

Com certeza! Tanto o Data Firehose quanto a Archive API permitem filtragem por categoria, domínios, data, idiomas e país antes de recuperar os dados, garantindo que você receba apenas o que precisa.

Há taxas extras para diferentes métodos de entrega?

Não, os métodos de entrega padrão estão incluídos no custo. Para o Data Firehose e o Web Archive, você pode optar por receber seus dados diretamente em um bucket Amazon S3 ou recuperá-los via Webhook para integração perfeita com seus sistemas existentes. O Data Firehose também suporta streaming contínuo e imediato.

Pago a mais para aplicar filtros personalizados aos meus dados?

Não, a filtragem personalizada é uma funcionalidade principal, não um complemento pago. Incentivamos a filtragem rigorosa por categoria, domínio, data, idioma e país. Ao definir cuidadosamente o escopo do seu stream ou recuperação de arquivo, você reduz o volume total de registros irrelevantes recebidos, otimizando seus custos gerais de dados.

Como o Archive da Bright Data se compara ao Common Crawl?

Ao trabalhar com dados da web em grande escala, atualidade, relevância e acessibilidade são fundamentais. Enquanto o Common Crawl fornece um amplo snapshot histórico da web, a Archive API da Bright Data oferece dados em tempo real, continuamente atualizados, com filtragem avançada e opções de entrega. Veja como eles se comparam:

Recurso	Archive da Bright Data	Common Crawl
Coleta de Dados	Captura continuamente dados públicos da web em tempo real, fornecendo resultados tão recentes quanto "agora".	Rastreamento periódico da web (não em tempo real), atualizado mensalmente ou bimestralmente. Os dados podem estar desatualizados
Volume de Dados	17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas (28 bilhões de URLs únicos de 40 milhões de domínios). Adiciona ~2,5 PBs e bilhões de URLs únicos por semana.	250 bilhões de páginas coletadas em 18 anos.
Cobertura e Relevância de Sites	Foca em dados de sites relevantes e de alto valor com base em necessidades reais de scraping de dados.	Rastreia indiscriminadamente, incluindo páginas desatualizadas ou de baixa qualidade.
Tipos de Dados	Páginas web completas (renderizadas com JS)	98,6% HTML e texto
Filtragem e Entrega	Plataforma completa de descoberta e entrega – filtragem por categoria, domínio, idioma, data etc. Entregue via Amazon S3 ou webhook.	Sem filtragem ou entrega integradas. É necessário processar manualmente enormes arquivos WARC brutos.