Data Firehose & Web Archive Pricing
Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.
Aprovado por 20,000+ clientes em todo o mundo.
Customer favorite features
- Repositório em escala de petabytes
- Páginas HTML completas e metadados
- Filtragem e pesquisa avançadas
- ~2,5 PB adicionados diariamente
- Texto, imagens, vídeo e áudio
- Opções flexíveis de entrega
- Mais de 5T tokens de texto adicionados diariamente
- Acesso API-first
- Dados para IA prontos para uso
- Mais de 2,5 bilhões de URLs de imagem/vídeo adicionados diariamente
- Sem necessidade de manutenção
- 99,99% de uptime + suporte 24/7
Pagamentos com AWS Marketplace
Aproveite suas compras para cumprir seus compromissos com a AWS e desfrute de aquisição e faturamento simplificados em um só lugar. Beneficie-se da robusta validação e verificações de conformidade da AWS para parceiros.
Conformidade Líder do Setor
Nossas práticas de privacidade estão em conformidade com as leis de proteção de dados, incluindo o marco regulatório de proteção de dados da UE, GDPR e CCPA – respeitando solicitações para exercer direitos de privacidade e muito mais.
Não sabe o que precisa?
Perguntas frequentes sobre a Archive API
Qual é a diferença entre Data Firehose e Web Archive?
O Data Firehose entrega um fluxo contínuo e em tempo real de dados da web ao vivo conforme são coletados (~1 bilhão de registros ingeridos diariamente), ideal para monitoramento ativo, rastreamento de preços e pipelines contínuos de treinamento de IA. O Web Archive fornece acesso a um enorme repositório histórico de mais de 624 bilhões de páginas web em cache (90 PB+), perfeito para pesquisas aprofundadas, backtesting e análise longitudinal. Muitas equipes corporativas usam ambos: o Firehose para sinais recentes e o Archive para contexto histórico.
Com que rapidez posso acessar os dados?
Você pode começar a acessar os dados imediatamente por meio do nosso Data Firehose. A API permite pesquisar, recuperar e filtrar snapshots de dados de forma simples e eficiente.
- Dados do último 1 dia: serão entregues em minutos a algumas horas (dependendo do tamanho do snapshot)
- Dados com mais de 1 dia: levarão de algumas horas a até 3 dias para serem processados e entregues (dependendo do tamanho do snapshot)
Como meus dados podem ser entregues?
O Archive oferece duas opções de entrega para garantir integração perfeita com seus fluxos de trabalho existentes:
- Bucket Amazon S3: Receba seu Snapshot de Dados diretamente no seu bucket S3.
- Webhook: Recuperado via webhook para integração em tempo real nos seus sistemas.
Posso filtrar os dados do Archive para obter apenas o que preciso?
Com certeza! Tanto o Data Firehose quanto a Archive API permitem filtragem por categoria, domínios, data, idiomas e país antes de recuperar os dados, garantindo que você receba apenas o que precisa.
Há taxas extras para diferentes métodos de entrega?
Não, os métodos de entrega padrão estão incluídos no custo. Para o Data Firehose e o Web Archive, você pode optar por receber seus dados diretamente em um bucket Amazon S3 ou recuperá-los via Webhook para integração perfeita com seus sistemas existentes. O Data Firehose também suporta streaming contínuo e imediato.
Pago a mais para aplicar filtros personalizados aos meus dados?
Não, a filtragem personalizada é uma funcionalidade principal, não um complemento pago. Incentivamos a filtragem rigorosa por categoria, domínio, data, idioma e país. Ao definir cuidadosamente o escopo do seu stream ou recuperação de arquivo, você reduz o volume total de registros irrelevantes recebidos, otimizando seus custos gerais de dados.
Como o Archive da Bright Data se compara ao Common Crawl?
Ao trabalhar com dados da web em grande escala, atualidade, relevância e acessibilidade são fundamentais. Enquanto o Common Crawl fornece um amplo snapshot histórico da web, a Archive API da Bright Data oferece dados em tempo real, continuamente atualizados, com filtragem avançada e opções de entrega. Veja como eles se comparam:
| Recurso | Archive da Bright Data | Common Crawl |
| Coleta de Dados | Captura continuamente dados públicos da web em tempo real, fornecendo resultados tão recentes quanto "agora". | Rastreamento periódico da web (não em tempo real), atualizado mensalmente ou bimestralmente. Os dados podem estar desatualizados |
| Volume de Dados | 17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas (28 bilhões de URLs únicos de 40 milhões de domínios). Adiciona ~2,5 PBs e bilhões de URLs únicos por semana. | 250 bilhões de páginas coletadas em 18 anos. |
| Cobertura e Relevância de Sites | Foca em dados de sites relevantes e de alto valor com base em necessidades reais de scraping de dados. | Rastreia indiscriminadamente, incluindo páginas desatualizadas ou de baixa qualidade. |
| Tipos de Dados | Páginas web completas (renderizadas com JS) | 98,6% HTML e texto |
| Filtragem e Entrega | Plataforma completa de descoberta e entrega – filtragem por categoria, domínio, idioma, data etc. Entregue via Amazon S3 ou webhook. | Sem filtragem ou entrega integradas. É necessário processar manualmente enormes arquivos WARC brutos. |