Archive API Pricing
Power advanced pipelines for model training and web search with the world's largest web data repository
Trusted by 20,000+ customers worldwide
Customer favorite features
- Repositório em escala de petabytes
- Páginas HTML completas e metadados
- Filtragem e pesquisa avançadas
- ~2,5 PB adicionados diariamente
- Texto, imagens, vídeo e áudio
- Opções de entrega flexíveis
- Mais de 5 T tokens de texto adicionados diariamente
- Acesso API-first
- Dados prontos para IA
- Mais de 2,5 bilhões de URLs de imagens/vídeos adicionados diariamente
- Sem manutenção
- 99,99% de tempo de atividade + suporte 24 horas por dia, 7 dias por semana
Pagamentos com o AWS Marketplace
Aproveite suas compras para cumprir seus compromissos com a AWS e desfrute de um processo simplificado de aquisição e faturação em um só lugar. Beneficie-se das robustas verificações de validação e conformidade da AWS para parceiros.
Conformidade líder do setor
Nossas práticas de privacidade estão em conformidade com as leis de proteção de dados, incluindo a estrutura regulatória de proteção de dados da UE, GDPR e CCPA – respeitando as solicitações para exercer direitos de privacidade e muito mais.
Perguntas frequentes sobre a API de arquivo
O que é a API de arquivo?
A API Archive é um repositório enorme, em constante expansão e armazenado em cache da Bright Data, projetado para capturar e fornecer dados públicos da web em grande escala. Ela fornece páginas da web completas e metadados, tornando-a ideal para treinamento de IA, aprendizado de máquina e análise de dados em grande escala. Ao contrário dos rastreamentos tradicionais da web, a API Archive prioriza a relevância, a atualidade e a usabilidade, dando a você acesso às partes mais importantes da internet, pois elas são coletadas diariamente.
Com que rapidez posso acessar os dados?
Você pode começar a acessar os dados imediatamente por meio de nossa API de arquivo. A API permite pesquisar, recuperar e filtrar instantâneos de dados do arquivo de maneira integrada e eficiente.
- Dados dos últimos 3 dias: a entrega levará de alguns minutos a algumas horas (dependendo do tamanho do instantâneo)
- Dados com mais de 3 dias: levará de algumas horas a até 3 dias para processar e entregar (dependendo do tamanho do instantâneo)
Como meus dados podem ser entregues?
O Archive oferece duas opções de entrega para garantir uma integração perfeita com seus fluxos de trabalho existentes:
- Bucket Amazon S3: receba seu Data Snapshot diretamente no seu bucket S3.
- Webhook: recuperado via webhook para integração em tempo real aos seus sistemas.
Posso filtrar os dados do arquivo para obter apenas o que preciso?
Com certeza! A API do Archive permite filtrar por categoria, domínios, data, idiomas e país antes de recuperar os dados, garantindo que você obtenha apenas o que precisa.
Como o arquivo da Bright Data se compara ao Common Crawl?
Ao trabalhar com dados da web em grande escala, atualidade, relevância e acessibilidade são fundamentais. Enquanto o Common Crawl fornece um amplo panorama histórico da web, a API de arquivo da Bright Data oferece dados em tempo real, atualizados continuamente, com opções avançadas de filtragem e entrega. Veja como eles se comparam:
| Recurso | Arquivo da Bright Data | Common Crawl |
| Coleta de dados | Captura continuamente dados públicos da web em tempo real, fornecendo resultados tão recentes quanto “agora”. | Rastreamento periódico da web (não em tempo real), atualizado mensalmente ou bimestralmente. Os dados podem estar desatualizados |
| Volume de dados | 17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas (28 bilhões de URLs exclusivos de 40 milhões de domínios). Adiciona ~2,5 PBs e bilhões de URLs exclusivos/semana. | 250 bilhões de páginas coletadas ao longo de 18 anos. |
| Cobertura e relevância do site | Foca em dados de sites relevantes e de alto valor com base nas necessidades reais de scraping das empresas. | Rastreia indiscriminadamente, incluindo páginas desatualizadas ou de baixa qualidade. |
| Tipos de dados | Páginas da web completas (renderizadas em JS) | 98,6% HTML e texto |
| Filtragem e entrega | Plataforma completa de descoberta e entrega - filtragem por categoria, domínio, idioma, data, etc. Entrega via Amazon S3 ou webhook. | Sem filtragem ou entrega integrada. Necessidade de processar manualmente grandes arquivos WARC brutos. |