Preços da API de Arquivo

Potencialize pipelines avançados para treinamento de modelos e busca na web com o maior repositório de dados da web do mundo.

pay as you go plan icon
PAGUE O QUE GASTAR
$0.2 /1K HTMLs
Sem compromisso
Comece já
Inclui:
  • Acesso à API com filtragem avançada (domínios, categorias, datas, idiomas, países, caminhos)
  • Entrega flexível: AWS, GCP, Snowflake, Databricks e mais
  • Suporte padrão
  • Dados históricos (+72 horas) a partir de $1/1K HTMLs
2nd plan icon
EMPRESA
Entre em contato conosco para uma
cotação personalizada
Fale com um especialista em vendas
Inclui:
  • Acesso à API com filtragem avançada (domínios, categorias, datas, idiomas, países, caminhos)
  • Entrega flexível: AWS, GCP, Snowflake, Databricks e mais
  • Suporte padrão
  • Gerente de conta dedicado
  • Suporte premium 24/7
  • Garantias de SLA
  • Descontos por volume para necessidades de dados em grande escala
  • Suporte para integração personalizada
  • Opções de entrega estendidas
* Descontos por volume estão disponíveis para grandes volumes de dados, compromissos de longo prazo ou projetos de múltiplas soluções.
Aceitamos esses métodos de pagamento:
AWS logoUsa a AWS? Agora você pode pagar por meio do AWS Marketplace
Comece já

Customer favorite features

  • Repositório em escala de petabytes
  • Páginas HTML completas e metadados
  • Filtragem e pesquisa avançadas
  • ~2,5 PB adicionados diariamente
  • Texto, imagens, vídeo e áudio
  • Opções de entrega flexíveis
  • Mais de 5 T tokens de texto adicionados diariamente
  • Acesso API-first
  • Dados prontos para IA
  • Mais de 2,5 bilhões de URLs de imagens/vídeos adicionados diariamente
  • Sem manutenção
  • 99,99% de tempo de atividade + suporte 24 horas por dia, 7 dias por semana
SIMPLIFICADO

Pagamentos com o AWS Marketplace

Aproveite suas compras para cumprir seus compromissos com a AWS e desfrute de um processo simplificado de aquisição e faturação em um só lugar. Beneficie-se das robustas verificações de validação e conformidade da AWS para parceiros.

CONFORMIDADE

Conformidade líder do setor

Nossas práticas de privacidade estão em conformidade com as leis de proteção de dados, incluindo a estrutura regulatória de proteção de dados da UE, GDPR e CCPA – respeitando as solicitações para exercer direitos de privacidade e muito mais.

Perguntas frequentes sobre a API de arquivo

A API Archive é um repositório enorme, em constante expansão e armazenado em cache da Bright Data, projetado para capturar e fornecer dados públicos da web em grande escala. Ela fornece páginas da web completas e metadados, tornando-a ideal para treinamento de IA, aprendizado de máquina e análise de dados em grande escala. Ao contrário dos rastreamentos tradicionais da web, a API Archive prioriza a relevância, a atualidade e a usabilidade, dando a você acesso às partes mais importantes da internet, pois elas são coletadas diariamente.

Você pode começar a acessar os dados imediatamente por meio de nossa API de arquivo. A API permite pesquisar, recuperar e filtrar instantâneos de dados do arquivo de maneira integrada e eficiente.

  • Dados dos últimos 3 dias: a entrega levará de alguns minutos a algumas horas (dependendo do tamanho do instantâneo)
  • Dados com mais de 3 dias: levará de algumas horas a até 3 dias para processar e entregar (dependendo do tamanho do instantâneo)

O Archive oferece duas opções de entrega para garantir uma integração perfeita com seus fluxos de trabalho existentes:

  • Bucket Amazon S3: receba seu Data Snapshot diretamente no seu bucket S3.
  • Webhook: recuperado via webhook para integração em tempo real aos seus sistemas.

Com certeza! A API do Archive permite filtrar por categoria, domínios, data, idiomas e país antes de recuperar os dados, garantindo que você obtenha apenas o que precisa.

Ao trabalhar com dados da web em grande escala, atualidade, relevância e acessibilidade são fundamentais. Enquanto o Common Crawl fornece um amplo panorama histórico da web, a API de arquivo da Bright Data oferece dados em tempo real, atualizados continuamente, com opções avançadas de filtragem e entrega. Veja como eles se comparam:

Recurso Arquivo da Bright Data Common Crawl
Coleta de dados Captura continuamente dados públicos da web em tempo real, fornecendo resultados tão recentes quanto “agora”. Rastreamento periódico da web (não em tempo real), atualizado mensalmente ou bimestralmente. Os dados podem estar desatualizados
Volume de dados 17,5 PB coletados em 8 meses, cobrindo 118 bilhões de páginas (28 bilhões de URLs exclusivos de 40 milhões de domínios). Adiciona ~2,5 PBs e bilhões de URLs exclusivos/semana. 250 bilhões de páginas coletadas ao longo de 18 anos.
Cobertura e relevância do site Foca em dados de sites relevantes e de alto valor com base nas necessidades reais de scraping das empresas. Rastreia indiscriminadamente, incluindo páginas desatualizadas ou de baixa qualidade.
Tipos de dados Páginas da web completas (renderizadas em JS) 98,6% HTML e texto
Filtragem e entrega Plataforma completa de descoberta e entrega - filtragem por categoria, domínio, idioma, data, etc. Entrega via Amazon S3 ou webhook. Sem filtragem ou entrega integrada. Necessidade de processar manualmente grandes arquivos WARC brutos.

Não tem certeza do que precisa?