Bright Data Brightbot Crawler
O que é o Brightbot?
O Brightbot é o rastreador de coleta de dados da Bright Data. Seu objetivo é ser o principal canal de coleta de dados para todos os produtos e serviços da Bright Data. Ele possui uma camada de cache integrada que evita o download repetitivo dos mesmos dados em um período de 24 horas, a menos que haja uma justificativa comercial exclusiva para uma exceção. Ele utiliza medidas tecnológicas abrangentes para garantir o uso justo dos recursos disponíveis do site e evitar abusos. A atividade do Brightbot é totalmente transparente, utilizando seu próprio agente de usuário exclusivo e sub-rede IP de origem. Seu tráfego e atividades podem, portanto, ser totalmente separados do tráfego do usuário, podem ser rastreados e até mesmo controlados usando o console Web Master e o collectors.txt da Bright Data.
Como o tráfego do Brightbot pode ser identificado?
O Brightbot pode ser facilmente identificado por dois parâmetros:
- User-Agent: “Brightbot 1.0”
- Sub-rede IP de origem 82.97.199.0/24
O uso de ambos garantirá uma identificação precisa.
Por que os sites devem colocar o Brightbot na lista de permissões?
- Filtre o tráfego de coleta a partir de análises de uso e dados do mecanismo de recomendação.
- 99,99% de proteção contra abusos - Assim que o Brightbot for incluído na lista de permissões do site, a Bright Data está pronta para forçar todos os clientes a trabalhar apenas através do Brightbot, correndo o risco de perder alguns deles, a fim de obter 100% de controle sobre o tráfego.
- Reduzir novas tentativas e solicitações duplicadas de recursos.
- Separe o tráfego e limite os recursos que o processam.
- Obtenha transparência sobre o que outras pessoas estão vendo em seu site - estatísticas e painéis fornecidos.
- Tome decisões muito mais informadas sobre o que (se houver) deve ser movido para páginas atrás de um login, em vez de dados públicos.
O que é o console do Web Master?
O console do webmaster é a forma da Bright Data se comunicar com os proprietários de sites. Ele permite que os proprietários de sites registrem a propriedade de seus domínios no console e obtenham transparência e controle sobre o tráfego de coleta direcionado a esses domínios.
O método de autenticação é simples, basta adicionar um token gerado na entrada DNS do domínio.
Na página de estatísticas de cada domínio, o proprietário pode obter estatísticas de integridade do domínio, conforme medido pela Bright Data, e estatísticas de tráfego.

Alertas
No console, o Web Master pode adicionar regras de alerta que permitem ao usuário rastrear e ser alertado quando determinados tipos de informações estão sendo acessados - por exemplo, varredura de dados para PII, acesso a pontos finais específicos do site, etc.


O que é collectors.txt?
O arquivo collectors.txt é um recurso configurável fornecido pelo Web MasterConsole da Bright Data, que permite ao Web Master definir diretrizes para a coleta ética e eficiente de dados de seus sites. Seu objetivo principal é aumentar a transparência e o controle, comunicando regras e limitações de acesso específicas ao Brightbott, o rastreador da web da Bright Data. O Web Master pode usar o collectors.txt para especificar pontos finais que contenham Informações de Identificação Pessoal (PII), proibir o acesso a elementos interativos como links de anúncios ou avaliações, relatar cargas de tráfego orgânico, atualizar o status de direitos autorais dos dados e definir horários de pico de tráfego para evitar sobrecarga de recursos. Este arquivo garante que a coleta de dados esteja alinhada com as leis de privacidade e restrições de recursos, promovendo uma interação responsável com o site. Depois de configurado, a Bright Data analisa o arquivo collectors.txt e o Brightbot aplica as diretrizes aprovadas durante suas operações.
Tecnologia de proteção
Ao longo dos anos, a Bright Data adicionou muitos recursos e camadas de tecnologia para ajudar a identificar, prevenir e mitigar o abuso intencional ou acidental de sua rede. Ferramentas de conformidade, como Verificação KYC, serão detalhadas na seção de conformidade. Aqui, vamos nos concentrar na tecnologia automática implantada para esse fim.
Monitores de integridade (proteção contra DDoS)
Para cada domínio visado por qualquer um dos produtos da Bright Data, o sistema abre um monitor de integridade. O monitor de integridade rastreia a capacidade de resposta do domínio 24 horas por dia, 7 dias por semana, em todas as localizações geográficas e intervalos de tempo. Cada monitor de integridade também recebe um feed do tráfego agregado da Bright Data direcionado ao domínio que está monitorando em tempo real. Se o monitor encontrar uma correlação entre o tráfego da Bright Data e uma degradação na capacidade de resposta do domínio, ele aplicará um limite de taxa correspondente à última taxa de tráfego que não teve impacto adverso no domínio. Esse limite de taxa é armazenado em cache e não é removido.
Abaixo está um exemplo de tal caso - o impacto foi identificado e um limite de taxa aplicado em 2 minutos. O marcador vermelho mostra o tráfego que foi subsequentemente bloqueado pela Bright Data e o RTT do site voltando ao normal.

Classificações de domínios
A Bright Data classifica todos os domínios visados por seus clientes em todos os produtos. Mais de 300.000 novos domínios são classificados todos os dias. Algumas classificações são permanentemente colocadas na lista negra, como malware e phishing, e algumas categorias são bloqueadas por padrão, mas podem ser visadas com revisão especial e aprovação de conformidade, como agências governamentais e ONGs.

Bloqueios de autenticação e cookies
Por padrão, a Bright Data considera todos os dados por trás do login como privados. Assim, em todo o tráfego visível, a Bright Data bloqueia o uso de cookies de autenticação e, ao usar navegadores, a Bright Data também bloqueia a capacidade de digitar senhas.
É possível obter permissão especial enviando uma solicitação ao compliancDCe - a permissão será concedida em casos muito raros, nos quais o proprietário dos dados tenha consentido especificamente com o acesso do cliente.
Rastreamento de casos de uso
Durante a conformidade com Verificação KYC, os domínios e verticais alvo declarados pelo cliente ao solicitar acesso à rede de Proxy residencial são registrados.
Após a aprovação, a Bright Data acompanha o uso do cliente e, se ele se desviar dos casos de uso declarados, uma bandeira é levantada com a equipe de conformidade, que investigará com o cliente.
Conformidade e ética
- Política de uso aceitável -
https://brightdata.com/trustcenter/acceptable-use-policy-bright-data - Processo de Verificação KYC (Conheça seu Cliente) da Bright Data -
https://brightdata.com/trustcenter/kyc - Monitoramento de uso -
https://brightdata.com/trustcenter/proxy-services-verticals-usage-monitoring - Classificação de domínios -
https://brightdata.com/trustcenter/ethical-network-use-classification - Prevenção e tratamento de abusos -
https://brightdata.com/trustcenter/abuse - Proteção da WWW -
https://brightdata.com/trustcenter/brightbot-ethical-web-data-guardian - Monitoramento da Web -
https://brightdata.com/trustcenter/ethical-web-data-collection-monitoring - Infosec -
https://brightdata.com/trustcenter/data-security-overview-protection-measures