Neste artigo, discutiremos:
O que torna uma rede de coleta de dados ética do ponto de vista técnico?
[1] Execução de procedimentos de Verificação KYC
- Todos os usuários potenciais da rede devem passar por um rigoroso processo de verificação conduzido por um funcionário sênior e/ou um diretor de conformidade.
- Se um cliente potencial for uma empresa, os seguintes itens devem ser analisados: (i) O registro da empresa para garantir que seja real, (ii) O site da empresa, (ii) O domínio de e-mail da empresa (iv) Perfis da empresa nas redes sociais.
- Para potenciais clientes freelancers, entrevistas em vídeo e prova física de identificação devem ser um pré-requisito. As redes de coleta de dados também devem confirmar que o endereço físico é legítimo e que o endereço IP e os endereços de cobrança do cartão de crédito correspondem.
[2] Bloqueio de pontos finais de API passíveis de ação
As redes de coleta de dados éticas devem bloquear pontos finais de API que possam ser potencialmente mal utilizados e abusados, incluindo:
Criação de contas falsas (em mídias sociais, sites de avaliações, instituições financeiras etc.)
Fraude publicitária (por exemplo, fraude de cliques)
Avaliações fictícias (incluindo avaliações falsas de produtos, avaliações de serviços e votação em massa)
[3] Supervisionar o uso da rede global
O uso da rede global deve ser monitorado para garantir que não se aproxime das taxas de ataque de negação de serviço (DDoS). Caso as taxas de tráfego comecem a subir, elas serão automaticamente reduzidas.
O monitoramento de tráfego não se limita ao tráfego de um cliente específico para um domínio de destino específico, mas abrange o tráfego agregado de todos os clientes em todos os produtos para esse domínio de destino, de modo que não haja uma situação de DDoS não intencional.

Fonte da imagem: Bright Data
Além disso, os gerentes de conta devem realizar um monitoramento granular dos logs de eventos do cliente, uma vez que as permissões de rede tenham sido concedidas. Se for encontrada uma discrepância entre o caso de uso de Verificação KYC do referido cliente e a atividade prática da conta, a conta deve ser encerrada permanentemente.
Por exemplo, um cliente que alega estar realizando testes em sites, mas, em vez disso, tenta usar a rede para cometer fraude publicitária. Por meio do monitoramento, as equipes de conformidade podem identificar esse tipo de abuso da rede e impedi-lo imediatamente.
[4] A regra de limite de tráfego por site – Não cause danos
As redes de coleta de dados devem garantir que suas atividades não interfiram na qualidade regular do serviço do site. Mesmo que a tarefa de coleta esteja consumindo 10% dos recursos do site e não chegue nem perto das proporções de um DDoS, ela ainda pode afetar o desempenho e a coleta de estatísticas operacionais, o que fará com que a equipe de produtos do site chegue a conclusões erradas sobre o comportamento de seus usuários.
Assim, as redes de coleta de dados devem estudar seus alvos e definir limites por domínio de acordo com os níveis operacionais padrão de tráfego do site. Isso garante que nenhum dano seja causado aos níveis de serviço, ao mesmo tempo em que ajuda a manter as estatísticas de uso do site.
[5] Colocação de domínios não públicos na lista negra
Os provedores de dados éticos devem colocar na lista negra os domínios que não contêm informações públicas e de código aberto que possam ser alvo de atividades abusivas. Isso pode incluir:
Ataques a servidores de pagamento – Isso pode incluir qualquer coisa, desde compras ilegais usando credenciais falsas ou roubadas até hacking e ataques DDoS.
Interrupção do servidor API – Isso pode ser um ataque direto a servidores web, aplicativos ou ambos.
[6] Consentimento dos pares
As redes legítimas de coleta de dados só encaminharão o tráfego através de dispositivos de pares após o consentimento ativo ter sido dado a uma descrição detalhada dos termos de uso. Por padrão, o usuário não está inscrito. Isso deve ser uma troca justa, o que significa que as redes de coleta de dados podem encaminhar o tráfego através de dispositivos de pares e, por outro lado, os pares são compensados por esses recursos. Isso pode incluir uma assinatura atualizada gratuita, uma versão sem anúncios do aplicativo ou qualquer outra coisa que influencie positivamente a experiência do usuário.
[7] Recursos ociosos
As redes éticas de coleta de dados têm como objetivo usar apenas recursos de pares (ou seja, encaminhar tráfego) sob condições estritas, garantindo pouca ou nenhuma mudança no que diz respeito à experiência do usuário. Essas condições devem garantir, no mínimo, que os dispositivos dos usuários:
- Estejam ociosos (não em uso) quando o tráfego estiver sendo roteado
- Estejam conectados ao WiFi usando quantidades muito limitadas de dados 3G/LTE
- Tenham bateria suficiente
A largura de banda média por par deve variar de acordo com a localização geográfica. A média global recomendada na prática deve ser de 8 MB por par, por dia – ou seja, metade do tamanho de qualquer página de produto da Amazon.
Fonte da imagem: Bright Data[8] Limitações de rede definidas
As plataformas éticas de coleta de dados monitoram e limitam o tráfego através de dispositivos individuais dos pares, a fim de consumir recursos insignificantes do dispositivo em comparação com o uso do próprio usuário. Por exemplo, se um usuário médio visita vários sites durante o dia, ouve música e assiste a alguns vídeos curtos, o uso de uma plataforma ética de coleta de dados, em comparação, seria equivalente a carregar uma única página de produto da Amazon em um navegador normal.
[9] Opt-in/Opt-out
As redes de coleta de dados devem ser baseadas em uma rede peer-to-peer democrática. Os indivíduos que compõem essa rede precisam ter liberdade para optar por participar ou não a qualquer momento. Esse é um princípio básico da transparência da Internet que deve ser respeitado para garantir um fluxo descentralizado e livre de dados e informações.
[10] Em conformidade com o GDPR (segurança, armazenamento e PII)
As redes de coleta de dados éticas devem aderir às regras do GDPR, incluindo, mas não se limitando a:
- Coletar apenas IPs como PII com o consentimento total do usuário – protegendo a privacidade dos usuários e não coletando nenhuma outra informação privada ou estatísticas comportamentais. Absolutamente nenhum dado do usuário ou sobre o usuário é coletado.
- Cumprir integralmente as regras do GDPR e da CCPA para a segurança e armazenamento dos dados coletados, como IDEs de Scraper de Web do GDPR e Processadores de Dados do GDPR.
Conclusão
A Bright Data cumpre todos os 10 mandamentos éticos de coleta de dados. Recomenda-se a devida diligência ao selecionar uma plataforma de coleta de dados, a fim de garantir:
- O valor a longo prazo das informações
- A viabilidade legal dos dados e das análises, produtos e serviços derivados
- A segurança de suas redes, sistemas e software
E, finalmente, o ingrediente que se destaca acima de tudo é a transparência — você deve demonstrar transparência e confiabilidade —, portanto, como orientação, esteja aberto a mudanças frequentes e verifique e teste suas diretrizes com frequência — este é um domínio em rápida evolução, e acertar não é fácil.