Coletar ou não coletar, eis a questão

Este guia fornecerá as melhores técnicas para manter sua coleta de dados em conformidade com as regras de privacidade e as melhores práticas. Desde a realização de uma coleta de dados altamente direcionada até a revisão de arquivos Robots.txt, nós temos tudo o que você precisa.
4 min de leitura
To Collect Or Not To Collect That Is The Questio

Neste artigo, discutiremos:

  • Quais conjuntos de dados podem ser problemáticos de coletar? 
  • As melhores maneiras de garantir que sua coleta de dados siga as práticas recomendadas 

Quais dados de sites podem ser problemáticos de coletar?

Você deve evitar coletar:

  • Dados protegidos por senha
  • Informações protegidas por direitos autorais
  • Informações de identificação pessoal (PII), por exemplo, nome, endereço de e-mail, data de nascimento, número de telefone, informações de cobrança, etc.

A coleta desse tipo de dados pode ter implicações legais/financeiras significativas para sua empresa. Isso se deve ao Regulamento Geral de Proteção de Dados (GDPR) e à Lei de Privacidade do Consumidor da Califórnia (CCPA), que estipulam que as empresas podem ser multadas por falta de conformidade.

**Nenhum conteúdo desta publicação constitui aconselhamento jurídico. Antes de fazer quaisquer alterações ou tomar decisões que afetem a forma como você coleta dados ou o tipo de dados que você coleta, consulte um advogado.**

Melhores maneiras de garantir que sua coleta de dados seja feita corretamente

#1: Realize uma coleta de dados direcionada

Em vez de apenas coletar grandes volumes de dados ou sites inteiros que podem conter dados privados, identifique quais dados são essenciais para os projetos para os quais você está coletando e colete apenas esses. Por exemplo, em vez de coletar perfis inteiros de mídia social, colete apenas postagens/comentários relacionados ao seu produto ou setor para avaliar a opinião do público-alvo.

#2: Colete apenas dados disponíveis publicamente

A coleta de dados pode ser complicada. Muitos pontos de dados de código aberto podem ser tecnicamente difíceis de coletar devido à complexa arquitetura do site de destino, mas esses dados são públicos e totalmente legais para rastreamento. No entanto, se os dados forem protegidos por senha ou definidos por lei como PII, ou seja, indicativos da identidade pessoal de um indivíduo, eles devem ser evitados. Certifique-se de ter políticas e procedimentos de coleta de dados em vigor que garantam que os coletores estejam monitorando apenas dados de código aberto.

#3: Revise os arquivos Robots.txt do site de destino

Esses arquivos existem em todos os sites e definem essencialmente o que os robôs/spiders/crawlers podem ou não fazer no site. É um diretório raiz que pode ser encontrado adicionando “/robots.txt” no final de qualquer domínio público. Certifique-se de verificar esses arquivos e garantir que seus rastreadores da web estejam seguindo essas diretrizes ao rastrear os sites de destino.

#4: Use uma ferramenta sofisticada de coleta de dados

Ferramentas como a API Web Scraper da Bright Data permitem que você especifique exatamente quais campos de dados coletar, evitando assim dados pessoais e quaisquer outros Conjuntos de dados indesejados. 

O compromisso da Bright Data em manter os dados privados em sigilo é de extrema importância, e é por isso que lançamos uma ferramenta que permite que você saiba se seus dados disponíveis publicamente foram coletados pelas plataformas de coleta de dados da Bright Data. Você pode então solicitar que essas informações sejam removidas, o que faz parte do nosso compromisso com a transparência total e a conformidade legal. 

Conclusão

Garantir que você colete apenas conjuntos de dados 100% éticos e em conformidade com os regulamentos é extremamente importante para o valor de longo prazo do seu negócio. Evite riscos implementando uma ou todas as sugestões acima mencionadas hoje mesmo. Interessado em saber mais sobre os produtos? Registre-se agora e comece seu teste gratuito de Proxy ou baixe amostras gratuitas de conjuntos de dados!