Os 9 maiores mitos sobre a raspagem da web

A raspagem da web tem uma má reputação porque pode ser usada para fins maliciosos. Mas a raspagem da web também pode ser usada para o bem! Nesta publicação do blogue, dissipamos alguns mitos comuns sobre a raspagem da web para que possa ver como esta técnica pode ser usada para o bem
7 min read
The-8-biggest-myths-about-web-scraping 1

Nesta publicação iremos cobrir

Mito #1: A raspagem da web não é uma prática legal

Muitas pessoas têm a ideia errada de que a raspagem da web é ilegal. A verdade é que é perfeitamente legal desde que não se coleta informação protegida por palavra-passe, ou dados pessoais identificáveis (PII, por sua sigla em inglês). O outro aspecto a ter em atenção são os Termos de Serviço (ToS) dos sítios web alvo, e assegurar que as regras, regulamentos e estipulações são seguidas ao coletar informação de um sítio web específico. As empresas que visam dados da web de fonte aberta que são anónimos e que apenas trabalham com redes de coleta de dados que são compatíveis com CCPA e com RGPD nunca podem correr mal.

Nos Estados Unidos, a nível federal, não existem leis que proíbam a raspagem da web desde que a informação a ser coletada seja pública e não seja feito nenhum dano ao sítio alvo no processo de raspagem. Na União Europeia e no Reino Unido, a raspagem é vista do ponto de vista da propriedade intelectual, ao abrigo da Lei dos Serviços Digitais. Isto afirma que “A reprodução de conteúdos publicamente disponíveis” não é ilegal, ou seja, desde que os dados coletados estejam disponíveis ao público, é legal

Mito #2: Raspar é só para desenvolvedores

Este é um dos mitos mais comuns. Muitos profissionais sem formação técnica normalmente desistem de ser capazes de controlar a sua entrada de dados sem sequer investigar isto. É verdade que muitas técnicas de raspagem requerem competências técnicas que principalmente os programadores possuem. Mas também é verdade que existem novas ferramentas sem código atualmente disponíveis. Estas soluções ajudam a automatizar o processo de raspagem, disponibilizando raspadores de dados pré-construídos a um empresário médio. Incluem também modelos de raspagem para sítios populares como a Amazon, Booking e Facebook.

Mito #3: A Raspagem é Hacking

Isto não é verdade. O hacking consiste em atividades ilegais que normalmente resultam na exploração de redes ou sistemas informáticos privados. O objetivo de assumir o controlo destes consiste em realizar atividades ilícitas, tais como roubar informação privada ou manipular sistemas para ganho pessoal.

A raspagem da web, por outro lado, é a prática de acesso à informação disponível ao público a partir dos sítios web alvo. Esta informação é tipicamente utilizada pelas empresas para melhor competir no seu espaço. Isto resulta em melhores serviços, e preços de mercado mais justos para os consumidores.

Mito #4: Raspar é fácil

Muitas pessoas acreditam erradamente que “a raspagem é canja”. “Qual é o problema?”, perguntam, “tudo o que precisa de fazer é entrar no sítio web que está a visar e recuperar a informação alvo”. Conceptualmente isto parece correto, mas na prática, a raspagem é um esforço muito técnico, manual e de recursos pesados. Quer opte por utilizar Java, Selenium, PHP, ou PhantomJs, precisa de manter uma equipa técnica que saiba escrever scripts nestas linguagens.

Muitas vezes, os sítios alvo têm arquiteturas complexas e mecanismos de bloqueio que estão em constante mudança. Uma vez ultrapassados esses obstáculos, os conjuntos de dados precisam normalmente de ser limpos, sintetizados e estruturados para que os algoritmos os possam analisar para obter conhecimentos valiosos. O resultado final é que a raspagem é tudo menos fácil.

Mito #5: Só é necessário um raspador para todos os sítios alvo

Isto simplesmente não é verdade. A primeira coisa a ter em mente é que as arquiteturas dos sítios web variam muito. Assim, por exemplo, se uma empresa estiver a usar um raspador para recolher o sentimento do público alvo no Facebook, precisará de um raspador completamente diferente para, digamos, Instagram. E mesmo que se esteja a utilizar o ‘Raspador A’, configurado especificamente para o ‘Sítio alvo A’, é preciso lembrar que os sites estão constantemente a mudar a estrutura do site e a criar novos mecanismos de bloqueio de forma consistente. Assim, é melhor trabalhar com raspadores que utilizam capacidades de Aprendizagem Automática (ML) a fim de evoluir à medida que as mudanças ocorrem em tempo real.

Mito #6: Uma vez coletados, os dados estão “prontos a usar”

Normalmente não é este o caso. Há muitos aspectos a considerar na coleta de informação alvo. Por exemplo, em que formato pode a informação ser capturada versus em que formato os seus sistemas são capazes de ingerir dados. Por exemplo, digamos que todos os dados que está a coletar estão em formato JSON, mas os seus sistemas só podem processar ficheiros em CSV. Além do formato, há também as questões de estruturação, síntese e limpeza de dados antes que estes possam ser realmente utilizados. Isto pode incluir a remoção de ficheiros corrompidos ou duplicados, por exemplo. Só depois de os dados estarem formatados, limpos e estruturados é que estão prontos para serem analisados e utilizados.

Mito #7: A raspagem de dados é um processo totalmente automatizado

Muitas pessoas acreditam que existem bots que simplesmente rastejam sítios web e recuperam informações ao clique de um botão. Isto não é verdade, a maioria das raspagens da web é manual e requer equipas técnicas para supervisionar o processo e resolver problemas. Existem, no entanto, formas de automatizar este processo, quer utilizando uma ferramenta de coleta de dados ou simplesmente comprando conjuntos de dados pré-colhidos que não requerem envolvimento nas complexidades do processo de raspagem de dados.

Mito #8: É fácil escalar operações de raspagem de dados

Isto é um mito total. Se estiver a manter software e hardware de coleta de dados internos, bem como uma equipa técnica para gerir as operações, quando se procura operações de escala significativa, é necessário acrescentar novos servidores, contratar novos membros de equipa, e construir novos raspadores para os sítios alvo. Considerar que só a manutenção de um servidor poderia levar um negócio até uma média de $1.500 numa base mensal. Quanto maior for a empresa, maior será o múltiplo de custos.

Por outro lado, ao confiar em Data como fornecedor de Serviços, contudo, as operações de escalonamento podem ser extremamente fáceis, uma vez que se está a confiar em infraestruturas e equipas de terceiros, assim como mapas ao vivo de milhares de domínios da web em constante mudança.

Mito #9: A raspagem da web produz grandes quantidades de dados utilizáveis

Normalmente não é este o caso. As empresas que realizam coleta manual de dados podem muitas vezes receber dados ou informações imprecisos e ilegíveis. É por isso que é importante utilizar ferramentas e sistemas que efetuem a validação da qualidade e que encaminhem o tráfego através de verdadeiros dispositivos de pares. Isto permite aos sítios alvo identificar os requerentes como verdadeiros usuários e “os encoraja” a recuperar conjuntos de dados precisos para a GEO em questão. A utilização de uma rede de coleta de dados que utiliza validação de qualidade lhe permitirá recuperar uma pequena amostra de dados, validá-la, e só então executar o trabalho de coleta na sua totalidade, poupando tanto tempo como recursos.

Em conclusão

Como se pode ver, existem muitas falsas concepções sobre a raspagem de dados. Agora que tem os factos, pode abordar melhor os seus futuros trabalhos de coleta de dados.