O que é um rastreador da web?

6 min read
What is a web crawler featured image

Os rastejadores da web são uma parte crítica da infraestrutura da Internet. Neste artigo, iremos discutir:

Definição de rastreador da web

Um rastreador da web é um robô de software que escaneia a Internet e descarrega os dados que encontra. A maior parte dos rastreadores da web são operados por motores de busca como Google, Bing, Baidu e DuckDuckGo. Os motores de busca aplicam os seus algoritmos de pesquisa aos dados coletados para formar o seu índice de motor de busca. Os índices permitem aos motores de busca fornecer ligações relevantes aos usuários com base nas suas consultas de pesquisa.

Existem rastreadores da web que servem outros interesses para além dos motores de busca, como WayBack Machine do Internet Archive, que fornece visões gerais de sítios web num determinado momento no passado.  

Como funcionam os rastreadores da web?

Os rastreadores da web, como o Googlebot de Google, começam cada dia com uma lista de sítios que querem rastrear. Isto é conhecido como um orçamento de rastejamento. O orçamento reflete a procura de páginas de índice. Dois fatores principais influenciam o orçamento de rastejamento: a popularidade e a obsolência. Os URLs que são mais populares na Internet tendem a ser rastreados com mais frequência para os manter mais frescos no índice. Os rastreadores da web também tentam evitar que os URLs se tornem obsoletos no índice.

Quando um rastreador da web se liga a um sítio, começa por descarregar e ler o ficheiro robots.txt. O ficheiro robots.txt faz parte do protocolo de exclusão de robôs (REP), um grupo de normas web que regulam a forma como os robôs rastejam a web, acedem e indexam o conteúdo, e servem esse conteúdo aos usuários. Os proprietários do sítio podem definir o que os agentes de usuário podem e não podem aceder no sítio. Robots.txt também pode definir uma diretiva de atraso de rastreamento para acelerar o ritmo dos pedidos que um rastreador faz ao sítio web. Robots.txt também lista os mapas do sítio associados a um sítio, para que o rastreador possa encontrar cada página e quando foi atualizada pela última vez. Se uma página não tiver mudado desde a última visita do rastreador, será saltada desta vez.  

Quando um rastreador da web finalmente chega a uma página a ser rastejada, renderiza a página num navegador, carregando todo o HTML, código de terceiros, JavaScript e CSS. Esta informação é armazenada na base de dados do motor de busca e depois utilizada para indexar e classificar a página mais tarde. Também descarrega todos os links da página. As ligações que ainda não estão no índice do motor de busca são adicionadas a uma lista para serem pesquisadas mais tarde.

A conformidade com as diretivas num ficheiro robots.txt é voluntária. A maioria dos principais motores de busca seguem as diretivas de robots.txt, mas alguns não o fazem. Maus atores como os spammers e botnets ignoram as diretivas robots.txt. Até mesmo alguns rastreadores legítimos da web, como o Internet Archive, ignoram o robots.txt.

Exemplo de rastreadores da web

Os motores de busca têm vários tipos de rastreadores da web. Por exemplo, o Google tem 17 tipos de bots:

  • APIs-Google
  • AdSense
  • AdsBot Mobile Web Android
  • AdsBot Mobile Web
  • Googlebot Image
  • Googlebot News
  • Googlebot Video
  • Googlebot Desktop
  • Googlebot Smartphone
  • Mobile Apps Android
  • Mobile AdSense
  • Feedfetcher
  • Google Read Aloud
  • Duplex on the web
  • Google Favicon
  • Web Light
  • Google StoreBot

Porque os rastreadores da web são importantes para SEO

O objetivo da SEO é que o seu conteúdo seja prontamente encontrado quando um usuário procura um termo de pesquisa relacionado. O Google não pode saber onde classificar o seu conteúdo se este não for rastreado e indexado.

Os sítios de comércio eletrónico muitas vezes rastejam os sítios dos concorrentes para analisar a seleção de produtos e preços. Este tipo de coleta de dados é normalmente conhecido como “raspagem da web em vez de rastejamento da web“. A raspagem da web centra-se em elementos de dados HTML específicos. Os raspadores da web são muito focados, enquanto os rastreadores de web lançam uma ampla rede e coletam todo o conteúdo. Do lado do usuário, existem também ferramentas de API de SERP que ajudam a rastejar e raspar os dados de SERP.  

Desafios que os rastreadores da web enfrentam

Há uma série de desafios que os rastreadores da web podem enfrentar.

DesafioDescrição
Restrições de Robots.txtSe o rastreador da web honra as restrições de robots.txt, pode não conseguir aceder a certas páginas web ou submeter pedidos acima de um limite arbitrário.
Proibições de IPUma vez que alguns rastreadores da web não honram restrições de robots.txt, podem implementar uma série de outras ferramentas para restringir o rastejamento da web. Os sítios web podem proibir endereços IP que se saiba serem maliciosos, como proxies de dados gratuitos utilizados por fraudadores ou certos endereços IP de centros de dados.
Restrições de GeolocalizaçãoAlguns sítios web exigem que um visitante esteja localizado numa região geográfica específica para aceder ao conteúdo do sítio. Um bom exemplo é tentar aceder ao conteúdo da Netflix USA desde um local fora dos EUA. A maioria das restrições geográficas podem ser ultrapassadas por meio da utilização de redes de proxies residenciais.  
CAPTCHAsAlguns sítios web, quando detetam grandes volumes de atividade desde fontes suspeitas, usarão CAPTCHAs para verificar se um humano real está por detrás de um pedido. Os CAPTCHAs podem perturbar a atividade dos rastreadores da web. Muitas soluções de raspagem da web têm ferramentas e tecnologias para ultrapassar este tipo de blocos. Essas ferramentas de desbloqueio utilizam frequentemente uma solução de resolução de CAPTCHA.  

Resumo

Os rastejadores da web são uma parte crítica da infraestrutura da Internet. Permitem aos motores de busca coletar os dados necessários para construir os seus índices de pesquisa, o que lhes permite fornecer resultados de pesquisa para consultas de usuários. Muitas empresas procuram rastejadores da web para os ajudar na sua investigação. Na realidade, estão frequentemente concentrados em apenas um ou dois sítios, como a Amazon, Adidas, ou listagens de Airbnb. Nestes casos de utilização, ferramentas como o IDE para Raspador da Web de Bright Data são mais adequadas às suas necessidades.