O CAPTCHA foi desenvolvido para distinguir entre usuários humanos e programas de computador automatizados. É normalmente utilizado como uma barreira protetora para serviços web para impedir uma série de ações prejudiciais ou perturbadoras que podem ser realizadas por bots ou scripts automatizados, incluindo a criação de inúmeras contas, a execução de ataques automatizados de força bruta, a raspagem de dados e o envio de spam.
O CAPTCHA evita estas ações apresentando um teste de desafio-resposta, criado para ser fácil para os humanos mas difícil para os algoritmos e programas automatizados.
Neste artigo, ficará a conhecer alguns dos tipos mais comuns de CAPTCHAS, bem como a forma de utilizar o Desbloqueador da Web de Bright Data para ultrapassar estes desafios.
Diferentes tipos de CAPTCHAs
Os desafios CAPTCHA podem aparecer de várias formas, incluindo as seguintes:
CAPTCHAs baseados em texto
Os CAPTCHAs baseados em texto são uma das formas mais comuns de CAPTCHA, em que os usuários têm de identificar e introduzir corretamente uma série de caracteres apresentados num tipo de letra distorcido ou com um estilo criativo. O acesso a um sítio web ou recurso em linha é então concedido ou recusado com base na exatidão da resposta:
Eis algumas das características dos CAPTCHAs baseados em texto:
- Distorção: Os CAPTCHAs baseados em texto aplicam frequentemente técnicas de distorção para obscurecer caracteres, tornando-os difíceis de interpretar com precisão por software automatizado. Esta distorção engloba modificações nas dimensões, formas, rotações, tipos de letra, estilos e espaçamentos.
- Restrições de tempo: Os desafios CAPTCHA baseados em texto têm normalmente um limite de tempo predefinido para serem concluídos. Isto introduz uma camada adicional de segurança, impedindo que software sofisticado explore os atrasos de tempo para enfrentar estes desafios.
- Sensibilidade a maiúsculas e minúsculas: Os CAPTCHAs baseados em texto incluem normalmente letras maiúsculas e minúsculas, e os usuários são frequentemente solicitados a introduzir caracteres com a sensibilidade às maiúsculas e minúsculas adequada.
- Randomização: Os caracteres apresentados neste desafio CAPTCHA são normalmente gerados de forma aleatória para garantir que cada desafio seja único.
CAPTCHAs baseados em imagens
Nos CAPTCHAs baseados em imagens, os usuários são confrontados com imagens que devem identificar e com as quais devem interagir corretamente para obterem acesso. Estes desafios de imagem são concebidos para serem visualmente envolventes e desafiantes para os scripts automatizados, porque requerem capacidades sofisticadas de reconhecimento de imagem, que normalmente ultrapassam as capacidades dos scripts automatizados:
Seguem-se algumas das principais características dos CAPTCHAs baseados em imagens:
- Identificação visual e interação: Os CAPTCHAs baseados em imagens exigem frequentemente que os usuários identifiquem, reconheçam e interajam com componentes específicos incorporados numa imagem. Estes componentes podem incluir objetos, sinais ou quaisquer outros elementos visualmente distinguíveis.
- Resolução de puzzles: Alguns tipos de CAPTCHAs baseados em imagens apresentam aos usuários um puzzle que têm de resolver. Estas tarefas podem consistir em fazer corresponder elementos semelhantes ou completar com êxito padrões visuais complexos.
- Restrições de tempo: Tal como os seus homólogos baseados em texto, os CAPTCHAs baseados em imagens impõem frequentemente um limite de tempo.
CAPTCHAs baseados em áudio
Os CAPTCHAs baseados em áudio foram desenvolvidos principalmente como um meio alternativo de verificação humana para pessoas com deficiência visual. No entanto, podem servir como uma alternativa valiosa para os usuários que se deparam com desafios na decifração de texto distorcido ou na realização de tarefas baseadas em imagens.
Os desafios CAPTCHA com áudio podem incluir atividades como ouvir uma sequência de caracteres e introduzi-los na ordem correta ou responder a instruções baseadas em áudio, como clicar num botão designado ao ouvir uma palavra específica:
Seguem-se algumas das características dos CAPTCHAs baseados em áudio:
- Acessibilidade: Os CAPTCHAs baseados em áudio são concebidos principalmente com o objetivo de proporcionar acessibilidade aos usuários com deficiências visuais que podem depender de leitores de ecrã ou de outras tecnologias de assistência.
- Baixo nível de segurança: Em comparação com os seus homólogos visuais, os CAPTCHAs baseados em áudio oferecem um nível de segurança inferior. Isto deve-se principalmente a uma maior vulnerabilidade a bots avançados capazes de analisar e responder a desafios de áudio. Para mitigar este risco, os CAPTCHAs de áudio incorporam frequentemente elementos como ruído de fundo, variação de tom ou outras alterações de áudio para aumentar a complexidade do desafio.
CAPTCHAs baseados em puzzles
Os desafios de CAPTCHA baseados em puzzles exigem que os usuários completem com precisão as peças de um puzzle maior. Este método de verificação humana proporciona uma abordagem mais segura do que os CAPTCHAs baseados em texto. Alguns puzzles comuns incluem puzzles de deslizar, reconhecimento de padrões ou correspondência de cores:
Seguem-se algumas das principais características dos CAPTCHAs baseados em puzzles:
- Segurança reforçada: Os CAPTCHAs baseados em puzzles são conhecidos por serem menos vulneráveis a bots automatizados, uma vez que exigem capacidades, como a correspondência de padrões e o reconhecimento de imagens, que são mais complexas do que o reconhecimento ótico de caracteres e texto normal.
- Interatividade: Os CAPTCHAs baseados em puzzles são concebidos para serem interativos. Isto torna o processo mais envolvente e agradável para o usuário.
Como contornar CAPTCHA com o Desbloqueador da Web
Graças à crescente popularidade da raspagem da web, as soluções de resolução de CAPTCHA utilizam agora a aprendizagem automática e a inteligência artificial para identificar e contornar eficazmente os desafios de CAPTCHA. Uma dessas soluções é o Desbloqueador da Web de Bright Data.
Com o Desbloqueador da Web, iniciar um pedido de proxy é fácil; os usuários podem especificar o sítio web de destino e receber uma resposta bem organizada em vários formatos, incluindo HTML e JSON. O processo de recuperação de dados também é simples, graças ao algoritmo do Desbloqueador da Web, que identifica as redes de proxy mais adequadas, personaliza os cabeçalhos dos pedidos, implementa a impressão digital do navegador e resolve desafios CAPTCHA de qualquer tipo.
Para tirar partido do Desbloqueador da Web para a resolução de CAPTCHA, inscreva-se para um teste gratuito. Depois de introduzir as suas informações nos campos de entrada designados, será conduzido a uma interface de boas-vindas:
Selecione Infraestrutura de Raspagem e Proxies e opte pela solução do Desbloqueador da Web. Será então guiado para o segmento Configuração, onde pode introduzir o nome e as definições de configuração pretendidos:
Uma vez concluído, selecione Guardar e ativar. Antes de o produto ser ativado, lhe será pedido que introduza as suas informações de pagamento. Este processo é necessário para ativar os seus créditos gratuitos, mas não será cobrado.
Depois de introduzir as suas informações de pagamento, volte à secção Infraestrutura de Raspagem e Proxies. Localize o Desbloqueador da Web recentemente gerado na lista tabulada de recursos e clique nele. Será redirecionado para o separador Parâmetro de Acesso da sua solução do Desbloqueador da Web:
As suas credenciais de acesso incluem o seu host, nome de usuário e palavra-passe, que serão utilizados para autenticar os pedidos de proxy. Clique no botão Verificar código e integração e lhe será apresentado um script curl:
Copie o script e abra o terminal ou a linha de comandos. Execute o script e deverá ver os dados a serem obtidos e apresentados na janela do terminal:
{
"ip": "196.212.93.740",
"country": "US",
"asn": {
"asnum": 265,
"org_name": "Vodafone"
},
"geo": {
"city": "Newyork",
"region": "NE",
"region_name": "North East USA",
"postal_code": "",
"latitude": 40.7128,
"longitude": 74.0060,
"tz": "USA/NY",
"lum_city": "newyork",
"lum_region": "ne"
}
}
Isto mostra que o Desbloqueador da Web executou uma consulta no URL https://lumtest.com.
Para mostrar ainda mais as capacidades do Desbloqueador da Web de Bright Data, aqui está uma olhada em como usar o Desbloqueador da Web para aceder a um recurso da web protegido por CAPTCHA.
Para efeitos deste artigo, irá utilizar o Desbloqueador da Web para aceder à página de início de sessão de Postman protegida por CAPTCHA.
Numa janela privada ou anónima, cole o URL de início de sessão de Postman (ou seja, https://identity.getpostman.com/login) e prima Enter ou Return. Aparecerá um desafio CAPTCHA, como mostrado aqui:
Quando concluído com êxito, será aberta a página de início de sessão de Postman:
Para contornar este CAPTCHA usando o Desbloqueador da Web de Bright Data, inicie um pedido de proxy através do Desbloqueador da Web para Postman, executando o seguinte pedido curl na sua linha de comando ou terminal:
curl --proxy brd.superproxy.io:22225 --proxy-user [BRIGHTDATA USERNAME]:[BRIGHTDATA PASSWORD] -k https://identity.getpostman.com/login
Certifique-se de que substitui o endereço de proxy e o usuário pelas suas credenciais proxy do Desbloqueador da Web de Bright Data.
Na execução do comando curl, o Desbloqueador da Web deve contornar automaticamente o CAPTCHA:
Para confirmar isto, copie a resposta curl e cole-a num editor web à sua escolha. O resultado deve ser a representação HTML da página de início de sessão de Postman:
Para simplificar a integração do Desbloqueador da Web no seu sistema, pode gerar o código necessário especificando a linguagem de programação da sua escolha, o URL de destino e quaisquer configurações adicionais. Basta copiar o código gerado e incorporá-lo na sua solução de coleta de dados para usufruir de uma experiência simples e sem complicações:
Conclusão
O aparecimento de ferramentas como o Desbloqueador da Web de Bright Data redefiniu o acesso e a coleta automatizados de dados. Neste artigo, ficou a conhecer cinco tipos diferentes de CAPTCHAs e técnicas para os contornar.
Embora o Desbloqueador da Web possa oferecer uma via para a resolução automática de CAPTCHAs, é crucial reconhecer as implicações éticas e legais da sua utilização e garantir que seja utilizado de forma responsável e não maliciosa.