Como contornar CAPTCHAs com Python

Explore as principais técnicas e as melhores ferramentas para contornar CAPTCHAs em Python e aprenda como automatizar soluções de CAPTCHA.
12 min read
How to bypass CAPTCHAs with Python

Neste tutorial, você descobrirá:

  • O que são CAPTCHAs
  • Se eles podem ser automatizados em Python
  • O que ter em mente ao avaliar as soluções para contornar CAPTCHAs em Python
  • As 5 principais técnicas para contornar CAPTCHAs em Python
  • Os melhores solucionadores de CAPTCHAs em Python

Vamos nos aprofundar!

CAPTCHAs: definição e tipos

Um CAPTCHA, abreviação de “Teste de Turing público completamente automatizado para distinguir entre computadores e pessoas”, é um desafio incorporado em uma página web, aplicativo ou software para distinguir entre usuários humanos e bots. Isso normalmente envolve tarefas que são fáceis para humanos resolverem, mas difíceis para softwares automatizados. 

O objetivo dos CAPTCHAs é impedir que sistemas automatizados acessem ou interajam com sites ou serviços. Mantê-los eficazes se tornou cada vez mais desafiador, principalmente com os recentes avanços em IA e redes neurais. Isso tornou os desafios antibots mais complexos. 

Agora, vamos explorar os tipos mais populares de CAPTCHAs usados atualmente.

CAPTCHAs de texto

CAPTCHAs baseados em texto são a forma mais tradicional de CAPTCHA. Eles apresentam uma sequência distorcida de caracteres e números que os usuários devem identificar e inserir corretamente. O desafio dos bots automatizados é que eles geralmente têm dificuldade em reconhecer textos distorcidos ou obscurecidos.

Esses tipos de CAPTCHAs agora são mais fáceis de os bots resolverem e se tornaram menos populares.

CAPTCHAs de imagem

CAPTCHAs baseados em imagens exigem que os usuários identifiquem certos objetos ou padrões em uma série de imagens. Na maioria dos casos, os usuários recebem uma grade de imagens e devem clicar em todas as imagens que contêm um objeto específico, como semáforos, bicicletas, ônibus ou motocicletas.

Um provedor popular desses CAPTCHAs é o reCAPTCHA.

CAPTCHAs de som

CAPTCHAs baseados em som geralmente são uma opção de acessibilidade para usuários que podem ter dificuldades com CAPTCHAs visuais. Esses CAPTCHAs fornecem um clipe de áudio de fala distorcida que o usuário deve ouvir e transcrever corretamente.

CAPTCHAs de quebra-cabeça

Os CAPTCHAs de quebra-cabeças encarregam os usuários de resolver um quebra-cabeça simples para provar que são humanos. Esses quebra-cabeças podem variar de peças para montar a desafios de lógica. Por exemplo, os usuários podem ter a tarefa de arrastar uma imagem para a posição correta ou colocar um ponto no final de um caminho visual.

exemplo-de-captcha-de-quebra-cabeca

Provedores conhecidos desses CAPTCHAs criativos são AWS WAF CAPTCHA e hCaptcha.

É possível automatizar CAPTCHAs usando Python?

CAPTCHAs são projetados especificamente para serem difíceis de automatizar, e não há uma solução simples para resolvê-los em Python. No entanto, você pode tentar automatizá-los seguindo uma ou ambas as abordagens abaixo:

  • Evite CAPTCHAs: imite o comportamento humano em um navegador controlado com uma impressão digital do mundo real para evitar chamar a atenção de antibots, reduzindo a probabilidade da ocorrência de CAPTCHAs.
  • Confie nos serviços de solução de CAPTCHAs: terceirize CAPTCHAs para serviços on-line premium que usam IA, ferramentas avançadas de automação e/ou colaboradores humanos para resolver os desafios de CAPTCHAs.

Qual ferramenta você precisa para executar esses dois métodos? Um solucionador e/ou solução de contorno de CAPTCHAs em Python!

Aspectos a serem considerados ao avaliar as soluções de contorno de CAPTCHAs em Python

Aqui estão os principais elementos a serem examinados ao comparar os melhores serviços do mercado para contornar CAPTCHAs em Python:

  • Capacidades: os recursos e funcionalidades oferecidos pela solução.
  • Natureza: se a ferramenta é de código aberto ou premium.
  • Tempo de atividade: o percentual de disponibilidade garantido pelo provedor.
  • Taxa de sucesso: a capacidade de resolver os desafios de CAPTCHAs, expressa como um percentual.
  • Estratégia de contorno de CAPTCHAs: se a solução evita CAPTCHAs, resolve-os ou ambos.
  • Provedores de CAPTCHA suportados: a lista de todos os provedores de CAPTCHA com que o serviço consegue lidar.
  • Pontuação na Trustpilot: a pontuação média das avaliações deixadas pelos usuários na Trustpilot.
  • Preço: o custo do solucionador de CAPTCHAs em Python.

Contornar CAPTCHAs em Python: as 5 principais abordagens

É hora de explorar a lista das 5 principais soluções para contornar CAPTCHAs em Python, selecionadas e classificadas com base nos critérios mencionados acima!

1. CAPTCHA Solver do Web Unlocker

Página do CAPTCHA Solver da Bright Data

CAPTCHA Solver é uma solução da Bright Data para contornar com perfeição os CAPTCHAs de uma longa lista de fornecedores. Essa ferramenta imita o comportamento humano e as impressões digitais do navegador para evitar CAPTCHAs e aproveitar algoritmos baseados em IA para resolvê-los.

OCAPTCHA Solver faz parte do Web Unlocker, uma API completa de desbloqueio da web que oferece:

  • Rotação de IPs: altere dinamicamente os endereços IP para evitar detecção e bloqueio.
  • Tentativas automáticas: garanta resultados bem-sucedidos ao repetir as solicitações várias vezes para você.
  • Renderização de JavaScript: processe sites dinâmicos que usam JavaScript e extraia dados.
  • Cobertura global: acesse conteúdo traduzido de qualquer localização geográfica.
  • Alta escalabilidade: suporte para extração de dados em grande escala.
  • Cabeçalhos de referência: simule o tráfego de sites confiáveis definindo cabeçalhos de referência do mundo real.
  • Tratamento de cookies: gerencie cookies para evitar bloqueios devido a fatores relacionados a cookies.

Como uma API, o Web Unlocker com CAPTCHA Solver pode ser acessado de qualquer automação de navegador ou cliente HTTP em qualquer linguagem de programação, incluindo Python. Descubra como contornar CAPTCHAs usando o Web Unlocker.

Esses recursos tornam o CAPTCHA Solver a melhor solução para contornar CAPTCHAs em Python. Você pode experimentá-lo gratuitamente ou adquirir um dos planos disponíveis, a partir de US$ 3/CPM (US$ 0,003 por chamada de API). Observe que você é cobrado somente por solicitações bem-sucedidas, ou seja, quase todas, graças a uma impressionante taxa de sucesso de 99%.

Graças a essas soluções, a Bright Data garante práticas eficientes e éticas de web scraping sem interrupções ou restrições.

  • Capacidades: resolução de CAPTCHAs, contorno antibot, gerenciamento de impressão digital do navegador, rotação de IPs via integração de proxy, repetição automática de tentativas de solicitações, rotação automática do agente do usuário, tratamento de cookies, configuração automática de cabeçalhos de referência, cobertura geográfica mundial, renderização de JavaScript, validações de integridade de dados e muito mais
  • Natureza: API premium de desbloqueio web em nuvem que se integra a qualquer cliente HTTP em qualquer linguagem de programação
  • Tempo de atividade: 99,9%
  • Taxa de sucesso: 99,9%
  • Estratégia de contorno de CAPTCHAs: evitação de CAPTCHAs por meio da emulação de usuário e gerenciamento de impressões digitais + resolução de CAPTCHAs
  • Provedores de CAPTCHAs compatíveis: reCAPTCHA, Captcha de cliques, HCaptcha, PerimeterX, SimpleCAPTCHA, FunCaptcha, Cloudflare Turnstile, AWS WAF Captcha, GeeTest CAPTCHA, KeyCaptcha, Captcha de quebra-cabeça, Yandex Captcha, Captcha de imagens, Captcha de textos e muito outros
  • Pontuação na Trustpilot: 4,5/5
  • Preço: teste gratuito disponível, depois US$ 3/CPM

2. Playwright Extra com o plugin Stealth

Plugin Playwright Stealth

Playwright Extra é uma versão especial do Playwright — a popular ferramenta de automação de navegadores e web scraping — que oferece suporte a plugins. Em detalhes, o playwright-stealth é um plugin Python para Playwright Extra que torna os navegadores automatizados menos detectáveis por mecanismos antibot. 

Inspirado pelo Puppeteer Extra Stealth Plugin, o Playwright Stealth substitui algumas configurações do navegador para fazer com que pareça mais genuíno. O objetivo final é evitar CAPTCHAs e outras medidas antibots. Confira nosso guia sobre como evitar a detecção de bots usando o Playwright Stealth.

Leia nosso tutorial sobre como contornar CAPTCHAs com Playwright

  • Capacidades: API completa de automação de navegador, suporte para JavaScript e Python, contorno antibot, API de teste E2E, suporte a plugins, recursos de depuração e muito mais
  • Natureza: código aberto
  • Tempo de atividade: não aplicável
  • Taxa de sucesso: desconhecida
  • Estratégia de contorno de CAPTCHAs: evitação de CAPTCHAs por meio da emulação de usuário e configuração de impressão digital no mundo real
  • Provedores de CAPTCHA compatíveis: CAPTCHAs básicos antibot
  • Pontuação na Trustpilot: não aplicável
  • Preços: grátis

3. AntiCaptcha

Imagem do serviço AntiCaptcha

O AntiCaptcha é um serviço conhecido de contorno de CAPTCHAs, em funcionamento desde 2007. Ele oferece uma ampla variedade de serviços de resolução de CAPTCHAs, todos acessíveis por meio de endpoints da web. O provedor apresenta uma API robusta, integração perfeita de plugins de navegador e suporte para ferramentas de automação como Selenium e Puppeteer.

Todos os CAPTCHAs são resolvidos por colaboradores humanos, com integração em várias linguagens de programação disponíveis nas bibliotecas oficiais. Especificamente, o python-anticaptcha é a solução da AntiCaptcha para Python. Observe que a última versão lançada da biblioteca é de 2022, nenhum teste gratuito está disponível e a taxa de sucesso não foi divulgada.

  • Capacidades: resolução de CAPTCHAs, plugin de navegador para resolução automática de CAPTCHAs, APIs para obter estatísticas e relatórios úteis 
  • Natureza: APIs premium de contorno de CAPTCHAs para PHP, Python, Java, C#, JavaScript, Go, Ruby
  • Tempo de atividade: 99,99%
  • Taxa de sucesso: não divulgada
  • Estratégia de contorno de CAPTCHAs: resolução de CAPTCHAs por meio de colaboradores humanos
  • Provedores de CAPTCHA compatíveis: CAPTCHAs de imagens genéricas, reCAPTCHA v2, reCAPTCHA v3, reCAPTCHA Enterprise v2/v3, hCAPTCHA, GeeTest, Arkose Labs, Cloudflare Turnstile
  • Pontuação na Trustpilot: 4,8/5
  • Preços: de US$ 0,50/CPM a US$ 2/CPM

4. Selenium com a biblioteca Stealth

Biblioteca selenium-stealth

Selenium é uma poderosa ferramenta de automação de navegador amplamente usada para testes e web scraping. Ela fornece uma API consistente e completa para automatizar os navegadores e imitar o comportamento do usuário. No entanto, o Selenium é frequentemente detectado por tecnologias antibot devido à forma como ele configura os navegadores.

selenium-stealth é um pacote Python projetado especificamente para tornar o Selenium mais furtivo. A biblioteca configura o Chrome para evitar a maioria das detecções, permitindo uma automação mais suave e maiores taxas de sucesso em várias tarefas de automação. Um caso de uso comum do Selenium Stealth é contornar CAPTCHAs em Python.

Saiba mais em nosso tutorial sobre como contornar CAPTCHAs com Selenium em Python.

  • Capacidades: API completa de automação de navegador, contorno antibot, API de teste E2E e muito mais
  • Natureza: código aberto
  • Tempo de atividade: não aplicável
  • Taxa de sucesso: desconhecida
  • Estratégia de contorno de CAPTCHAs: evitação de CAPTCHAs por meio da emulação de usuário e configuração de impressão digital no mundo real
  • Provedores de CAPTCHA compatíveis: CAPTCHAs básicos antibot
  • Pontuação na Trustpilot: não aplicável
  • Preços: grátis

5. 2Captcha

Imagem do serviço 2Captcha

2Captcha é um serviço de resolução de CAPTCHAs por humanos, projetado para automatizar o processo de contorno de CAPTCHAs. Ele suporta uma ampla gama de desafios e opera distribuindo CAPTCHAs para colaboradores humanos que os resolvem em tempo real. 

2Captcha oferece integração de API, com bibliotecas oficiais disponíveis para várias linguagens de programação. Em particular, o pacote 2Captcha para contorno de CAPTCHAs em Python é o 2captcha-python.

Observe que o provedor não oferece nenhum tipo de teste gratuito ou período de teste. Portanto, se você quiser testar seus serviços, deverá depositar pelo menos US$ 1. Além disso, existem algumas avaliações preocupantes na Trustpilot, e a taxa de sucesso e o tempo de atividade não são divulgados.

  • Capacidades: resolução de CAPTCHAs
  • Natureza: API premium de contorno de CAPTCHAs para Python, PHP, Java, C++, C#, Go e Ruby
  • Tempo de atividade: não divulgado
  • Taxa de sucesso: não divulgada
  • Estratégia de contorno de CAPTCHAs: resolução de CAPTCHAs por colaboradores humanos
  • Provedores de CAPTCHA compatíveis: CAPTCHAs genéricos, CAPTCHAs de texto genérico, CAPTCHAs de clique genérico, CAPTCHAs rotativos genéricos, reCAPTCHA V2 Callback, KeyCAPTCHA, reCAPTCHA V2 Invisible, Capy Puzzle CAPTCHA, Cloudflare Turnstile, Amazon CAPTCHA, CAPTCHAs de áudio, MTCaptcha, DataDome CAPTCHA, CyberSiARA CAPTCHA, Cutcaptcha, Friendly CAPTCHA, CAPTCHAs russos, CAPTCHAs chineses, CAPTCHAs numéricos, CAPTCHA de matemática, CAPTCHAs com slider, Tencent Captcha, atbCAPTCHA
  • Pontuação na Trustpilot: 4,0/5
  • Preços: De US$ 0,50/CPM a US$ 50/CPM

Melhor solucionador de CAPTCHAs em Python

A tabela de resumo abaixo sintetiza o que as principais soluções de resolução de CAPTCHAs em Python têm a oferecer:

Serviço Recursos Linguagens de programação Tempo de atividade Taxa de sucesso Evitação de CAPTCHAs Resolução de CAPTCHAs Pontuação de avaliação Avaliação gratuita Preço
Solucionador de CAPTCHAs da Bright Data Diversos Qualquer uma 99.9% 99.9% ✔️ ✔️ 4,5/5 marca de seleção US$ 3/CPM
Playwright Stealth Muitos Python, JavaScript Desconhecida ✔️ Grátis
AntiCaptcha Poucos Python, PHP, Java, C#, JavaScript, Go, Ruby 99.99% Não se sabe ✔️ 4,8/5 marca em x US$ 0,50/CPM – US$ 2/CPM
Selenium Stealth Muitos Python Desconhecida ✔️ Grátis
2Captcha Quase nenhum Python, PHP, Java, C++, C#, Go, Ruby Não se sabe Não se sabe ✔️ 4,0/5 marca em x US$ 0,50/CPM – US$ 50/CPM

Conclusão

Neste artigo, você viu por que os CAPTCHAs representam um desafio para softwares automatizados e explorou se automatizá-los é viável em Python. Você também descobriu a lista das principais soluções de resolução de CAPTCHAs em Python.

Conforme destacado aqui, o Web Unlocker se sobressai como a melhor API de desbloqueio para obter HTML sem CAPTCHAs de qualquer página web. Essa API de extração de dados lida com a impressão digital do navegador, oferece repetição automática de tentativas e integra proxies para rotacionar os IPs de saída em cada solicitação, além de lidar com a resolução de CAPTCHAs para você. Automatizar CAPTCHAs em Python nunca foi tão fácil!

Quer pular completamente esse incômodo? Confira o marketplace de conjuntos de dados e baixe amostras grátis. Inscreva-se já e comece seu teste grátis hoje mesmo.

Não é necessário cartão de crédito