Scrapy proxy integation

Integração entre um proxy e o Scrapy

O que é o Scrapy?

Scrapy é uma estrutura Python para rastreamento e raspagem da web, que permite aos usuários extrair dados estruturados de sites. É de código aberto, veloz e extensível. O Scrapy pode ser usado para várias finalidades, como mineração e monitoramento de dados e testes automatizados.

Integração do Scrapy com proxies da Bright Data

Abra seu IDE preferido e inicie um novo projeto no Scrapy. Digite na linha de comando:

      scrapy startproject 
    

Isso criará uma nova pasta com o nome do projeto. Dentro da pasta, abra um arquivo python.

  • Vá até o Painel de Controle da Bright Data e clique no ícone “Proxies e Infraestrutura de Scraping”
  • Crie uma nova zona de proxy clicando em “Adicionar”, escolhendo um tipo de rede, configurando o proxy e clicando em salvar
  • Na guia “Parâmetros de acesso” da sua zona de proxy, você encontrará seus valores “NOME DE USUÁRIO” e “SENHA“.
  • Em seu arquivo de código de spider do Scrapy, no metaparâmetro da solicitação, defina o valor “proxy” da seguinte maneira, usando os valores “NOME DE USUÁRIO” e “SENHA” de antes: “http://USERNAME:[email protected]:33335
  • Por exemplo:
      import scrapy

class BrightdatascrapyexampleSpider(scrapy.Spider):
   name = "BrightDataScrapyExample"

  def start_requests(self):
       request = scrapy.Request(url="http://example.com",callback=self.parse)
       request.meta['proxy'] = "http://USERNAME:[email protected]:33335"
       yield request

   def parse(self, response):
       print(response.body)
    

Em seguida, execute o seguinte comando em sua linha de comando:

      scrapy runspider 
    

Como usar o Gerenciador de Proxies da Bright Data com o Scrapy

  • Crie uma zona de proxies igual à da integração direta acima
  • Instale o Gerenciador de Proxies
  • Clique em “Adicionar nova porta” e configure-a para o seu caso de uso
  • Em seu arquivo de código de spider do Scrapy, dentro do metaparâmetro da solicitação, defina o valor “proxy” da seguinte maneira: “http://IP:PORTNUMBER”
  • O IP do host local é 127.0.0.1 — esse é o valor que você precisa usar se o gerenciador de proxies estiver instalado em sua máquina. Se o gerenciador de proxies estiver instalado em um servidor externo, insira o endereço IP daquele servidor.
  • A porta criada no Gerenciador de Proxies é 24XXX (por exemplo, 24000, o primeiro número de porta padrão)
  • Por exemplo:
      import scrapy

class BrightdatascrapyexampleSpider(scrapy.Spider):
   name = "BrightDataScrapyExample"

   def start_requests(self):
       request = scrapy.Request(url="http://example.com",callback=self.parse)
       request.meta['proxy'] = "http://127.0.0.1:24000"
       yield request

   def parse(self, response):
       print(response.body)
    

Obtenha proxies para o Scrapy

proxy badges

Impulsionado por uma infraestrutura de proxy residencial premiada

Mais de 72 milhões de proxies residenciais, a melhor tecnologia da categoria e a capacidade de segmentar qualquer país, cidade, operadora e ASN, torna nossos serviços de proxy premium a melhor escolha para desenvolvedores.

Tipos de proxy para todas as necessidades

Proxies residenciais

  • Mais de 72.000.000 IPs
  • Disponível em 195 países
  • A maior rede de IPs rotativos de pares reais
  • Aceda e rastreie todos os sítios web sofisticados

Proxies de datacenter

  • Mais de 1.600.000 IPs
  • Disponível em 98 países
  • Grupos de IPs partilhados e dedicados disponíveis
  • Acesso rápido a sítios web não complexos

Proxies de ISP

  • Mais de 700.000 IPs
  • Disponível em 35 países
  • IPs residenciais estáticos reais sem rotação de IP
  • Ideal para iniciar sessão em várias conta

Proxies móveis

  • Mais de 7.000.000 IPs
  • Disponível em 195 países
  • A maior rede de IPs 3G/4G de pares reais do mundo
  • Verificar anúncios móveis e rastrear sítios móveis

Para os clientes, a melhor experiência do ramo

Você pede, nós desenvolvemos

Novos lançamentos de recursos todos os dias

Suporte global 24 horas por dia, 7 dias por semana

Para responder a qualquer pergunta quando você precisar

Transparência total

Painel de desempenho de rede em tempo real

Gerentes de contas dedicados

Para otimizar seu desempenho

Soluções personalizadas

Para atingir suas metas de coleta de dados

Líder em proxies e coleta de dados

Category leader in proxies
650TB de dados públicos coletados todos os dias
Number of ISP proxies
Novos lançamentos de recursos todos os dias
Serving 7/10 universities
Atendendo a 7/10 das principais universidades do mundo
Trust pilot ratings
4.6/5 classificação mais alta do Trustpilot na indústria

Pronto para obter proxies para o Scrapy?