Integração entre um proxy e o Scrapy
O que é o Scrapy?
Scrapy é uma estrutura Python para rastreamento e raspagem da web, que permite aos usuários extrair dados estruturados de sites. É de código aberto, veloz e extensível. O Scrapy pode ser usado para várias finalidades, como mineração e monitoramento de dados e testes automatizados.
Integração do Scrapy com proxies da Bright Data
Abra seu IDE preferido e inicie um novo projeto no Scrapy. Digite na linha de comando:
scrapy startproject
Isso criará uma nova pasta com o nome do projeto. Dentro da pasta, abra um arquivo python.
- Vá até o Painel de Controle da Bright Data e clique no ícone “Proxies e Infraestrutura de Scraping”
- Crie uma nova zona de proxy clicando em “Adicionar”, escolhendo um tipo de rede, configurando o proxy e clicando em salvar
- Na guia “Parâmetros de acesso” da sua zona de proxy, você encontrará seus valores “NOME DE USUÁRIO” e “SENHA“.
- Em seu arquivo de código de spider do Scrapy, no metaparâmetro da solicitação, defina o valor “proxy” da seguinte maneira, usando os valores “NOME DE USUÁRIO” e “SENHA” de antes: “http://USERNAME:[email protected]:33335”
- Por exemplo:
import scrapy
class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"
def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://USERNAME:[email protected]:33335"
yield request
def parse(self, response):
print(response.body)
Em seguida, execute o seguinte comando em sua linha de comando:
scrapy runspider
Como usar o Gerenciador de Proxies da Bright Data com o Scrapy
- Crie uma zona de proxies igual à da integração direta acima
- Instale o Gerenciador de Proxies
- Clique em “Adicionar nova porta” e configure-a para o seu caso de uso
- Em seu arquivo de código de spider do Scrapy, dentro do metaparâmetro da solicitação, defina o valor “proxy” da seguinte maneira: “http://IP:PORTNUMBER”
- O IP do host local é 127.0.0.1 — esse é o valor que você precisa usar se o gerenciador de proxies estiver instalado em sua máquina. Se o gerenciador de proxies estiver instalado em um servidor externo, insira o endereço IP daquele servidor.
- A porta criada no Gerenciador de Proxies é 24XXX (por exemplo, 24000, o primeiro número de porta padrão)
- Por exemplo:
import scrapy
class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"
def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://127.0.0.1:24000"
yield request
def parse(self, response):
print(response.body)
Obtenha proxies para o Scrapy
Impulsionado por uma infraestrutura de proxy residencial premiada
Mais de 72 milhões de proxies residenciais, a melhor tecnologia da categoria e a capacidade de segmentar qualquer país, cidade, operadora e ASN, torna nossos serviços de proxy premium a melhor escolha para desenvolvedores.
Tipos de proxy para todas as necessidades
Proxies residenciais
- Mais de 72.000.000 IPs
- Disponível em 195 países
- A maior rede de IPs rotativos de pares reais
- Aceda e rastreie todos os sítios web sofisticados
Proxies de datacenter
- Mais de 1.600.000 IPs
- Disponível em 98 países
- Grupos de IPs partilhados e dedicados disponíveis
- Acesso rápido a sítios web não complexos
Proxies de ISP
- Mais de 700.000 IPs
- Disponível em 35 países
- IPs residenciais estáticos reais sem rotação de IP
- Ideal para iniciar sessão em várias conta
Proxies móveis
- Mais de 7.000.000 IPs
- Disponível em 195 países
- A maior rede de IPs 3G/4G de pares reais do mundo
- Verificar anúncios móveis e rastrear sítios móveis
Para os clientes, a melhor experiência do ramo
Novos lançamentos de recursos todos os dias
Para responder a qualquer pergunta quando você precisar
Painel de desempenho de rede em tempo real
Para otimizar seu desempenho
Para atingir suas metas de coleta de dados