Como raspar imagens do Google com Python

Um guia passo a passo para capturar imagens do Google com Python e Selenium, desde a configuração até o salvamento das imagens.
14 min read
How to Scrape Google Images blog image

O Google Images é um dos sites mais difíceis de raspar na Web. Eles não bloqueiam explicitamente os scrapers, mas fazem você trabalhar muito para conseguir os dados… Você precisa querer isso!

De seletores CSS dinâmicos a codificação Base64, raspar imagens do Google é muito mais como resolver um quebra-cabeça do que raspar HTML comum.

Pré-requisitos

Para coletar imagens do Google conosco, você deve ter um conhecimento básico de Python e Selenium. Você precisará se certificar de que o Selenium está instalado. Sugerimos que você aprenda mais sobre raspagem na Web com Python e Selenium, se necessário.

Primeiro, verifique se você tem o ChromeDriver e o Chrome instalados. Você pode baixar o mais recente aqui.

Ao baixar o ChromeDriver, verifique se você está recebendo uma versão que corresponda à sua versão do Chrome.

Você pode verificar sua versão do Chrome com o seguinte comando.

google-chrome --version

O resultado deve ser semelhante ao seguinte.

Google Chrome 131.0.6778.139 

Depois de obtê-los, você pode instalar o Selenium com pip.

pip install selenium

O que raspar

Não podemos simplesmente mergulhar de cabeça no código. Precisamos ter uma ideia melhor do que estamos coletando e como vamos extrair. Como dissemos anteriormente, raspar imagens do Google é como resolver um quebra-cabeça.

Vamos examinar uma das imagens do Google. Na verdade, essa imagem está incorporada em uma tag HTML personalizada chamada g-img. Precisaremos encontrar todos esses elementos g-img .

Inspecionando uma imagem no Google Images

Depois de encontrarmos todas as tags g-img , precisamos extrair seus elementos img . Você pode ver um desses abaixo.

Inspecionando o elemento img

Se você olhou o img de perto, você deve ter notado algo extremamente estranho. O src é uma sequência bizarra de caracteres aparentemente aleatórios.



O início dessa string contém a chave para tudo:  nos diz que este é um arquivo JPEG. base64 nos diz que está codificado usando Base64. Quando decodificamos essa string, na verdade obtemos o binário da imagem. Na verdade, não conseguimos rastrear a verdadeira fonte da imagem, pois seu binário está na verdade dentro da página da web. No entanto, podemos gravar esse binário em um arquivo e recriar a imagem.

Capturando imagens do Google com Python

Agora que sabemos o que queremos, é hora de começar a codificar nosso raspador. Nas próximas seções, montaremos o raspador e veremos exatamente o que o código faz.

Começando

Vá em frente e crie um novo arquivo Python. Começaremos apenas com nossas importações e estrutura básicas.

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()

"""
Our actual scraping logic will go here
"""


if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Importamos webdriver e By do Selenium. webdriver é usado para controlar nosso navegador. By é usado para localizar itens na página.
  • Usaremos sleep para pausar nosso raspador por um período de tempo. Por exemplo, se quisermos que o raspador espere um segundo, usamos sleep(1).
  • Como você deve ter adivinhado, base64 vai decodificar nossos binários de imagem.
  • Path será usado para gravar nossas imagens em uma pasta contendo nossos resultados.
  • options = webdriver.ChromeOptions() nos permite usar configurações personalizadas com o Selenium. Primeiramente, isso é para executar o Selenium no modo headless . O modo Headless nos permite executar o raspador sem renderizar o navegador real na máquina. Isso economiza recursos valiosos.

Capturando imagens do Google

Em seguida, escreveremos nossa função de raspagem. O código abaixo contém todo o nosso raspador. Preste muita atenção em scrape_images().

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()


def scrape_images(keyword, batch_size, headless=True):
    if headless:
        options.add_argument("--headless")

    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)

    result_count = 0

    driver = webdriver.Chrome(options=options)
    driver.get(f"https://www.google.com/search?q={formatted_keyword}")
    sleep(1)

    list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
    list_items[1].click()

    while result_count < batch_size:
        driver.execute_script("window.scrollBy(0, 300);")
        sleep(1)

        img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
        for img_tag in img_tags:
            src = img_tag.get_attribute("src")
            if not src or not src.startswith("data:image/"):
                continue

            base64_binary = src.split("base64,")[-1]
            mime_type = src.split(";")[0].split(":")[1]
            file_extension = mime_type.split("/")[-1]
            if file_extension == "gif":
                continue
            
            alt_text = img_tag.get_attribute("alt") or "image"
            filename = f"{alt_text}-{result_count}.{file_extension}"

            image_binary = base64.b64decode(base64_binary)
            output_path = output_folder.joinpath(filename)
            
            with open(output_path, "wb") as file:
                file.write(image_binary)
            result_count+=1
            print(f"Saved: {filename}")
            
    driver.quit()

if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Definimos headless para True por padrão. Se o usuário definir como False, isso iniciará um navegador real que você poderá ver na tela. Isso é útil para fins de depuração.
  • Criamos formatted_keyword e folder_name removendo espaços de nossa verdadeira keyword. Isso nos permite armazenar os arquivos sem problemas.
  • Lançamos nosso navegador com webdriver.Chrome(options=options).
  • driver.get(f"https://www.google.com/search?q={formatted_keyword}") nos leva aos resultados de pesquisa do Google para nossa keyword.
  • Agora precisamos clicar na guia de imagens. Fazemos isso encontrando todos os elementos div com a função listitemlist_items[1].click() clica no segundo item, a guia imagens.
  • Usamos um loop while para executar nosso código de raspagem repetidamente até encontrarmos todas as imagens que queremos.
  • driver.execute_script(“window.scrollBy(0, 300);”) executa JavaScript para rolar a página para baixo em 300 pixels. Depois de rolar, usamos sleep() por um segundo enquanto o conteúdo carrega.
  • driver.find_elements(By.CSS_SELECTOR, "g-img > img") é usado para encontrar todas as tags img que estão aninhadas dentro de um g-img.
  • Em seguida, iteramos os itens img que encontramos.
  • Se o img não começar com data:image/, usamos continue para ignorá-lo. Caso contrário, extraímos seu atributo src .
  • Usamos alguma divisão básica de strings para extrair o binário codificado e a extensão do arquivo (JPEG, PNG, etc.). Se a extensão for um GIF, nós a ignoramos. Por algum motivo, os GIFs não são exibidos quando os gravamos em um arquivo.
  • base64.b64decode(base64_binary) decodifica nossa imagem em um binário real legível por máquina.

Se você executar o código, verá uma nova pasta aparecer dentro da pasta do seu projeto. Deve estar cheio de imagens.

A pasta de resultados cheia de arquivos.png

Considere usar a Bright Data

Nossa SERP API analisa as imagens do Google para que você não precise. Ele até encontra os metadados da imagem, então nossas imagens terão nomes reais. Obviamente, a API é totalmente escalável e pode lidar com um grande número de solicitações.

Primeiro, inscreva-se em nossa SERP API.

Quando estiver pronto, termine de criar a zona.

Finalizando a criação da zona

Em Detalhes de acesso, você verá suas credenciais.

Suas credenciais da SERP API

Copie e cole o código abaixo em um arquivo Python. Substitua as credenciais em proxy_auth pelas suas e pronto.

import requests
import base64
from pathlib import Path
import json

proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"


def scrape_images(keyword):
    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"serp-results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)
    url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"

    response = requests.get(
        url,
        proxies={"http": proxy_url, "https": proxy_url},
        verify=False
    )

    images = response.json()["images"]

    result_count = 0
    for image in images:    
        image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
        title = image["title"].replace(" ", "-").replace("/", "").strip(".")
        file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
        if file_extension == "gif":
            continue
        filename = f"{title}.{file_extension}"

        with open(output_folder.joinpath(filename), "wb") as file:
            file.write(image_binary)
            print(f"Saved: {filename}")

if __name__ == "__main__":
    scrape_images("linux penguin")

se você executar o código, você receberá várias imagens novamente, mas desta vez, todas elas têm nomes.

Os resultados da imagem usando a SERP API

Conclusão

Concluindo, extrair imagens do Google é como tentar resolver um quebra-cabeça sem todas as peças. Nossa API do Google Images encontra os metadados e elimina a necessidade de Selenium!

Se você precisar coletar imagens de outras fontes, também temos uma API de imagens do Instagram, Shutterstock Scrapere conjuntos de dados estruturados diferentes. Inscreva-se agora e encontre o produto perfeito para suas necessidades, incluindo um teste gratuito!

Não é necessário cartão de crédito