O Google Images é um dos sites mais difíceis de raspar na Web. Eles não bloqueiam explicitamente os scrapers, mas fazem você trabalhar muito para conseguir os dados… Você precisa querer isso!
De seletores CSS dinâmicos a codificação Base64, raspar imagens do Google é muito mais como resolver um quebra-cabeça do que raspar HTML comum.
Pré-requisitos
Para coletar imagens do Google conosco, você deve ter um conhecimento básico de Python e Selenium. Você precisará se certificar de que o Selenium está instalado. Sugerimos que você aprenda mais sobre raspagem na Web com Python e Selenium, se necessário.
Primeiro, verifique se você tem o ChromeDriver e o Chrome instalados. Você pode baixar o mais recente aqui.
Ao baixar o ChromeDriver, verifique se você está recebendo uma versão que corresponda à sua versão do Chrome.
Você pode verificar sua versão do Chrome com o seguinte comando.
google-chrome --version
O resultado deve ser semelhante ao seguinte.
Google Chrome 131.0.6778.139
Depois de obtê-los, você pode instalar o Selenium com pip
.
pip install selenium
O que raspar
Não podemos simplesmente mergulhar de cabeça no código. Precisamos ter uma ideia melhor do que estamos coletando e como vamos extrair. Como dissemos anteriormente, raspar imagens do Google é como resolver um quebra-cabeça.
Vamos examinar uma das imagens do Google. Na verdade, essa imagem está incorporada em uma tag HTML personalizada chamada g-img
. Precisaremos encontrar todos esses elementos g-img
.
Depois de encontrarmos todas as tags g-img
, precisamos extrair seus elementos img
. Você pode ver um desses abaixo.
Se você olhou o img
de perto, você deve ter notado algo extremamente estranho. O src
é uma sequência bizarra de caracteres aparentemente aleatórios.

O início dessa string contém a chave para tudo: data:image/jpeg;base64,
. jpeg
nos diz que este é um arquivo JPEG. base64
nos diz que está codificado usando Base64. Quando decodificamos essa string, na verdade obtemos o binário da imagem. Na verdade, não conseguimos rastrear a verdadeira fonte da imagem, pois seu binário está na verdade dentro da página da web. No entanto, podemos gravar esse binário em um arquivo e recriar a imagem.
Capturando imagens do Google com Python
Agora que sabemos o que queremos, é hora de começar a codificar nosso raspador. Nas próximas seções, montaremos o raspador e veremos exatamente o que o código faz.
Começando
Vá em frente e crie um novo arquivo Python. Começaremos apenas com nossas importações e estrutura básicas.
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path
options = webdriver.ChromeOptions()
"""
Our actual scraping logic will go here
"""
if __name__ == "__main__":
scrape_images("linux penguin", 100)
- Importamos
webdriver
eBy
do Selenium.webdriver
é usado para controlar nosso navegador.By
é usado para localizar itens na página. - Usaremos
sleep
para pausar nosso raspador por um período de tempo. Por exemplo, se quisermos que o raspador espere um segundo, usamossleep(1)
. - Como você deve ter adivinhado,
base64
vai decodificar nossos binários de imagem. Path
será usado para gravar nossas imagens em uma pasta contendo nossos resultados.options = webdriver.ChromeOptions()
nos permite usar configurações personalizadas com o Selenium. Primeiramente, isso é para executar o Selenium no modo headless . O modo Headless nos permite executar o raspador sem renderizar o navegador real na máquina. Isso economiza recursos valiosos.
Capturando imagens do Google
Em seguida, escreveremos nossa função de raspagem. O código abaixo contém todo o nosso raspador. Preste muita atenção em scrape_images()
.
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path
options = webdriver.ChromeOptions()
def scrape_images(keyword, batch_size, headless=True):
if headless:
options.add_argument("--headless")
formatted_keyword = keyword.replace(" ", "+")
folder_name = keyword.replace(" ", "-")
output_folder = Path(f"results-{folder_name}")
output_folder.mkdir(parents=True, exist_ok=True)
result_count = 0
driver = webdriver.Chrome(options=options)
driver.get(f"https://www.google.com/search?q={formatted_keyword}")
sleep(1)
list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
list_items[1].click()
while result_count < batch_size:
driver.execute_script("window.scrollBy(0, 300);")
sleep(1)
img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
for img_tag in img_tags:
src = img_tag.get_attribute("src")
if not src or not src.startswith("data:image/"):
continue
base64_binary = src.split("base64,")[-1]
mime_type = src.split(";")[0].split(":")[1]
file_extension = mime_type.split("/")[-1]
if file_extension == "gif":
continue
alt_text = img_tag.get_attribute("alt") or "image"
filename = f"{alt_text}-{result_count}.{file_extension}"
image_binary = base64.b64decode(base64_binary)
output_path = output_folder.joinpath(filename)
with open(output_path, "wb") as file:
file.write(image_binary)
result_count+=1
print(f"Saved: {filename}")
driver.quit()
if __name__ == "__main__":
scrape_images("linux penguin", 100)
- Definimos
headless
paraTrue
por padrão. Se o usuário definir comoFalse
, isso iniciará um navegador real que você poderá ver na tela. Isso é útil para fins de depuração. - Criamos
formatted_keyword
efolder_name
removendo espaços de nossa verdadeirakeyword
. Isso nos permite armazenar os arquivos sem problemas. - Lançamos nosso navegador com
webdriver.Chrome(options=options)
. driver.get(f"https://www.google.com/search?q={formatted_keyword}")
nos leva aos resultados de pesquisa do Google para nossakeyword
.- Agora precisamos clicar na guia de imagens. Fazemos isso encontrando todos os elementos
div
com a funçãolistitem
.list_items[1].click()
clica no segundo item, a guia imagens. - Usamos um loop
while
para executar nosso código de raspagem repetidamente até encontrarmos todas as imagens que queremos. driver.execute_script(“window.scrollBy(0, 300);”)
executa JavaScript para rolar a página para baixo em 300 pixels. Depois de rolar, usamossleep()
por um segundo enquanto o conteúdo carrega.driver.find_elements(By.CSS_SELECTOR, "g-img > img")
é usado para encontrar todas as tagsimg
que estão aninhadas dentro de umg-img
.- Em seguida, iteramos os itens
img
que encontramos. - Se o
img
não começar comdata:image/
, usamoscontinue
para ignorá-lo. Caso contrário, extraímos seu atributosrc
. - Usamos alguma divisão básica de strings para extrair o binário codificado e a extensão do arquivo (JPEG, PNG, etc.). Se a extensão for um GIF, nós a ignoramos. Por algum motivo, os GIFs não são exibidos quando os gravamos em um arquivo.
base64.b64decode(base64_binary)
decodifica nossa imagem em um binário real legível por máquina.
Se você executar o código, verá uma nova pasta aparecer dentro da pasta do seu projeto. Deve estar cheio de imagens.
Considere usar a Bright Data
Nossa SERP API analisa as imagens do Google para que você não precise. Ele até encontra os metadados da imagem, então nossas imagens terão nomes reais. Obviamente, a API é totalmente escalável e pode lidar com um grande número de solicitações.
Primeiro, inscreva-se em nossa SERP API.
Quando estiver pronto, termine de criar a zona.
Em Detalhes de acesso, você verá suas credenciais.
Copie e cole o código abaixo em um arquivo Python. Substitua as credenciais em proxy_auth
pelas suas e pronto.
import requests
import base64
from pathlib import Path
import json
proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"
def scrape_images(keyword):
formatted_keyword = keyword.replace(" ", "+")
folder_name = keyword.replace(" ", "-")
output_folder = Path(f"serp-results-{folder_name}")
output_folder.mkdir(parents=True, exist_ok=True)
url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"
response = requests.get(
url,
proxies={"http": proxy_url, "https": proxy_url},
verify=False
)
images = response.json()["images"]
result_count = 0
for image in images:
image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
title = image["title"].replace(" ", "-").replace("/", "").strip(".")
file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
if file_extension == "gif":
continue
filename = f"{title}.{file_extension}"
with open(output_folder.joinpath(filename), "wb") as file:
file.write(image_binary)
print(f"Saved: {filename}")
if __name__ == "__main__":
scrape_images("linux penguin")
se você executar o código, você receberá várias imagens novamente, mas desta vez, todas elas têm nomes.
Conclusão
Concluindo, extrair imagens do Google é como tentar resolver um quebra-cabeça sem todas as peças. Nossa API do Google Images encontra os metadados e elimina a necessidade de Selenium!
Se você precisar coletar imagens de outras fontes, também temos uma API de imagens do Instagram, Shutterstock Scrapere conjuntos de dados estruturados diferentes. Inscreva-se agora e encontre o produto perfeito para suas necessidades, incluindo um teste gratuito!
Não é necessário cartão de crédito