Evento de Scraping do Ano

ScrapeCon 2024

O futuro da coleta de dados, hoje

Perdeu a ScrapeCon? Não se preocupe, nós temos tudo o que você precisa!

ScrapeCon Recap: Watch Now

O estado dos dados públicos na web

Os dados da web são usados em toda parte. Eles estão impulsionando inovações em IA e moldando os negócios modernos em quase todos os setores. Mas a natureza pública dos dados da web é constantemente questionada. À medida que as grandes empresas de tecnologia monopolizam cada vez mais esse ativo e diferentes reguladores adotam abordagens opostas, será que estamos à beira de transformar dados públicos em um tesouro privado?

Or Lenchner, CEO da Bright Data, dá início à conferência mergulhando no estado da coleta de dados da web em 2024 e além, esclarecendo os desafios atuais – e as oportunidades – para o crescimento das operações de Scraping de dados. Nesta sessão, abordaremos: – Como o domínio das grandes empresas de tecnologia está moldando a acessibilidade e a utilização dos dados da web? – Em um cenário de abordagens regulatórias conflitantes, como esses dilemas afetam a trajetória dos dados públicos? – Como as operações de scraping de dados podem se adaptar e prosperar em meio a desafios em constante evolução?

Scraping nativo da nuvem simplificado

Explore o futuro do Scraping de dados baseado em nuvem nesta demonstração exclusiva do produto, que revela as ferramentas mais recentes da plataforma Bright Data.

Descubra como criar e manter Scrapers perfeitamente integrados à infraestrutura de autoescala e à tecnologia de desbloqueio. Elimine o incômodo de gerenciar tarefas complexas de scraping e escalonamento e concentre-se na elaboração de soluções de negócios eficazes. Imperdível para profissionais que buscam operações de scraping eficientes e simplificadas. Nesta sessão, você descobrirá: – Como um modelo híbrido combina as vantagens do scraping local e baseado em nuvem? – Como as APIs de scraping aumentam a escalabilidade e equilibram confiabilidade e custo-benefício? – Como garantir que seus Scrapers sejam criados de forma preparada para o futuro, minimizando a manutenção?

Decifrando estratégias de scraping: construir, comprar ou usar API?

Determine a melhor abordagem para suas operações de scraping, seja criando um Scraper do zero, adquirindo um Conjunto de dados pronto para uso ou utilizando APIs de scraping.

Explore as ferramentas ideais para sua pilha de tecnologia, avalie quando certas tecnologias podem ser excessivas e compreenda o panorama das metodologias atuais de scraping. Esta sessão oferece uma estrutura de decisão clara para cada cenário de scraping, garantindo que você faça escolhas informadas para otimizar suas ScrapeOps. Nesta sessão, você descobrirá: – O que é ScrapeOps e como ela pode ajudar sua coleta de dados da web a se tornar mais eficiente, estável e livre de riscos? – Como selecionar e integrar as ferramentas ideais à sua pilha de tecnologia, aumentando a eficiência de seus projetos de scraping de dados? – Por que simplificar sua operação de scraping pode ser um divisor de águas para o seu negócio?

O Futuro dos Dados para IA: Equilibrando Desafios Jurídicos e Operacionais

Mergulhe nos desafios jurídicos e operacionais que os desenvolvedores enfrentam ao lidar com a coleta de dados da web para IA.

Aprenda estruturas práticas que capacitam equipes de desenvolvimento a tomar decisões informadas, alcançando o equilíbrio certo entre conformidade legal e eficiência operacional. Seja você um desenvolvedor experiente ou iniciante no Scraping de dados, obtenha insights valiosos para conduzir seus projetos de IA com confiança. Nesta sessão, você descobrirá: – Como a coleta de dados da web pode abordar e mitigar possíveis vieses nos dados? – Quais aspectos legais devem ser considerados ao treinar modelos de IA usando dados coletados da web? – Como as equipes podem garantir a conformidade com as regulamentações de privacidade na coleta de dados diversificados? – Quais ferramentas ou estruturas se mostraram eficazes na manutenção da eficiência operacional?

De insights baseados em IA ao treinamento de LLMs

Embarque em uma jornada prática, desde a criação dos Conjuntos de dados até a obtenção de insights impulsionados pela IA.

Junte-se a nós enquanto o orientamos na seleção cuidadosa de um conjunto de dados adaptado aos seus objetivos de IA, garantindo a precisão com regras e validações personalizadas, e apresentando um estudo de caso real sobre a utilização de Conjuntos de dados. Seja você iniciante ou experiente, este guia passo a passo aprimorará seu domínio sobre Conjuntos de dados para IA. Nesta sessão prática, abordaremos: – Seleção de Conjuntos de dados: escolha Conjuntos de dados alinhados com seus objetivos de IA. – Garantia de precisão: aplique regras, tipos de dados e validações personalizadas para garantir a integridade dos Conjuntos de dados. – Aplicação no mundo real: um estudo de caso sobre a utilização prática dos Conjuntos de dados. – Integração com o Snowflake: integre os Conjuntos de dados com o Snowflake de forma eficiente. – Obtenção de insights: extraia insights baseados na IA para casos de uso específicos. – Treinamento de LLM: alimente modelos LLM com dados estruturados para um treinamento ideal.

Um plano para a construção de um conjunto de dados confiável

Criar um conjunto de dados confiável é mais do que apenas coletar dados; trata-se de garantir sua qualidade, estrutura e adaptabilidade.

Descubra metodologias e estratégias avançadas para selecionar meticulosamente Conjuntos de dados, incorporando a criação de esquemas orientada por IA para otimizar a organização e a eficiência. Nesta sessão, abordaremos: – Criação de esquemas orientada por IA: Defina a estrutura, as configurações e os parâmetros dos dados. – Revisão de amostras: Uma abordagem sistemática para revisar amostras de dados. – Atualização e exportação de Conjuntos de dados: técnicas para atualizar Conjuntos de dados e vários métodos de exportação. – Validação de dados: definir regras para garantir a precisão e a consistência dos dados. – Adaptação às mudanças: estratégias para ajustar-se às mudanças estruturais do site. – Técnicas de reanálise: métodos para reanalisar e ajustar dados para maior flexibilidade.

O Manual Executivo

Garanta um lugar na primeira fila para uma discussão aprofundada, direta e valiosa entre executivos de tecnologia sênior de alto escalão.

Eles compartilharão seus desafios operacionais e soluções relacionadas à coleta de dados em grande escala. Descubra como organizações líderes lidam com mudanças regulatórias, dilemas éticos e o impacto da IA em seus processos. Guiada por nosso Diretor de Atendimento ao Cliente, esta sessão oferece aos executivos técnicos e líderes de P&D insights práticos e estratégias comprovadas para aprimorar suas operações de coleta de dados da web pública. Mergulhando nas principais perguntas do painel: – Por que os dados da web são essenciais para sua organização e como você os utiliza para obter vantagens operacionais e competitivas? – Como funciona sua operação de coleta de dados da web e como ela evoluiu ao longo do tempo? Qual é a sua opinião sobre soluções internas versus terceirizadas? – Qual é a sua estrutura de tomada de decisão em relação aos recursos de coleta de dados da web? (considerando orçamento total, custos de infraestrutura, pessoal, ferramentas, controle de qualidade de dados, etc.) – Quais são os principais desafios que você enfrenta atualmente com a coleta de dados? – Como você integra ou justapõe dados públicos com outras fontes de dados? – Você enfrentou algum desafio ou obstáculo específico durante sua jornada de coleta de dados da web? Se sim, como você os superou? – Existem práticas recomendadas ou estratégias que você considerou eficazes para garantir a mais alta qualidade e relevância dos dados da web que você coleta?

De cliques a capturas: dominando as interações do navegador para Scrapers

Mergulhe nas últimas inovações em automação de navegadores para projetos de scraping em grande escala.

Esta sessão é imperdível para desenvolvedores que executam projetos de scraping que exigem interações com o navegador. Nesta sessão prática, você aprenderá: – Visão geral da infraestrutura: compreenda os componentes para scraping em várias etapas, incluindo configurações de servidor, configurações de navegador e gerenciamento de Proxy. – Demonstrações ao vivo de APIs: aprimore seus Scrapers Puppeteer, Playwright e Selenium; aprenda a lidar com vários navegadores. – Aplicação prática: crie um script Puppeteer para comércio eletrônico, use Node.js e faça Parsing de HTML com Cheerio. – Depuração e gerenciamento de custos: use o Chrome DevTools para depuração e aprenda estratégias para gerenciar custos operacionais.

Além de bloqueios de IP e CAPTCHAs

Mergulhe nos desafios mais recentes impostos pelas tecnologias anti-bot avançadas e nas técnicas mais recentes para superá-los.

Assista à criação e ao troubleshooting de Scrapers em tempo real, com demonstrações sobre como otimizar o desempenho da rede e superar desafios com IPs estáticos. Avalie os pontos fortes e fracos de diversas redes de Proxy e descubra ferramentas poderosas projetadas para lidar com os bloqueios de sites mais difíceis. Feita sob medida para engenheiros, esta sessão combina perfeitamente insights estratégicos com programação prática e demonstrações ao vivo. Voltando aos fundamentos: Tipos de bloqueios: Entenda os diferentes tipos de bloqueios e como eles funcionam. Bloqueios simples e comuns: Mergulhe nos bloqueios de IP e limites de taxa, e aprenda a contorná-los rapidamente. Bloqueios avançados: Explore CAPTCHAs, software anti-bot, Cloudflare e outros desafios, juntamente com suas soluções. Escolhendo o produto de Proxy certo: Avalie os prós e contras de várias redes de Proxy. Codificação ao vivo: Construindo e corrigindo Scrapers Demonstração de rastreamento único vs. lote de 1 mil: Observe o desempenho de diferentes redes em cenários variados. Usando node.js, enviaremos uma única solicitação usando Proxies de data center e residenciais, demonstrando as taxas de sucesso de ambas as redes. Também destacaremos os desafios enfrentados ao usar IPs estáticos e como mesmo IPs rotativos podem encontrar problemas ao enviar 1 mil solicitações. Ferramentas para bloqueios de sites exóticos e difíceis: Descubra ferramentas que lidam com bloqueios de sites desafiadores. Scraping de SERP. Demonstração ao vivo: Testemunhe a transição de múltiplos erros para uma taxa de sucesso de 100%. Demonstração de teste do Cloudflare.

Da solicitação inicial à análise final

Participe de um painel dinâmico ao vivo com os principais desenvolvedores e profissionais de dados do setor, enquanto eles exploram todo o espectro de projetos de dados da web, combinando insights de especialistas, estratégias práticas e uma pitada de humor de desenvolvedor.

Principais pontos de discussão: – Fundamentos da coleta de dados da web: mergulhe nas melhores linguagens, frameworks e ferramentas para um Scraping de dados eficiente. – Domínio do desbloqueio de sites: aprenda técnicas resilientes de Scraping de dados, entenda os desafios e descubra soluções alternativas comprovadas. – Análise aprofundada de dados: dicas sobre otimização de bancos de dados, preparação de dados e narrativa de dados envolvente. – Técnicas impulsionadas por IA reveladas: integre a IA ao scraping e eleve as análises de dados com ferramentas de IA de ponta.

Considerações finais

Os dados da web são o motor que impulsiona as inovações em IA e molda os negócios modernos. Mas com as grandes empresas de tecnologia cada vez mais monopolizando esse ativo e diferentes reguladores adotando abordagens opostas, estaremos à beira de transformar dados públicos em um tesouro privado? Nosso CEO dá início à conferência mergulhando no estado da coleta de dados da web em 2023/2024, esclarecendo os desafios e oportunidades atuais.

Nesta sessão, você descobrirá: – Será que poderei coletar dados em 2024 da mesma forma (ou de alguma forma)? – Como abordar a coleta de dados em 2024, à medida que a regulamentação relevante evolui? – Que tecnologias e produtos inovadores podemos esperar em 2024 que redefinirão as operações de coleta de dados? Juntam-se a Or nesta sessão Anthony Goldbloom, cofundador e ex-CEO da Kaggle.com, a maior comunidade de IA e ML do mundo, e Jo Levy, sócia do escritório de advocacia The Norton Law Firm e ex-vice e diretora jurídica para a Ásia-Pacífico e Japão da Intel Corporation. Juntos, eles irão aprofundar-se no futuro dos LLMs e navegar pelo complexo panorama jurídico em torno da coleta de dados na era dos modelos fundamentais de IA, como o ChatGPT.

Palestrantes

Conheça as mentes por trás do microfone.

Smiling man in black shirt with blue background.
Ou Lenchner

CEO, Bright Data

Woman smiling with blue, starry background.
Jo Levy

Sócio do escritório de advocacia The Norton Law
, escritório de advocacia Norton Law

Man in glasses with blue background.
Ganesh Kumar

Diretor de Produtos e Design de
, Rakuten

Man smiling, dark shirt, abstract blue background.
Aviv Besinsky

Diretor de Produtos de Proxy,
Bright Data

Smiling woman with blonde hair, cosmic background.
Mariya Sha

Fundador e Desenvolvedor de Software
, Python Simplified

Smiling man with dark shirt, blue abstract background.
Omri Orgad

CCO, Bright Data

A bearded man smiling against dark abstract background.
Upendra Dev Singh

Vice-presidente sênior de Tecnologia de
, Ixigo

Person with a dark blue background, wearing a lanyard.
Anthony Goldbloom

Vice-presidente sênior de Tecnologia de
, Ixigo

Smiling woman against a blue, cosmic background.
Lior Levhar

Conjuntos de datos Experts TL,
Bright Data

Smiling woman with long blond hair against blue background.
Tiff Janzen

Fundadora e desenvolvedora, defensora do
, TiffInTech

Man smiling with a cosmic background.
Lewis Menelaws

Vice-presidente de Tecnologia,
Coding With Lewis

Man with dark hair and beard on blue background.
Itamar Abramovich

Diretor de Produtos de Dados,
Bright Data

Smiling woman in white top with blue background.
Ghita

Fundador e CEO, Tech Bible

Man with gray hair and beard, blue background.
Itzhak Yosef Friedman

Diretor de P&D, Bright Data

Bald man in glasses with a blue background.
Alex Fierberg

Fundador e Youtuber,
Alex The Analyst

Smiling man with dark background, blue light rays.
Ilya Kolker

Especialista em Pós-Venda,
Bright Data

Smiling man in front of blue abstract background.
Tim Ru

Diretor de Produtos de Proxy,
Bright Data

Man in checkered shirt, futuristic background.
Michael Beygelman

Fundador, Claro Analytics

Smiling man with short hair and black shirt.
Nir Borenshtein

COO, Bright Data

Smiling man with glasses and patterned shirt.
Ken Jee

Os vizinhos mais próximos de Ken

Thank You for Being a Part of Our Event!

Aproveite este vídeo que captura os destaques do nosso evento.

O ScrapeCon pode ter acabado, mas a conversa continua.