Crie uma conta para usar a IA

Crie uma conta gratuita para desbloquear todos os recursos:

Faça perguntas sobre vídeos com IA
Use a busca inteligente (IA)
Salve seus vídeos favoritos
Marque suas categorias favoritas
Organize suas subcategorias favoritas
Acesse sua página de favoritos personalizada
Acesse o histórico das suas conversas
Personalize sua página inicial com seus favoritos

Já tem uma conta? Entrar

Tutorial Avançado de Web Scraping! (com a Biblioteca Beautiful Soup do Python)

Name: Tutorial Avançado de Web Scraping! (com a Biblioteca Beautiful Soup do Python)
Uploaded: 2024-06-08T13:57:23+00:00
Duration: 42 min 43 s

Keith Galli

Comece com a Bright Data + $15 de crédito grátis usando este link!

https://brdta.com/keithgalli

Neste vídeo, vamos mergulhar em técnicas avançadas de web scraping com Python. Se você ainda não viu minha visão geral da biblioteca Beautiful Soup, confira primeiro para obter alguns conhecimentos fundamentais. Web scraping é uma habilidade altamente valiosa, especialmente para trabalho freelance. Este tutorial irá guiá-lo por métodos sofisticados de scraping, usando o Walmart como exemplo.

Antes de começarmos, um grande agradecimento ao nosso patrocinador, Bright Data. Eles oferecem ferramentas de proxy que tornam o web scraping avançado muito mais fácil, permitindo que você contorne restrições impostas por sites. Confira o mercado de conjuntos de dados deles para acesso rápido a vários dados.

Neste vídeo, vamos cobrir:

- Configuração e compreensão da estrutura HTML de uma página da web

- Extração de dados usando Beautiful Soup e manipulação de conteúdo dinâmico

- Implementação de cabeçalhos para evitar detecção

- Análise de dados JSON para scraping eficiente

- Uso de proxies com a Bright Data para contornar bloqueios de IP

- Tratamento de erros e tentativas no scraping

- Armazenamento de dados extraídos e manipulação de várias consultas de pesquisa

Se você precisar de ajuda para começar com web scraping, confira meu tutorial original sobre BeautifulSoup:

https://youtu.be/GjKQ6V_ViQE?si=f9Xo0ING4fNLhLx2

Links Úteis:

Repositório do GitHub com Exemplos de Código: https://github.com/KeithGalli/advanced-scraping

Cronograma do Vídeo!

0:00 - Introdução & Visão Geral

1:30 - Identificando a Estrutura HTML para Scraping (do Walmart)

4:26 - Escrevendo Código Python BeautifulSoup para Extrair Informações do Walmart.com

7:22 - Implementando cabeçalhos de requisição modificados para evitar detecção

6:10 - Manipulando Conteúdo Dinâmico

8:00 - Implementando Cabeçalhos de Requisição Modificados para Evitar Detecção (parecer mais humano ao fazer scraping)

9:30 - Analisando Dados JSON Complicados (Usando LLMs para ajudar)

15:28 - Estendendo nosso Código para Coletar Informações sobre Muitos Produtos (Automatizando Pesquisa)

24:45 - Melhorando nosso Código (evitando duplicatas, múltiplos termos de pesquisa, usando uma fila, etc.)

27:20 - Configurando Proxies com a Bright Data (Contornando bloqueios de Endereço IP)

36:35 - Tratamento de Erros e Tentativas

39:36 - Automatizando ações em páginas com Selenium

41:42 - Conclusão & Próximos Passos

Espero que você ache este tutorial útil. Se achou, por favor, dê um joinha e inscreva-se no canal para mais tutoriais. Deixe-me saber nos comentários como você planeja usar essas técnicas de web scraping em seus projetos. Aproveite o scraping!

-------------------------

Siga-me nas redes sociais!

Instagram | https://www.instagram.com/keithgalli/

Twitter | https://twitter.com/keithgalli

TikTok | https://tiktok.com/@keithgalli

-------------------------

Pratique suas habilidades de ciência de dados com Python Pandas com problemas no StrataScratch!

https://stratascratch.com/?via=keith

Junte-se ao Exército Python para ter acesso a benefícios!

YouTube - https://www.youtube.com/channel/UCq6XkhO5SZ66N04IcPbqNcw/join

Patreon - https://www.patreon.com/keithgalli

*Eu uso links de afiliados nos produtos que recomendo. Posso ganhar uma comissão de compra ou um bônus de referência pelo uso desses links.