Créez un compte pour utiliser l'IA

Créez un compte gratuit pour débloquer toutes les fonctionnalités :

Posez des questions sur les vidéos avec l'IA
Utilisez la recherche intelligente (IA)
Sauvegardez vos vidéos en favoris
Marquez vos catégories préférées
Organisez vos sous-catégories favorites
Accédez à votre page de favoris personnalisée
Retrouvez l'historique de vos conversations
Personnalisez votre page d'accueil avec vos favoris

Vous avez déjà un compte ? Se connecter

Tutoriel avancé sur le web scraping ! (avec la bibliothèque Python Beautiful Soup)

Name: Tutoriel avancé sur le web scraping ! (avec la bibliothèque Python Beautiful Soup)
Uploaded: 2024-06-08T13:57:23+00:00
Duration: 42 min 43 s

Keith Galli

Commencez avec Bright Data + 15 $ de crédit gratuit en utilisant ce lien !

https://brdta.com/keithgalli

Dans cette vidéo, nous plongeons dans des techniques avancées de web scraping avec Python. Si vous n'avez pas vu mon aperçu de la bibliothèque Beautiful Soup, regardez-le d'abord pour acquérir des connaissances fondamentales. Le web scraping est une compétence très précieuse, surtout pour le travail en freelance. Ce tutoriel vous guidera à travers des méthodes de scraping sophistiquées, en utilisant Walmart comme exemple.

Avant de commencer, un grand merci à notre sponsor, Bright Data. Ils offrent des outils de proxy qui rendent le web scraping avancé beaucoup plus facile, vous permettant de contourner les restrictions imposées par les sites web. Consultez leur marché de jeux de données pour un accès rapide à diverses données.

Dans cette vidéo, nous aborderons :

- La configuration et la compréhension de la structure HTML d'une page web

- L'extraction de données à l'aide de Beautiful Soup et la gestion du contenu dynamique

- La mise en œuvre d'en-têtes pour éviter la détection

- L'analyse des données JSON pour un scraping efficace

- L'utilisation de proxies avec Bright Data pour contourner le blocage IP

- La gestion des erreurs et les tentatives dans le scraping

- Le stockage des données extraites et la gestion de plusieurs requêtes de recherche

Si vous avez besoin d'aide pour commencer avec le web scraping, consultez mon tutoriel original sur BeautifulSoup :

https://youtu.be/GjKQ6V_ViQE?si=f9Xo0ING4fNLhLx2

Liens utiles :

Dépôt GitHub avec des exemples de code : https://github.com/KeithGalli/advanced-scraping

Chronologie de la vidéo !

0:00 - Introduction & Aperçu

1:30 - Identification de la structure HTML pour le scraping (de Walmart)

4:26 - Écriture de code Python BeautifulSoup pour extraire des informations de Walmart.com

7:22 - Mise en œuvre d'en-têtes de requête modifiés pour éviter la détection

6:10 - Gestion du contenu dynamique

8:00 - Mise en œuvre d'en-têtes de requête modifiés pour éviter la détection (avoir l'air plus humain lors du scraping)

9:30 - Analyse de données JSON compliquées (utilisation de LLMs pour aider)

15:28 - Extension de notre code pour collecter des informations sur de nombreux produits (automatisation de la recherche)

24:45 - Amélioration de notre code (éviter les doublons, plusieurs termes de recherche, utiliser une file d'attente, etc.)

27:20 - Configuration de proxies avec Bright Data (contourner les blocs d'adresse IP)

36:35 - Gestion des erreurs et tentatives

39:36 - Automatisation des actions sur les pages avec Selenium

41:42 - Conclusion & Prochaines étapes

J'espère que vous trouverez ce tutoriel utile. Si c'est le cas, merci de lui donner un pouce en l'air et de vous abonner à la chaîne pour plus de tutoriels. Faites-moi savoir dans les commentaires comment vous prévoyez d'utiliser ces techniques de web scraping dans vos projets. Profitez du scraping !

-------------------------

Suivez-moi sur les réseaux sociaux !

Instagram | https://www.instagram.com/keithgalli/

Twitter | https://twitter.com/keithgalli

TikTok | https://tiktok.com/@keithgalli

-------------------------

Pratiquez vos compétences en science des données Python Pandas avec des problèmes sur StrataScratch !

https://stratascratch.com/?via=keith

Rejoignez l'Armée Python pour accéder à des avantages !

YouTube - https://www.youtube.com/channel/UCq6XkhO5SZ66N04IcPbqNcw/join

Patreon - https://www.patreon.com/keithgalli

*J'utilise des liens d'affiliation sur les produits que je recommande. Je peux gagner une commission sur les achats ou un bonus de parrainage grâce à l'utilisation de ces liens.