Pratiquez vos compétences en science des données avec Python Pandas grâce à des problèmes sur StrataScratch !
Dans cette vidéo, nous parcourons le web scraping en Python en utilisant la bibliothèque Beautiful Soup. Nous commençons par une brève introduction à HTML et CSS et discutons de ce qu'est le web scraping. Ensuite, nous abordons les bases de la bibliothèque Beautiful Soup. Cela inclut comment charger une page web, les commandes de base que vous devez connaître telles que find et find_all, extraire des chaînes à partir d'éléments HTML, etc. La dernière section de ce tutoriel est une série d'exercices où vous pouvez pratiquer vos compétences. Dans cette section, nous extrayons une page web pour des liens, nous apprenons à extraire un tableau et à le charger dans un dataframe pandas, et nous voyons comment vous pouvez extraire et télécharger une image web. J'espère que vous apprécierez !
Je prévois de réaliser de futures vidéos sur des choses plus complexes que vous pouvez faire avec le web scraping ainsi que d'autres bibliothèques utiles comme Selenium et ScraPy. Abonnez-vous pour ne pas les manquer.
Rejoignez l'Armée Python pour accéder à des avantages !
---------------------
Ressources utilisées dans cette vidéo
---------------------
En savoir plus sur HTML/CSS
---------------------
Chronologie de la vidéo !
0:00 - Introduction & Aperçu de la vidéo
1:09 - Qu'est-ce que le web scraping ?
3:51 - Introduction à HTML
Utilisation de la bibliothèque Beautiful Soup (5:29)
6:31 - Chargement d'une page web (bibliothèque requests)
8:21 - Commencer à extraire
9:18 - Méthodes find & find_all
16:00 - Trouver du texte/chaînes spécifiques dans notre HTML (regex)
18:38 - Méthode select (sélections de chemin CSS)
25:55 - Extraire la chaîne/le texte d'un élément HTML
28:17 - Obtenir une propriété d'un élément HTML (href, src, id, class, etc)
29:41 - Navigation dans le code (parents, enfants, frères et sœurs)
Pratiquons nos compétences ! (33:57)
35:53 - Exercice #1 : Extraire tous les liens sociaux sur la page web de 3 manières différentes
42:09 - Exercice #2 : Extraire un tableau HTML dans un Dataframe Pandas
53:09 - Exercice #3 : Extraire tous les faits amusants contenant le mot “est”
57:59 - Exercice #4 : Utiliser Beautiful Soup pour aider à télécharger une image d'une page web
1:04:20 - Exercice #5 : Résoudre le défi mystère !!!
---------------------
Suivez-moi sur les réseaux sociaux !
---------------------
Apprenez des compétences en données avec des exercices pratiques et des tutoriels sur Datacamp !
*J'utilise des liens d'affiliation sur les produits que je recommande. Je peux gagner une commission sur les achats ou un bonus de parrainage grâce à l'utilisation de ces liens.