¡Practica tus habilidades de ciencia de datos con Python Pandas con problemas en StrataScratch!
En este video recorremos el raspado web en Python utilizando la biblioteca Beautiful Soup. Comenzamos con una breve introducción a HTML y CSS y discutimos qué es el raspado web. A continuación, comenzamos a entrar en los conceptos básicos de la biblioteca Beautiful Soup. Esto incluye cómo cargar una página web, los comandos básicos que necesitas conocer como find y find_all, obtener cadenas de elementos HTML, etc. La sección final de este tutorial es una serie de ejercicios donde puedes practicar tus habilidades. En esta sección raspamos una página web en busca de enlaces, aprendemos a raspar una tabla y cargarla en un dataframe de pandas, y vemos cómo puedes raspar y descargar una imagen web. ¡Espero que lo disfrutes!
Estoy considerando hacer videos futuros sobre cosas más complejas que puedes hacer con el raspado web, así como otras bibliotecas útiles como Selenium y Scrapy. Suscríbete para no perderte esos.
¡Únete al Ejército de Python para acceder a beneficios!
---------------------
Recursos utilizados en este video
---------------------
Aprende más sobre HTML/CSS
---------------------
¡Cronología del video!
0:00 - Introducción y resumen del video
1:09 - ¿Qué es el raspado web?
3:51 - Introducción a HTML
Usando la biblioteca Beautiful Soup (5:29)
6:31 - Cargando una página web (biblioteca requests)
8:21 - Comenzando a raspar
9:18 - Métodos find y find_all
16:00 - Encontrando texto/cadenas específicas en nuestro HTML (regex)
18:38 - Método select (selecciones de ruta CSS)
25:55 - Obteniendo la cadena/texto de un elemento HTML
28:17 - Obteniendo una propiedad de un elemento HTML (href, src, id, class, etc)
29:41 - Navegación de código (padres, hijos, hermanos)
¡Practiquemos nuestras habilidades! (33:57)
35:53 - Ejercicio #1: Obtener todos los enlaces sociales en la página web de 3 maneras diferentes
42:09 - Ejercicio #2: Raspar una tabla HTML en un Dataframe de Pandas
53:09 - Ejercicio #3: Obtener todos los datos curiosos que contengan la palabra “es”
57:59 - Ejercicio #4: Usar Beautiful Soup para ayudar a descargar una imagen de una página web
1:04:20 - Ejercicio #5: ¡Resolver el desafío misterioso!!!
---------------------
¡Sígueme en las redes sociales!
---------------------
¡Aprende habilidades de datos con ejercicios prácticos y tutoriales en Datacamp!
*Uso enlaces de afiliados en los productos que recomiendo. Puedo ganar una comisión por compra o un bono de referencia por el uso de estos enlaces.