Crea una cuenta para usar la IA

Crea una cuenta gratuita para desbloquear todas las funciones:

Haz preguntas sobre los vídeos con IA
Usa la búsqueda inteligente (IA)
Guarda tus vídeos favoritos
Marca tus categorías preferidas
Organiza tus subcategorías favoritas
Accede a tu página de favoritos personalizada
Accede al historial de tus conversaciones
Personaliza tu página de inicio con tus favoritos

¿Ya tienes una cuenta? Iniciar sesión

¡Tutorial Avanzado de Web Scraping! (con la Biblioteca Beautiful Soup de Python)

Name: ¡Tutorial Avanzado de Web Scraping! (con la Biblioteca Beautiful Soup de Python)
Uploaded: 2024-06-08T13:57:23+00:00
Duration: 42 min 43 s

Keith Galli

¡Comienza con Bright Data + $15 de crédito gratis usando este enlace!

https://brdta.com/keithgalli

En este video, nos sumergiremos en técnicas avanzadas de web scraping con Python. Si no has visto mi resumen de la biblioteca Beautiful Soup, míralo primero para obtener algunos conocimientos básicos. El web scraping es una habilidad muy valiosa, especialmente para trabajos freelance. Este tutorial te llevará a través de métodos de scraping sofisticados, usando Walmart como ejemplo.

Antes de comenzar, un gran agradecimiento a nuestro patrocinador, Bright Data. Ofrecen herramientas de proxy que facilitan mucho el web scraping avanzado, permitiéndote eludir las restricciones impuestas por los sitios web. Consulta su mercado de conjuntos de datos para acceder rápidamente a varios datos.

En este video, cubriremos:

- Configuración y comprensión de la estructura HTML de una página web

- Extracción de datos usando Beautiful Soup y manejo de contenido dinámico

- Implementación de encabezados para evitar detección

- Análisis de datos JSON para un scraping eficiente

- Uso de proxies con Bright Data para eludir el bloqueo de IP

- Manejo de errores y reintentos en el scraping

- Almacenamiento de datos extraídos y manejo de múltiples consultas de búsqueda

Si necesitas ayuda para comenzar con el web scraping, consulta mi tutorial original sobre BeautifulSoup:

https://youtu.be/GjKQ6V_ViQE?si=f9Xo0ING4fNLhLx2

Enlaces Útiles:

Repositorio de GitHub con Ejemplos de Código: https://github.com/KeithGalli/advanced-scraping

¡Cronología del Video!

0:00 - Introducción y Resumen

1:30 - Identificación de la Estructura HTML para Scraping (de Walmart)

4:26 - Escribiendo Código de Python BeautifulSoup para Extraer Información de Walmart.com

7:22 - Implementación de encabezados de solicitud modificados para evitar detección

6:10 - Manejo de Contenido Dinámico

8:00 - Implementación de Encabezados de Solicitud Modificados para Evitar Detección (parecer más humano al hacer scraping)

9:30 - Análisis de Datos JSON Complicados (Usando LLMs para ayudar)

15:28 - Ampliando nuestro Código para Recoger Información sobre Muchos Productos (Automatizando Búsquedas)

24:45 - Mejorando nuestro Código (evitando duplicados, múltiples términos de búsqueda, usando una cola, etc.)

27:20 - Configuración de Proxies con Bright Data (Eludir bloqueos de direcciones IP)

36:35 - Manejo de Errores y Reintentos

39:36 - Automatizando acciones en páginas con Selenium

41:42 - Conclusión y Próximos Pasos

Espero que encuentres útil este tutorial. Si lo hiciste, por favor dale un pulgar arriba y suscríbete al canal para más tutoriales. Déjame saber en los comentarios cómo planeas usar estas técnicas de web scraping en tus proyectos. ¡Disfruta scrapeando!

-------------------------

¡Sígueme en las redes sociales!

Instagram | https://www.instagram.com/keithgalli/

Twitter | https://twitter.com/keithgalli

TikTok | https://tiktok.com/@keithgalli

-------------------------

¡Practica tus habilidades de ciencia de datos con Python Pandas con problemas en StrataScratch!

https://stratascratch.com/?via=keith

¡Únete al Ejército de Python para acceder a beneficios!

YouTube - https://www.youtube.com/channel/UCq6XkhO5SZ66N04IcPbqNcw/join

Patreon - https://www.patreon.com/keithgalli

*Uso enlaces de afiliados en los productos que recomiendo. Puedo ganar una comisión por compra o un bono de referencia por el uso de estos enlaces.