Encuentra Bright Data en su canal de YouTube: @BrightData
Aprende a raspar desde cero con esta formación completa. Esta formación se realiza con Python, pero toda la teoría del raspado y el eludir bloqueos se puede aplicar a cualquier lenguaje que permita hacer raspado.
----------------------------------------------------------
PRERREQUISITOS:
----------------------------------------------------------
🔗 Fuentes de los scripts
🖥️ Crea tu VPS en Infomaniak
🔗 Mi formación completa de Python en Udemy (+60h de formación)
🔖 Suscríbete a Docstring
💬 Únete a nosotros en el servidor de Discord
----------------------------------------------------------
===== CAPÍTULOS =====
00:00:00 Introducción
00:03:13 El programa de la formación
00:07:58 Definición del raspado
00:08:56 Los prerrequisitos
00:11:06 Los obstáculos (y la solución)
00:13:20 PARTE 1: las bases del raspado
00:18:26 Recuperar el contenido de una página con requests
00:24:35 Analizar el contenido de una página con BeautifulSoup
00:33:41 Recuperar información con BeautifulSoup
00:43:03 Analizar la página de inicio de los libros
00:54:56 ¡Es tu turno!
01:04:32 Ejercicios simples: Introducción
01:06:08 Recuperar las categorías con un solo libro
01:08:40 Solución
01:32:01 Recuperar los libros calificados con 1 estrella
01:35:44 Solución
02:08:18 Ejercicio avanzado: Introducción
02:09:08 Enunciado del ejercicio
02:10:23 Presentación de Selectolax y Loguru
02:18:04 Preparación de un pliego de condiciones
02:28:32 Creación del cuerpo del script
02:47:46 Recuperación del precio de un libro
03:12:41 Recuperar todas las URL en una página
03:24:48 Recuperar la URL de la siguiente página
03:30:54 Recuperar todas las URL de la librería
03:38:44 Recuperar el valor total de la librería
03:46:51 Optimización de nuestro script con sesiones
03:53:09 Conclusión
03:53:59 PARTE 2: eludir los obstáculos
03:55:57 Lo que dice la ley
03:56:38 Los Términos y Condiciones
03:59:25 El RGPD
04:00:49 El caso entreparticulares.com VS Leboncoin
04:01:58 Ejemplos de raspado lícito e ilícito
04:04:59 El archivo robots.txt
04:09:10 Entrevista con Rony SHALIT
04:46:29 Los bloqueos técnicos
04:50:43 Los bloqueos voluntarios
04:52:04 El bloqueo por limitación de solicitudes
04:59:18 El bloqueo con el user-agent
05:04:55 Presentación de Playwright
05:10:46 Usar playwright para mostrar el javascript
05:20:14 Interactuar con el DOM
05:26:22 Los métodos indispensables a conocer
05:37:45 La solución Bright Data
05:38:43 Panorama de la plataforma
05:45:04 Crear tu cuenta en Bright Data
05:48:28 Usar la red de proxy residencial
05:57:59 Usar el desbloqueador web
06:02:12 Usar el navegador de raspado
06:09:47 PARTE 3: Recuperar datos en AirBnB
06:11:01 Preparación de un raspado ético
06:15:04 Análisis del sitio para preparar el raspado
06:20:44 Crear el proyecto e instalar las librerías
06:24:21 Raspado simple con requests
06:29:15 Guardar el HTML en el disco
06:34:57 Recuperar el HTML desde el disco
06:42:39 Recuperar los datos de precios
07:03:49 Ejecutar el script en línea de comandos
07:06:11 Raspado avanzado con Playwright
07:15:46 Pasar a través de todas las páginas
07:25:09 Usar el navegador de raspado de Bright Data
07:33:44 Automatizar la apertura del depurador
07:39:11 Minimizar el ancho de banda
07:43:20 Navegar hasta la página de búsquedas
07:52:09 Pasar al mes siguiente
08:09:57 Desplazar los meses
08:22:14 Recuperar el precio y finalizar el script
08:34:01 PARTE 4: Sistema de alerta e-commerce
08:35:16 Las herramientas utilizadas
08:38:01 Preparación de un raspado ético
08:39:55 Recuperar el HTML con requests
08:52:47 Añadir las variables de entorno
08:54:57 Usar el Desbloqueador Web
09:00:09 Mantener el historial de valores en el disco
09:04:45 Comparar el valor actual con el anterior
09:08:17 Añadir la función de alerta con Pushover
09:11:27 Añadir el logger
09:17:44 Terminar la función principal
09:28:02 Enviar los archivos al VPS
09:32:41 Crear un Cron Job
09:39:17 Eliminar la advertencia con urllib
09:40:45 Añadir las alertas Sentry
09:50:22 Outro