Finden Sie Bright Data auf ihrem YouTube-Kanal: @BrightData
Lernen Sie das Scraping von Grund auf mit dieser vollständigen Ausbildung. Diese Ausbildung wird mit Python durchgeführt, aber die gesamte Theorie des Scrapings und des Umgehens von Blockaden kann auf jede Programmiersprache angewendet werden, die Scraping ermöglicht.
----------------------------------------------------------
VORAUSSETZUNGEN:
----------------------------------------------------------
🔗 Quellen der Skripte
🖥️ Erstellen Sie Ihren VPS bei Infomaniak
🔗 Mein vollständiger Python-Kurs auf Udemy (+60h Ausbildung)
🔖 Abonnieren Sie Docstring
💬 Treten Sie uns auf dem Discord-Server bei
----------------------------------------------------------
===== KAPITEL =====
00:00:00 Einführung
00:03:13 Der Ausbildungsplan
00:07:58 Definition des Scrapings
00:08:56 Die Voraussetzungen
00:11:06 Die Hindernisse (und die Lösung)
00:13:20 TEIL 1: Die Grundlagen des Scrapings
00:18:26 Den Inhalt einer Seite mit requests abrufen
00:24:35 Den Inhalt einer Seite mit BeautifulSoup analysieren
00:33:41 Informationen mit BeautifulSoup abrufen
00:43:03 Die Startseite der Bücher analysieren
00:54:56 Jetzt sind Sie dran!
01:04:32 Einfache Übungen: Einführung
01:06:08 Kategorien mit einem einzigen Buch abrufen
01:08:40 Lösung
01:32:01 Bücher mit 1 Stern abrufen
01:35:44 Lösung
02:08:18 Fortgeschrittene Übung: Einführung
02:09:08 Aufgabenstellung der Übung
02:10:23 Vorstellung von Selectolax und Loguru
02:18:04 Vorbereitung eines Lastenhefts
02:28:32 Erstellung des Skriptkörpers
02:47:46 Den Preis eines Buches abrufen
03:12:41 Alle URLs auf einer Seite abrufen
03:24:48 Die URL der nächsten Seite abrufen
03:30:54 Alle URLs der Bibliothek abrufen
03:38:44 Den Gesamtwert der Bibliothek abrufen
03:46:51 Optimierung unseres Skripts mit Sessions
03:53:09 Fazit
03:53:59 TEIL 2: Hindernisse umgehen
03:55:57 Was das Gesetz sagt
03:56:38 Die AGB
03:59:25 Die DSGVO
04:00:49 Der Fall zwischenparticuliers.com gegen Leboncoin
04:01:58 Beispiele für legales und illegales Scraping
04:04:59 Die Datei robots.txt
04:09:10 Interview mit Rony SHALIT
04:46:29 Technische Blockaden
04:50:43 Freiwillige Blockaden
04:52:04 Blockade durch Anfragenbegrenzung
04:59:18 Blockade mit dem User-Agent
05:04:55 Vorstellung von Playwright
05:10:46 Playwright verwenden, um JavaScript anzuzeigen
05:20:14 Mit dem DOM interagieren
05:26:22 Die unverzichtbaren Methoden, die man kennen sollte
05:37:45 Die Lösung Bright Data
05:38:43 Überblick über die Plattform
05:45:04 Erstellen Sie Ihr Konto bei Bright Data
05:48:28 Das Netzwerk für Wohnproxies nutzen
05:57:59 Den Web Unlocker verwenden
06:02:12 Den Scraping-Browser verwenden
06:09:47 TEIL 3: Daten von AirBnB abrufen
06:11:01 Vorbereitung eines ethischen Scrapings
06:15:04 Analyse der Website zur Vorbereitung des Scrapings
06:20:44 Projekt erstellen und Bibliotheken installieren
06:24:21 Einfaches Scraping mit requests
06:29:15 HTML auf der Festplatte speichern
06:34:57 HTML von der Festplatte abrufen
06:42:39 Preisdaten abrufen
07:03:49 Skript über die Befehlszeile ausführen
07:06:11 Fortgeschrittenes Scraping mit Playwright
07:15:46 Alle Seiten durchlaufen
07:25:09 Den Scraping-Browser von Bright Data verwenden
07:33:44 Automatisches Öffnen des Debuggers
07:39:11 Bandbreite minimieren
07:43:20 Zur Suchseite navigieren
07:52:09 Zum nächsten Monat wechseln
08:09:57 Monate durchscrollen
08:22:14 Preis abrufen und Skript abschließen
08:34:01 TEIL 4: E-Commerce-Alarm-System
08:35:16 Die verwendeten Werkzeuge
08:38:01 Vorbereitung eines ethischen Scrapings
08:39:55 HTML mit requests abrufen
08:52:47 Umgebungsvariablen hinzufügen
08:54:57 Den Web Unlocker verwenden
09:00:09 Historie der Werte auf der Festplatte speichern
09:04:45 Den aktuellen Wert mit dem vorherigen vergleichen
09:08:17 Die Alarmfunktion mit Pushover hinzufügen
09:11:27 Den Logger hinzufügen
09:17:44 Die Hauptfunktion beenden
09:28:02 Dateien auf den VPS senden
09:32:41 Einen Cron-Job erstellen
09:39:17 Warnung mit urllib entfernen
09:40:45 Sentry-Alerts hinzufügen
09:50:22 Outro