TL;DR: Dies ist ein eigenwilliger, umfassender Leitfaden zum Web-Scraping mit Scrapy im Jahr 2026. Sie werden Scrapy installieren, Selektoren in der Shell prototypisieren, einen mehrseitigen E-Commerce-Spider erstellen, Elemente mit Item Loaders bereinigen, Daten in einer Datenbank speichern, Einstellungen gegen Sperren absichern und Scrapy-Playwright für JavaScript-gerenderte Seiten integrieren.
Scrapy ist seit über einem Jahrzehnt das Rückgrat des professionellen Python-Crawlings und hat sich trotz einer Welle neuerer asynchroner Bibliotheken nach wie vor bewährt. Wenn Sie heute Web-Scraping mit Scrapy betreiben, erhalten Sie ein eigenwilliges Framework, das die langweiligen Teile (Anforderungsplanung, Deduplizierung, Wiederholungsversuche, Item-Pipelines) übernimmt, sodass Sie sich auf die Teile konzentrieren können, die tatsächlich Probleme bereiten: Selektoren, Anti-Bot-Maßnahmen und Speicherung.
Dieser Leitfaden ist eher am Lebenszyklus von Anfragen und Antworten ausgerichtet als an einem chronologischen Aufbau. Jeder Abschnitt entspricht einer Scrapy-Komponente, mit der du in der Produktion zu tun haben wirst, von der Engine und den Downloader-Middlewares bis hin zu Item Loaders und Feed-Exporten. Wir verwenden durchgehend ein einziges Ziel, die öffentliche Übungsseite books.toscrape.com, sodass jeder Code-Block in ein einheitliches mentales Modell passt.
Am Ende verfügen Sie über einen lauffähigen Spider, der einen Katalog paginiert, Items validiert und bereinigt, sowohl in JSON Lines als auch in SQLite schreibt, bei 429 Storms und auf einen echten Browser ausweicht, wenn eine Seite JavaScript benötigt. Wir werden auch die Teile des Frameworks hervorheben, die Neulinge regelmäßig falsch verwenden, und kopierbare Lösungen bereitstellen.




