Einblicke & Technik

Ein tiefer Einblick in die Infrastruktur von Webdaten, Extraktionstechniken und die Zukunft strukturierter Daten in großem Maßstab.

Alle Anleitungen Die Wissenschaft des Web-Scrapings Anwendungsfälle Technik Sonstiges

Anleitungen

Webscraping mit Cheerio: So sammeln Sie ganz einfach Daten von Webseiten

Mit Cheerio können Sie innerhalb weniger Minuten mit der Datenerfassung beginnen. Ganz unkompliziert und ohne Einarbeitungsaufwand.

Raluca Penciuc7 min readApr 27, 2026

Artikel lesen

Neueste Artikel

Anleitungen

Wie man Redfin scrappt: Python-Leitfaden für Immobiliendaten

TL;DR: Redfin stellt versteckte API-Endpunkte zur Verfügung, die strukturiertes JSON für Immobilienangebote zurückgeben, wodurch das fragile HTML-Parsing vollständig übersprungen werden kann. Diese Anleitung führt Sie durch den Aufbau eines Python-Scrapers, der Miet- und Verkaufsdaten extrahiert, nach Standort sucht, neue Angebote über XML-Sitemaps überwacht und saubere Ergebnisse in CSV oder JSON exportiert.

Suciu Dan11 min read

Apr 27, 2026

Anleitungen

XPath Web Scraping: Ein praktischer Leitfaden mit Python-Beispielen

TL;DR: XPath ist eine Abfragesprache zum Navigieren in HTML/XML-Bäumen nach Pfad, Attribut oder Textinhalt. Dieser Leitfaden behandelt XPath-Syntax, Achsen und Funktionen und zeigt dann funktionierende Python-Scraper mit lxml und Selenium. Sie erhalten auch einen konsolidierten Spickzettel und einen Abschnitt zur Fehlerbehebung für die häufigsten XPath-Fehler.

Suciu Dan9 min read

Apr 29, 2026

Die Wissenschaft des Web-Scrapings

HTTP-Antwort-Header in cURL: Jedes Flag, jede Technik und jedes Skripting-Rezept

TL;DR: cURL verbirgt standardmäßig Antwort-Header. Verwenden Sie -i, um Header neben dem Body zu sehen, -I für eine HEAD-Anfrage, die nur Header zurückgibt, -v für vollständiges Debugging von Anfrage und Antwort und -D, um Header in einer Datei zu speichern. Für modernes Scripting können Sie mit cURL 7.83+ einzelne Header extrahieren oder mit der Option -w write-out alle Header als JSON ausgeben.

Suciu Dan11 min read

Apr 29, 2026

Die Wissenschaft des Web-Scrapings

Was ist ein Headless Browser? Architektur, Anwendungsfälle und Top-Tools

TL;DR: Ein Headless Browser ist ein Webbrowser, der ohne sichtbare grafische Oberfläche läuft und ausschließlich über Code oder Befehlszeilenanweisungen gesteuert wird. Entwickler verwenden Headless-Browser für automatisierte Tests, Web-Scraping, Leistungsüberwachung und zunehmend auch für den Einsatz von KI-Agenten. In diesem Leitfaden erfahren Sie, wie sie intern funktionieren, wann Sie einen solchen Browser einem normalen Browser vorziehen sollten und welche Frameworks Ihre Zeit wert sind.

Suciu Dan12 min read

Apr 29, 2026

Anleitungen

Scrapy Playwright Tutorial: JavaScript-lastige Websites in großem Umfang scrapen

TL;DR: Mit Scrapy-Playwright können Sie JavaScript-lastige Seiten direkt in Scrapy-Spidern rendern, indem Sie echte Chromium-, Firefox- oder WebKit-Browser über Playwright steuern. Dieses Tutorial führt Sie durch Installation, Konfiguration, Seiteninteraktionen, AJAX-Abfang, Anti-Detection und eine produktionsreife Projektstruktur, so dass Sie dynamische Seiten scrapen können, ohne das Scrapy-Ökosystem zu verlassen.

Raluca Penciuc17 min read

Apr 28, 2026

Anleitungen

So scrapen Sie Expedia mit Python: Hotels, Preise und Bewertungen (Leitfaden 2026)

Extrahieren Sie Hotelangebote von Expedia mit Python unter Verwendung von JS-Rendering, Proxys, CSS-Selektoren und Paginierung, bereinigen Sie die Daten anschließend und exportieren Sie sie in eine CSV-Datei.

Mihai Maxim11 min read

Apr 27, 2026

2 328 29 30