Einblicke & Technik

Ein tiefer Einblick in die Infrastruktur von Webdaten, Extraktionstechniken und die Zukunft strukturierter Daten in großem Maßstab.

Neueste Artikel

Wie man HTML-Tabellen in Golang mit Colly scrappt: End-to-End-Anleitung

TL;DR: Diese Anleitung zeigt, wie man HTML-Tabellen in Golang von Anfang bis Ende scrapen kann: Wählen Sie zwischen Colly, goquery und golang.org/x/net/html, zielen Sie auf das richtige <tbody>, modellieren Sie Zeilen als typisierte Struktur und exportieren Sie sauberes JSON und CSV. Außerdem erhalten Sie Paginierung, Anti-Block und JavaScript-gerenderte Tabellenmuster.

Andrei Ogiolan11 min read
May 7, 2026

Playwright Web Scraping: Der komplette Leitfaden für Python und Node.js

TL;DR: Playwright bietet Ihnen eine vollständige Browser-Automatisierung für das Scraping von JavaScript-lastigen Websites, mit erstklassiger Unterstützung für Python und Node.js. Dieser Leitfaden führt Sie durch die Installation, Element-Extraktion, Proxy-Konfiguration, Anti-Detection, Paginierung, Bild-Downloads und den Export von Daten in CSV oder JSON, alle mit Side-by-Side-Code-Beispiele in beiden Sprachen.

Mihnea-Octavian Manolache13 min read
Apr 28, 2026

Wie man Google Maps für Bewertungen scrapen kann: Eine praktische Python-Anleitung

TL;DR: Um herauszufinden, wie man Google Maps für Bewertungen scrapen kann, gibt es drei Methoden: einen DIY-Selenium-Scraper hinter einem rotierenden Proxy, eine Scraping-API mit Render-Anweisungen oder eine strukturierte Maps Reviews API, die geparstes JSON zurückgibt. Dieser Leitfaden führt durch alle drei Methoden in Python mit kopierfähigem Code, Paginierungsmustern, Anti-Blockier-Taktiken und einem abschließenden Reinigungsschritt, der rohe Bewertungen in etwas verwandelt, das ein Unternehmen tatsächlich nutzen kann.

Andrei Ogiolan15 min read
May 7, 2026

Wie man Proxies mit Python-Requests verwendet: Von der Basis bis zur Produktion

TL;DR: Dieser Leitfaden zeigt Ihnen, wie Sie Proxies mit Python Requests von Anfang bis Ende nutzen können: ein funktionierendes Proxies-Dict, authentifizierte URLs, Umgebungsvariablen, Session Reuse, SOCKS5 ohne DNS-Lecks und ein Rotationspool mit Wiederholungen und einem Circuit Breaker. Am Ende werden Sie wissen, wann eine verwaltete API einem DIY-Pool vorzuziehen ist.

Ștefan Răcilă10 min read
May 7, 2026