Einblicke & Technik

Ein tiefer Einblick in die Infrastruktur von Webdaten, Extraktionstechniken und die Zukunft strukturierter Daten in großem Maßstab.

Neueste Artikel

Web Scraping mit Regex: Ein praktischer Leitfaden

TL;DR: Web Scraping mit Regex bietet sich an, wenn Sie kurze, vorhersagbare Textmuster (Preise, SKUs, E-Mails, Daten) aus HTML benötigen, dem Sie bereits vertrauen. Kombinieren Sie das re-Modul von Python mit Beautiful Soup, übertragen Sie Ihre Muster auf einen geparsten Knoten statt auf rohes Markup und halten Sie Regex vom Parsen des kompletten HTML-Baums fern. Dieser Leitfaden führt durch einen funktionierenden Titel- und Preis-Scraper, fortgeschrittene Regex-Funktionen und die Fallstricke, die echte Scraper in der Produktion haben.

Mihai Maxim10 min read
May 7, 2026

Wie man einen Proxy mit HttpClient in C# verwendet

TL;DR: Um einen Proxy mit HttpClient in C# zu verwenden, erstellen Sie einen WebProxy, fügen Sie es zu einem HttpClientHandler (oder SocketsHttpHandler), und übergeben Sie diesen Handler an den HttpClient-Konstruktor. Für die Produktion, tauschen Sie manuelle Schleifen für IHttpClientFactory, fügen Sie NetworkCredential für authentifizierte Proxys, und wickeln Anrufe in Wiederholungen mit Polly, so dass tote IPs nicht nehmen Sie Ihre Arbeiter nach unten.

Suciu Dan16 min read
May 8, 2026

Wie man HTML-Tabellen mit Python scrappt

TL;DR: Die meisten HTML-Tabellen können mit einer einzigen Zeile von pandas.read_html ausgelesen werden. Wenn die Tabelle paginiert ist, mit JavaScript gerendert wurde oder zusammengefasste Kopfzeilen hat, wechseln Sie zu Requests + BeautifulSoup oder einem Headless-Browser wie Playwright. In diesem Leitfaden finden Sie eine Entscheidungsmatrix, Arbeitscode für alle drei Ansätze und die Bereinigungsschritte, die aus den gescrapten Zeilen pipelinefähige Daten machen.

Andrei Ogiolan16 min read
May 7, 2026