Einblicke & Technik

Ein tiefer Einblick in die Infrastruktur von Webdaten, Extraktionstechniken und die Zukunft strukturierter Daten in großem Maßstab.

Neueste Artikel

So extrahieren Sie Daten aus einer HTML-Tabelle in JavaScript

Möchten Sie mit JavaScript Daten aus HTML-Tabellen im Internet extrahieren? In diesem Artikel erfahren Sie, wie Sie die Bibliothek „cheerio“ in Kombination mit Node.js nutzen können, um auf einfache Weise Daten aus Tabellen auf beliebigen Websites zu extrahieren.

Mihai Maxim8 min read
Apr 22, 2026

HTML-Parsing in Java mit Jsoup

TL;DR: Jsoup ist die Standardbibliothek für HTML-Parsing in Java. Dieser Leitfaden beschreibt den gesamten Lebenszyklus (Maven-Setup, Laden eines Dokuments, CSS-Selektoren, DOM-Traversal, Extraktion, Modifikation und Serialisierung), sowie ein lauffähiges Scraping-Projekt, Fehlerbehandlung, Paginierung und die Grenzen, die Sie in Richtung eines Headless Browsers oder einer Scraping-API drängen.

Mihai Maxim11 min read
May 12, 2026

So testet man Proxys

Nutzen Sie diesen Leitfaden, um den Umgang mit Proxy-Tests zu meistern. Erfahren Sie, wie Sie Online-Tools zur Überprüfung von Proxy-Verbindungen, Standort und Anonymität einsetzen. Optimieren Sie Ihre Proxy-Nutzung und beheben Sie Probleme.

Mihai Maxim5 min read
Apr 10, 2026

Python Text aus HTML extrahieren

TL;DR: Um Text in Python aus HTML zu extrahieren, parsen Sie das Markup mit einem echten Parser (BeautifulSoup, lxml.html oder html-text), entfernen Sie Skripte, Stile und Site-Chrome und normalisieren Sie dann Leerzeichen und Unicode vor dem Speichern. Dieser Leitfaden vergleicht die wichtigsten Bibliotheken, behebt die üblichen Aufräumfallen und endet mit einem lauffähigen Crawler, der JSONL und seitenweise .txt-Dateien schreibt.

Mihai Maxim22 min read
May 12, 2026