Author Profile
Suciu Dan
Mitbegründer
Suciu Dan ist Mitbegründer von WebScrapingAPI und verfasst praxisorientierte, auf Entwickler zugeschnittene Anleitungen zu den Themen Web-Scraping mit Python, Web-Scraping mit Ruby und Proxy-Infrastruktur.

Published Articles
12
Wie man Redfin scrappt: Python-Leitfaden für Immobiliendaten
TL;DR: Redfin stellt versteckte API-Endpunkte zur Verfügung, die strukturiertes JSON für Immobilienangebote zurückgeben, wodurch das fragile HTML-Parsing vollständig übersprungen werden kann. Diese Anleitung führt Sie durch den Aufbau eines Python-Scrapers, der Miet- und Verkaufsdaten extrahiert, nach Standort sucht, neue Angebote über XML-Sitemaps überwacht und saubere Ergebnisse in CSV oder JSON exportiert.
Read article
XPath Web Scraping: Ein praktischer Leitfaden mit Python-Beispielen
TL;DR: XPath ist eine Abfragesprache zum Navigieren in HTML/XML-Bäumen nach Pfad, Attribut oder Textinhalt. Dieser Leitfaden behandelt XPath-Syntax, Achsen und Funktionen und zeigt dann funktionierende Python-Scraper mit lxml und Selenium. Sie erhalten auch einen konsolidierten Spickzettel und einen Abschnitt zur Fehlerbehebung für die häufigsten XPath-Fehler.
Read article
HTTP-Antwort-Header in cURL: Jedes Flag, jede Technik und jedes Skripting-Rezept
TL;DR: cURL verbirgt standardmäßig Antwort-Header. Verwenden Sie -i, um Header neben dem Body zu sehen, -I für eine HEAD-Anfrage, die nur Header zurückgibt, -v für vollständiges Debugging von Anfrage und Antwort und -D, um Header in einer Datei zu speichern. Für modernes Scripting können Sie mit cURL 7.83+ einzelne Header extrahieren oder mit der Option -w write-out alle Header als JSON ausgeben.
Read article
Was ist ein Headless Browser? Architektur, Anwendungsfälle und Top-Tools
TL;DR: Ein Headless Browser ist ein Webbrowser, der ohne sichtbare grafische Oberfläche läuft und ausschließlich über Code oder Befehlszeilenanweisungen gesteuert wird. Entwickler verwenden Headless-Browser für automatisierte Tests, Web-Scraping, Leistungsüberwachung und zunehmend auch für den Einsatz von KI-Agenten. In diesem Leitfaden erfahren Sie, wie sie intern funktionieren, wann Sie einen solchen Browser einem normalen Browser vorziehen sollten und welche Frameworks Ihre Zeit wert sind.
Read article
SERP-Scraping-API – Erste Schritte
Mit der SERP-Scraping-API können Sie mühelos Echtzeitdaten von Suchmaschinen erfassen. Optimieren Sie Ihre Marktanalysen, Ihr SEO und Ihre Themenrecherche ganz einfach. Legen Sie noch heute los!
Read article
Was sind Finanzdaten? Arten, Erhebungsmethoden und Analysewerkzeuge
TL;DR: Finanzdaten sind die Sammlung von quantitativen Aufzeichnungen (Einnahmen, Ausgaben, Vermögenswerte, Verbindlichkeiten, Cashflow), die Organisationen und Einzelpersonen nutzen, um fundierte wirtschaftliche Entscheidungen zu treffen. Dieser Leitfaden schlüsselt die vier wichtigsten Finanzdaten auf, vergleicht traditionelle und alternative Datenquellen, geht auf moderne Erhebungsmethoden ein und behandelt die Instrumente, die Fachleute für die Analyse verwenden.
Read article
Data Parsing erklärt: Werkzeuge, Techniken & Code (2026)
TL;DR: Data Parsing konvertiert rohe Inhalte (HTML, JSON, XML, PDFs) in strukturierte Felder, die Ihr Code tatsächlich nutzen kann. Dieser Leitfaden erläutert Schritt für Schritt, wie Data Parsing funktioniert, vergleicht die wichtigsten Techniken und Bibliotheken und gibt Ihnen einen praktischen Rahmen für die Entscheidung, ob Sie Ihre Parsing-Schicht selbst erstellen oder kaufen sollen.
Read article
Wie man den Axios Proxy in Node.js einrichtet: Auth, Rotation, SOCKS5
TL;DR: Axios leitet Anfragen durch einen Proxy, indem es ein Proxy-Objekt mit Host, Port und optionalen Auth-Feldern akzeptiert. Diese Anleitung behandelt die Einrichtung der Axios-Proxy-Konfiguration von Grund auf: grundlegende Verkabelung, authentifizierte Proxys, HTTPS-Tunneling, ein Rotationssystem mit Interceptoren, SOCKS5 über socks-proxy-agent und die Diagnose von häufigen Fehlern. Jedes Snippet ist kopierbarer Node.js-Code.
Read article
Wie man einen Proxy mit HttpClient in C# verwendet
TL;DR: Um einen Proxy mit HttpClient in C# zu verwenden, erstellen Sie einen WebProxy, fügen Sie es zu einem HttpClientHandler (oder SocketsHttpHandler), und übergeben Sie diesen Handler an den HttpClient-Konstruktor. Für die Produktion, tauschen Sie manuelle Schleifen für IHttpClientFactory, fügen Sie NetworkCredential für authentifizierte Proxys, und wickeln Anrufe in Wiederholungen mit Polly, so dass tote IPs nicht nehmen Sie Ihre Arbeiter nach unten.
Read article
Wie man einen Python Web Crawler erstellt: Vom Start bis zur Skalierung
TL;DR: Ein Python-Web-Crawler automatisiert die mühsame Arbeit der Verfolgung von Links auf einer Website, um Inhalte zu entdecken und zu sammeln. Dieser Leitfaden zeigt Ihnen, wie Sie einen solchen Crawler von Grund auf mit Requests und BeautifulSoup erstellen und dann zu Scrapy für gleichzeitiges Crawling, Element-Pipelines und strukturierte Datenexporte übergehen. Sie werden auch lernen, wie Sie verantwortungsvoll crawlen, Proxies rotieren, um Blockaden zu vermeiden, und mit JavaScript-gerenderten Seiten umgehen.
Read article
Web-Scraper: Ist das Scrapen von Websites legal?
Erfahren Sie, ob das Scraping von Webseiten legal ist und wie Sie das richtige Tool zur Datenextraktion auswählen.
Read article
Puppeteer-Alternativen: Top-Tools für Scraping & Testing 2026
TL;DR: Puppeteer ist großartig für die schnelle Chromium-Automatisierung, aber seine Single-Browser-Bindung, ressourcenintensive Skalierung und die fehlende eingebaute Anti-Bot-Unterstützung zwingen viele Teams zu Alternativen. Dieser Leitfaden schlüsselt die stärksten Puppeteer-Alternativen nach Anwendungsfällen auf (Scraping, E2E-Tests, browserübergreifende QA, mobile Anwendungen), gibt Ihnen eine Vergleichstabelle an die Hand und endet mit einem Entscheidungsrahmen, damit Sie das richtige Tool ohne Versuch und Irrtum auswählen können.
Read article