Author Profile

Suciu Dan

Mitbegründer

Suciu Dan ist Mitbegründer von WebScrapingAPI und verfasst praxisorientierte, auf Entwickler zugeschnittene Anleitungen zu den Themen Web-Scraping mit Python, Web-Scraping mit Ruby und Proxy-Infrastruktur.

Python web scrapingRuby web scrapingproxy infrastructureanti-bot resilienceGuidesScience of Web ScrapingUse Cases
Suciu Dan, Mitbegründer @ WebScrapingAPI

Published Articles

12

Published Articles
GuidesApr 27, 202611 min read

Wie man Redfin scrappt: Python-Leitfaden für Immobiliendaten

TL;DR: Redfin stellt versteckte API-Endpunkte zur Verfügung, die strukturiertes JSON für Immobilienangebote zurückgeben, wodurch das fragile HTML-Parsing vollständig übersprungen werden kann. Diese Anleitung führt Sie durch den Aufbau eines Python-Scrapers, der Miet- und Verkaufsdaten extrahiert, nach Standort sucht, neue Angebote über XML-Sitemaps überwacht und saubere Ergebnisse in CSV oder JSON exportiert.

Read article

GuidesApr 29, 20269 min read

XPath Web Scraping: Ein praktischer Leitfaden mit Python-Beispielen

TL;DR: XPath ist eine Abfragesprache zum Navigieren in HTML/XML-Bäumen nach Pfad, Attribut oder Textinhalt. Dieser Leitfaden behandelt XPath-Syntax, Achsen und Funktionen und zeigt dann funktionierende Python-Scraper mit lxml und Selenium. Sie erhalten auch einen konsolidierten Spickzettel und einen Abschnitt zur Fehlerbehebung für die häufigsten XPath-Fehler.

Read article

Science of Web ScrapingApr 29, 202611 min read

HTTP-Antwort-Header in cURL: Jedes Flag, jede Technik und jedes Skripting-Rezept

TL;DR: cURL verbirgt standardmäßig Antwort-Header. Verwenden Sie -i, um Header neben dem Body zu sehen, -I für eine HEAD-Anfrage, die nur Header zurückgibt, -v für vollständiges Debugging von Anfrage und Antwort und -D, um Header in einer Datei zu speichern. Für modernes Scripting können Sie mit cURL 7.83+ einzelne Header extrahieren oder mit der Option -w write-out alle Header als JSON ausgeben.

Read article

Science of Web ScrapingApr 29, 202612 min read

Was ist ein Headless Browser? Architektur, Anwendungsfälle und Top-Tools

TL;DR: Ein Headless Browser ist ein Webbrowser, der ohne sichtbare grafische Oberfläche läuft und ausschließlich über Code oder Befehlszeilenanweisungen gesteuert wird. Entwickler verwenden Headless-Browser für automatisierte Tests, Web-Scraping, Leistungsüberwachung und zunehmend auch für den Einsatz von KI-Agenten. In diesem Leitfaden erfahren Sie, wie sie intern funktionieren, wann Sie einen solchen Browser einem normalen Browser vorziehen sollten und welche Frameworks Ihre Zeit wert sind.

Read article

GuidesApr 29, 20266 min read

SERP-Scraping-API – Erste Schritte

Mit der SERP-Scraping-API können Sie mühelos Echtzeitdaten von Suchmaschinen erfassen. Optimieren Sie Ihre Marktanalysen, Ihr SEO und Ihre Themenrecherche ganz einfach. Legen Sie noch heute los!

Read article

Use CasesMay 1, 202612 min read

Was sind Finanzdaten? Arten, Erhebungsmethoden und Analysewerkzeuge

TL;DR: Finanzdaten sind die Sammlung von quantitativen Aufzeichnungen (Einnahmen, Ausgaben, Vermögenswerte, Verbindlichkeiten, Cashflow), die Organisationen und Einzelpersonen nutzen, um fundierte wirtschaftliche Entscheidungen zu treffen. Dieser Leitfaden schlüsselt die vier wichtigsten Finanzdaten auf, vergleicht traditionelle und alternative Datenquellen, geht auf moderne Erhebungsmethoden ein und behandelt die Instrumente, die Fachleute für die Analyse verwenden.

Read article

Science of Web ScrapingApr 30, 202614 min read

Data Parsing erklärt: Werkzeuge, Techniken & Code (2026)

TL;DR: Data Parsing konvertiert rohe Inhalte (HTML, JSON, XML, PDFs) in strukturierte Felder, die Ihr Code tatsächlich nutzen kann. Dieser Leitfaden erläutert Schritt für Schritt, wie Data Parsing funktioniert, vergleicht die wichtigsten Techniken und Bibliotheken und gibt Ihnen einen praktischen Rahmen für die Entscheidung, ob Sie Ihre Parsing-Schicht selbst erstellen oder kaufen sollen.

Read article

GuidesMay 1, 202610 min read

Wie man den Axios Proxy in Node.js einrichtet: Auth, Rotation, SOCKS5

TL;DR: Axios leitet Anfragen durch einen Proxy, indem es ein Proxy-Objekt mit Host, Port und optionalen Auth-Feldern akzeptiert. Diese Anleitung behandelt die Einrichtung der Axios-Proxy-Konfiguration von Grund auf: grundlegende Verkabelung, authentifizierte Proxys, HTTPS-Tunneling, ein Rotationssystem mit Interceptoren, SOCKS5 über socks-proxy-agent und die Diagnose von häufigen Fehlern. Jedes Snippet ist kopierbarer Node.js-Code.

Read article

GuidesMay 8, 202616 min read

Wie man einen Proxy mit HttpClient in C# verwendet

TL;DR: Um einen Proxy mit HttpClient in C# zu verwenden, erstellen Sie einen WebProxy, fügen Sie es zu einem HttpClientHandler (oder SocketsHttpHandler), und übergeben Sie diesen Handler an den HttpClient-Konstruktor. Für die Produktion, tauschen Sie manuelle Schleifen für IHttpClientFactory, fügen Sie NetworkCredential für authentifizierte Proxys, und wickeln Anrufe in Wiederholungen mit Polly, so dass tote IPs nicht nehmen Sie Ihre Arbeiter nach unten.

Read article

Science of Web ScrapingApr 30, 202627 min read

Wie man einen Python Web Crawler erstellt: Vom Start bis zur Skalierung

TL;DR: Ein Python-Web-Crawler automatisiert die mühsame Arbeit der Verfolgung von Links auf einer Website, um Inhalte zu entdecken und zu sammeln. Dieser Leitfaden zeigt Ihnen, wie Sie einen solchen Crawler von Grund auf mit Requests und BeautifulSoup erstellen und dann zu Scrapy für gleichzeitiges Crawling, Element-Pipelines und strukturierte Datenexporte übergehen. Sie werden auch lernen, wie Sie verantwortungsvoll crawlen, Proxies rotieren, um Blockaden zu vermeiden, und mit JavaScript-gerenderten Seiten umgehen.

Read article

GuidesMay 2, 20269 min read

Web-Scraper: Ist das Scrapen von Websites legal?

Erfahren Sie, ob das Scraping von Webseiten legal ist und wie Sie das richtige Tool zur Datenextraktion auswählen.

Read article

GuidesMay 1, 202614 min read

Puppeteer-Alternativen: Top-Tools für Scraping & Testing 2026

TL;DR: Puppeteer ist großartig für die schnelle Chromium-Automatisierung, aber seine Single-Browser-Bindung, ressourcenintensive Skalierung und die fehlende eingebaute Anti-Bot-Unterstützung zwingen viele Teams zu Alternativen. Dieser Leitfaden schlüsselt die stärksten Puppeteer-Alternativen nach Anwendungsfällen auf (Scraping, E2E-Tests, browserübergreifende QA, mobile Anwendungen), gibt Ihnen eine Vergleichstabelle an die Hand und endet mit einem Entscheidungsrahmen, damit Sie das richtige Tool ohne Versuch und Irrtum auswählen können.

Read article