Zurück zum Blog
Anleitungen
Mihnea-Octavian ManolacheLast updated on Mar 31, 20269 min read

Schnellstartanleitung für die Web-Scraping-API

Schnellstartanleitung für die Web-Scraping-API

WebScrapingAPI bietet eine Reihe von Web-Scraping-Lösungen an. Unser Hauptprodukt ist ein universeller Web-Scraper, der dafür entwickelt wurde, Echtzeitdaten von beliebigen Websites zu erfassen. Wie Sie im Laufe dieses Leitfadens feststellen werden, verfügt das Tool über zahlreiche Funktionen, dank derer es von Anti-Bot-Systemen unentdeckt bleibt. Angesichts des umfangreichen Funktionsumfangs soll dieser Leitfaden Ihnen den Einstieg in die Nutzung der WebScrapingAPI erleichtern. Hier sind einige der Themen, die wir behandeln werden:

  • Arbeiten mit dem Frontend-Dashboard
  • Die Parameter und Funktionen der API verstehen
  • Senden grundlegender Anfragen an die API
  • Einrichten eines komplexen Web-Scrapers mithilfe der SDKs

Warum Sie sich bei der Web Scraping API anmelden sollten

Es gibt unzählige Gründe, warum Sie die Web Scraping API anstelle eines herkömmlichen Scrapers nutzen sollten. Bei der Entscheidung, was uns zur besten Wahl macht, verlassen wir uns jedoch auf das Feedback unserer Kunden. Und hier sind einige der Gründe, warum sich unsere Kunden für uns entschieden haben:

  • Professioneller Support – Unser Support wird von echten Softwareentwicklern geleistet, die selbst aktiv mit der API arbeiten. Wenn Sie sich also an uns wenden, stellen wir sicher, dass Sie die bestmöglichen Antworten erhalten. Sollte ein Problem auftreten, kann der zuständige Entwickler es höchstwahrscheinlich in kürzester Zeit beheben und die Korrektur in die Produktion übernehmen.
  • Benutzerfreundlichkeit – Die Entwicklung eines Web-Scrapers kann eine Herausforderung sein. Man muss verschiedene Proxys, Umgehungsmechanismen, Captchas, Browser usw. berücksichtigen. Mit der Web Scraping API erhalten Sie all das (und noch viel mehr) mit einem „Klick auf einen Button“.
  • Skalierbarkeit – Als wir unser Produkt entwickelten, war es eine unserer obersten Prioritäten, sicherzustellen, dass wir unabhängig von der Gesamtzahl der eingehenden Anfragen Ergebnisse liefern. Wenn Sie sich für die Web Scraping API anmelden, erhalten Sie Zugriff auf unsere gesamte Infrastruktur. Dazu gehören Proxys, Browser, HTTP-Clients und mehr.

Anmeldung für einen kostenlosen cloudbasierten Scraper

Um sich bei der Web Scraping API anzumelden, benötigen Sie lediglich eine gültige E-Mail-Adresse. Darüber hinaus hat jeder Nutzer Anspruch auf eine 7-tägige kostenlose Testphase mit vollem Zugriff auf die Funktionen der API, begrenzt auf 1000 API-Credits. Nach diesen 7 Tagen erhalten Sie weiterhin Zugang zu einer kostenlosen Stufe, die Ihnen 1000 API-Credits pro Monat bietet, allerdings mit eingeschränkten API-Funktionen. Wenn Sie die Vollversion unseres cloudbasierten Web-Scrapers weiterhin nutzen möchten, bieten wir Ihnen flexible Preispläne an. Aktuelle Informationen zu den Preisen finden Sie auf der Preisseite. Positiv zu vermerken ist, dass wir Folgendes anbieten:

  • einen Starter-Tarif mit bis zu 100.000 API-Credits und 20 gleichzeitigen Aufrufen
  • einen Grow-Tarif mit bis zu 1.000.000 API-Credits und 50 gleichzeitigen Aufrufen
  • einen Business-Tarif mit bis zu 3.000.000 API-Credits und 100 gleichzeitigen Aufrufen
  • einen Pro-Tarif mit bis zu 10.000.000 API-Credits und 500 gleichzeitigen Aufrufen
  • einen maßgeschneiderten Enterprise-Tarif, der auf Grundlage Ihrer individuellen Anforderungen besprochen wird

Um loszulegen, besuchen Sie bitte unsere Anmeldeseite hier und erstellen Sie einfach ein kostenloses Konto.

Das Dashboard verstehen

Die Anmeldung auf unserem Dashboard gewährt Ihnen nicht automatisch Zugriff auf unsere Produkte. Wie Sie sehen werden, werden in der linken Seitenleiste einige Optionen angezeigt, die mit unseren Produkten verbunden sind. Da sich dieser Leitfaden auf den universellen Web-Scraper bezieht, navigieren Sie bitte zu „Web Scraping API“ und klicken Sie auf die Schaltfläche „Kostenlose Testversion anfordern“, um ein Abonnement für diesen Dienst zu erstellen. Sobald das Abonnement erstellt ist, erhalten Sie einen API-Schlüssel. Bewahren Sie diesen sicher auf, da er Ihre eindeutige Kennung in unseren Systemen darstellt. Sie erhalten dann auch Zugriff auf die Statistikseite und den Playground.

Die Grundlagen unserer Web-Scraper-API

Es gibt drei Möglichkeiten, mit unserem Web-Scraper zu interagieren, von denen zwei sozusagen „programmatisch“ sind und eine eher „einsteigerfreundlich“. Die ersten beiden beinhalten den Zugriff auf die API über HTTP-Clients oder über unsere SDKs. Die dritte Möglichkeit ist die Nutzung des im Dashboard bereitgestellten Playgrounds. Wir werden gleich darauf eingehen, aber zuvor ist es wichtig zu verstehen, wie die API funktioniert. Nur dann können Sie die volle Leistungsfähigkeit der Web-Scraping-API nutzen. Beginnen wir also mit den Grundlagen:

Authentifizierung von Anfragen

Wir authentifizieren Anfragen von registrierten Benutzern, indem wir den URL-Parameter `api_key` aktivieren. Der eindeutige API-Schlüssel ist mit Ihrem Konto verknüpft und enthält Informationen zu Berechtigungen, Nutzung usw.

Bitte beachten Sie, dass jedes Produkt, für das Sie sich anmelden, mit einem eindeutigen API-Schlüssel verknüpft ist. Sie können beispielsweise den API-Schlüssel Ihres allgemeinen Web-Scrapers nicht für die SERP-API verwenden und umgekehrt.

Um eine URL als authentifizierter Benutzer zu scrapen, müssen Sie daher auf die folgende Ressource zugreifen:

https://api.webscrapingapi.com/v1?api_key=<YOUR_UNIQUE_API_KEY>

API-Parameter

In unserer API werden Abfrageparameter verwendet, um den Scraper an Ihre Bedürfnisse anzupassen. Wenn Sie verstehen, wie die einzelnen Parameter funktionieren, können Sie die volle Leistungsfähigkeit unserer Web-Scraper-API nutzen. Wir führen hier eine aktuelle Dokumentation der API-Parameter. Wir werden jedoch auch hier näher darauf eingehen, um ein besseres Verständnis dafür zu bekommen, wie Abfrageparameter mit der Web-Scraping-API funktionieren. Es gibt drei Arten von Parametern: erforderliche, Standard- und optionale. Die erforderlichen sind recht einfach:

  • Der Parameter `api_key`, den wir oben bereits besprochen haben
  • Der Parameter `url`, der die URL angibt, die Sie scrapen möchten

Bitte beachten Sie, dass der Wert des Parameters `url` eine gültige URL sein sollte, kein Domainname, und idealerweise URL-kodiert sein sollte. (z. B. https%3A%2F%2Fwebscrapingapi.com)

Was die Standardparameter betrifft, haben wir historische Daten herangezogen, um die Erfolgsquote unserer API (und damit auch Ihres Projekts) zu erhöhen. Interne Daten zeigen, dass die beste Konfiguration für das Web-Scraping die Verwendung eines echten Webbrowsers in Verbindung mit einer privaten IP-Adresse ist. Daher lauten die Standardparameter unserer API:

  • `render_js=1` – um einen echten Browser zu starten (keinen einfachen HTTP-Client)
  • `proxy_type=residential` – um über eine private IP-Adresse auf das Ziel zuzugreifen (nur aktiviert, wenn Ihr aktueller Tarif private Proxys unterstützt)

Natürlich können Sie die Werte für diese Parameter auch überschreiben, obwohl wir davon abraten. Das Scraping mit einem einfachen HTTP-Client und Rechenzentrums-Proxys führt in der Regel dazu, dass die Zielwebsite die Scraping-Aktivitäten bemerkt und den Zugriff blockiert.

Im Folgenden werden wir die optionalen Parameter besprechen. Da wir alle Parameter in unserer Dokumentation dokumentiert haben, werden wir vorerst nur die am häufigsten verwendeten Parameter behandeln:

  • Parameter: render_js Beschreibung: Durch Aktivieren dieses Parameters greifen Sie über einen echten Browser auf die Ziel-URL zu. Dies hat den Vorteil, dass JavaScript-Dateien gerendert werden. Es ist eine hervorragende Wahl für das Scraping von JavaScript-intensiven Websites (wie beispielsweise solchen, die mit ReactJS erstellt wurden). Dokumentation: [hier ]
  • Parameter: proxy_type Beschreibung: Wird verwendet, um über eine private oder eine Rechenzentrums-IP-Adresse auf die Ziel-URL zuzugreifen. Dokumentation: [hier ]
  • Parameter: stealth_mode Beschreibung: Web-Scraping ist keine illegale Aktivität. Einige Websites neigen jedoch dazu, den Zugriff für automatisierte Software (einschließlich Web-Scraper) zu blockieren. Unser Team hat eine Reihe von Tools entwickelt, die es Anti-Bot-Systemen nahezu unmöglich machen, unseren Web-Scraper zu erkennen. Sie können diese Funktionen aktivieren, indem Sie den Parameter stealth_mode=1 verwenden. Dokumentation: [hier ]
  • Parameter: country Beschreibung: Wird verwendet, um von einem bestimmten Standort aus auf Ihr Ziel zuzugreifen. Eine Liste der unterstützten Länder finden Sie [hier]. Dokumentation: [hier ]
  • Parameter: timeout Beschreibung: Standardmäßig brechen wir eine Anfrage nach 10 Sekunden ab (und berechnen keine Kosten, falls sie fehlschlägt). Bei bestimmten Zielen möchten Sie diesen Wert möglicherweise auf bis zu 60 Sekunden erhöhen. Dokumentation: [hier ]
  • Parameter: device Beschreibung: Damit können Sie Ihren Scraper so gestalten, dass er wie ein „Desktop“, „Tablet“ oder „Mobilgerät“ aussieht. Dokumentation: [hier ]
  • Parameter: wait_until Beschreibung: Einfach ausgedrückt: Sobald die Ziel-URL erreicht ist, wird der Scraper angehalten, bis ein bestimmtes Ereignis eintritt. Das zugrunde liegende Konzept wird am besten [hier] beschrieben. Dokumentation: [hier ]
  • Parameter: wait_for Beschreibung: Dieser Parameter hält den Scraper für eine bestimmte Zeit (maximal 60 Sekunden) an. Dokumentation: [hier ]
  • Parameter: wait_for_css Beschreibung: Hält den Scraper an, bis ein bestimmter CSS-Selektor (d. h. Klasse oder ID) auf der Seite sichtbar ist. Dokumentation: [hier ]
  • Parameter: session Beschreibung: Ermöglicht es Ihnen, denselben Proxy (IP-Adresse) für mehrere Anfragen zu verwenden. Dokumentation: [hier ]

Antwortcodes

Einer der wichtigsten Aspekte, den Sie über Antwortcodes wissen müssen, ist, dass wir nur erfolgreiche Antworten in Rechnung stellen. Wenn Ihre Anfrage also zu einem anderen Statuscode als 200 führt, fallen keine Kosten an. Abgesehen davon sind die API-Fehler hier dokumentiert und folgen, wie Sie sehen werden, den regulären HTTP-Statuscodes. Um nur einige zu nennen:

  • 400: Bad Request – Wenn Sie beispielsweise ungültige Parameter senden
  • 401: Unauthorized – Wenn Sie keinen `api_key` senden oder der API-Schlüssel ungültig ist
  • 422: Unprocessable Entity – Wenn die API die Anfrage nicht erfüllen kann (z. B. wenn der von Ihnen erwartete CSS-Selektor auf der Seite nicht sichtbar ist)

Interaktion mit der Web-Scraper-API

Wie bereits erwähnt, gibt es im Wesentlichen drei Möglichkeiten, mit der Web-Scraper-API zu interagieren. Zunächst einmal ist die Verwendung der SDKs oder der Zugriff auf die API über HTTP-Clients stärker von der Sprache (oder Technologie) abhängig und erfordert gewisse technische Vorkenntnisse. Eine für Anfänger geeignetere Oberfläche finden Sie in unserem Dashboard unter „API Playground“. Mit diesem Tool können Sie mit unserem Web-Scraper experimentieren, ihn testen und ein Gefühl dafür bekommen, wie Sie die Parameter zu Ihrem Vorteil nutzen können, bevor Sie sich an programmgesteuerte Implementierungen oder fortgeschrittene Funktionen wagen. Einige wichtige Aspekte des Playgrounds sind:

  • Er behebt automatisch Inkompatibilitäten bei den Parametern (z. B. ist `stealth_mode=1` nicht kompatibel mit `render_js=0`)
  • Er bietet konkrete Code-Beispiele für verschiedene Programmiersprachen, die Sie für Ihr Projekt nutzen können
  • Er zeigt empfohlene Parameter an, basierend auf unseren internen Tests und historischen Daten aus früheren Anfragen, damit Sie die Erfolgsquote Ihres Projekts steigern können

Erweiterte Web-Scraping-Funktionen

Für fortgeschrittene Nutzer bietet unsere API zahlreiche Funktionen, die sie anpassbar und für jedes Scraping-Projekt einsatzbereit machen. Auch hier ist unsere offizielle Dokumentation eine gute Informationsquelle. Hier sind jedoch einige Aspekte, die wir hervorheben möchten:

POST, PUT und PATCH

Mit der Web-Scraping-API sind Sie nicht darauf beschränkt, nur GET-Anfragen zu verwenden. Sollte Ihr Scraping-Projekt Ressourcen erstellen, ersetzen oder aktualisieren müssen, können Sie unsere POST-, PUT- oder PATCH-Anfragen nutzen. Ein wichtiger Aspekt dieser Anfragen ist, dass Sie auch `render_js=1` verwenden können, was einen echten Webbrowser und keinen einfachen HTTP-Client bedeutet. Ein Beispiel für eine POST-Anfrage ist:

curl --request POST --url "https://api.webscrapingapi.com/v1?api_key=<YOUR_API_KEY>&url=https%3A%2F%2Fhttpbin.org%2Fpost" --data "{
  "foo": "bar"
}"

Proxy-Modus

Sie können unsere API auch als Proxy nutzen, um Ihre Ziel-URL zu scrapen. Um als Proxy auf die API zuzugreifen, müssen Sie Folgendes beachten:

  • Der Benutzername zur Authentifizierung beim Proxy ist immer auf `webscrapingapi` gesetzt, gefolgt von den Parametern, die Sie aktivieren möchten, getrennt durch Punkte.
  • Das Passwort ist immer Ihr persönlicher API-Schlüssel

Hier ist ein URL-Beispiel, mit dem Sie über unseren Proxy-Modus auf den Web-Scraper zugreifen können:

https://webscrapingapi.<parameter_1.parameter_2.parameter_n>:<YOUR_API_KEY>@proxy.webscrapingapi.com:8000

Fazit

Die Web-Scraping-API bietet eine Reihe leistungsstarker Scraping-Tools, die von einem Team von Ingenieuren unterstützt werden und sofort einsatzbereit sind. Sie verfügt über Dutzende von Funktionen, die sie zu einer anpassbaren Web-Scraping-Lösung machen. Darüber hinaus können Sie den universellen Cloud-Web-Scraper in jede Programmiersprache oder Technologie integrieren, da er entweder rohes HTML oder geparste JSONs zurückgibt. Außerdem sollten Ihnen unsere umfangreiche Dokumentation und unsere öffentlichen GitHub-Repositorys helfen, Ihr Projekt im Handumdrehen auf den Weg zu bringen.

Wir hoffen, dass dieser Leitfaden ein guter Ausgangspunkt für Sie ist, und weisen darauf hin, dass unser Support Ihnen bei Fragen jederzeit zur Verfügung steht. Wir freuen uns darauf, Ihr Partner für Ihren Erfolg zu sein!

Über den Autor
Mihnea-Octavian Manolache, Full-Stack-Entwickler @ WebScrapingAPI
Mihnea-Octavian ManolacheFull-Stack-Entwickler

Mihnea-Octavian Manolache ist Full-Stack- und DevOps-Entwickler bei WebScrapingAPI. Er entwickelt Produktfunktionen und sorgt für die Wartung der Infrastruktur, die den reibungslosen Betrieb der Plattform gewährleistet.

Los geht’s

Sind Sie bereit, Ihre Datenerfassung zu erweitern?

Schließen Sie sich den über 2.000 Unternehmen an, die WebScrapingAPI nutzen, um Webdaten im Unternehmensmaßstab ohne zusätzlichen Infrastrukturaufwand zu extrahieren.