In unserer API werden Abfrageparameter verwendet, um den Scraper an Ihre Bedürfnisse anzupassen. Wenn Sie verstehen, wie die einzelnen Parameter funktionieren, können Sie die volle Leistungsfähigkeit unserer Web-Scraper-API nutzen. Wir führen hier eine aktuelle Dokumentation der API-Parameter. Wir werden jedoch auch hier näher darauf eingehen, um ein besseres Verständnis dafür zu bekommen, wie Abfrageparameter mit der Web-Scraping-API funktionieren. Es gibt drei Arten von Parametern: erforderliche, Standard- und optionale. Die erforderlichen sind recht einfach:
- Der Parameter `api_key`, den wir oben bereits besprochen haben
- Der Parameter `url`, der die URL angibt, die Sie scrapen möchten
Bitte beachten Sie, dass der Wert des Parameters `url` eine gültige URL sein sollte, kein Domainname, und idealerweise URL-kodiert sein sollte. (z. B. https%3A%2F%2Fwebscrapingapi.com)
Was die Standardparameter betrifft, haben wir historische Daten herangezogen, um die Erfolgsquote unserer API (und damit auch Ihres Projekts) zu erhöhen. Interne Daten zeigen, dass die beste Konfiguration für das Web-Scraping die Verwendung eines echten Webbrowsers in Verbindung mit einer privaten IP-Adresse ist. Daher lauten die Standardparameter unserer API:
- `render_js=1` – um einen echten Browser zu starten (keinen einfachen HTTP-Client)
- `proxy_type=residential` – um über eine private IP-Adresse auf das Ziel zuzugreifen (nur aktiviert, wenn Ihr aktueller Tarif private Proxys unterstützt)
Natürlich können Sie die Werte für diese Parameter auch überschreiben, obwohl wir davon abraten. Das Scraping mit einem einfachen HTTP-Client und Rechenzentrums-Proxys führt in der Regel dazu, dass die Zielwebsite die Scraping-Aktivitäten bemerkt und den Zugriff blockiert.
Im Folgenden werden wir die optionalen Parameter besprechen. Da wir alle Parameter in unserer Dokumentation dokumentiert haben, werden wir vorerst nur die am häufigsten verwendeten Parameter behandeln:
- Parameter: render_js Beschreibung: Durch Aktivieren dieses Parameters greifen Sie über einen echten Browser auf die Ziel-URL zu. Dies hat den Vorteil, dass JavaScript-Dateien gerendert werden. Es ist eine hervorragende Wahl für das Scraping von JavaScript-intensiven Websites (wie beispielsweise solchen, die mit ReactJS erstellt wurden). Dokumentation: [hier ]
- Parameter: proxy_type Beschreibung: Wird verwendet, um über eine private oder eine Rechenzentrums-IP-Adresse auf die Ziel-URL zuzugreifen. Dokumentation: [hier ]
- Parameter: stealth_mode Beschreibung: Web-Scraping ist keine illegale Aktivität. Einige Websites neigen jedoch dazu, den Zugriff für automatisierte Software (einschließlich Web-Scraper) zu blockieren. Unser Team hat eine Reihe von Tools entwickelt, die es Anti-Bot-Systemen nahezu unmöglich machen, unseren Web-Scraper zu erkennen. Sie können diese Funktionen aktivieren, indem Sie den Parameter stealth_mode=1 verwenden. Dokumentation: [hier ]
- Parameter: country Beschreibung: Wird verwendet, um von einem bestimmten Standort aus auf Ihr Ziel zuzugreifen. Eine Liste der unterstützten Länder finden Sie [hier]. Dokumentation: [hier ]
- Parameter: timeout Beschreibung: Standardmäßig brechen wir eine Anfrage nach 10 Sekunden ab (und berechnen keine Kosten, falls sie fehlschlägt). Bei bestimmten Zielen möchten Sie diesen Wert möglicherweise auf bis zu 60 Sekunden erhöhen. Dokumentation: [hier ]
- Parameter: device Beschreibung: Damit können Sie Ihren Scraper so gestalten, dass er wie ein „Desktop“, „Tablet“ oder „Mobilgerät“ aussieht. Dokumentation: [hier ]
- Parameter: wait_until Beschreibung: Einfach ausgedrückt: Sobald die Ziel-URL erreicht ist, wird der Scraper angehalten, bis ein bestimmtes Ereignis eintritt. Das zugrunde liegende Konzept wird am besten [hier] beschrieben. Dokumentation: [hier ]
- Parameter: wait_for Beschreibung: Dieser Parameter hält den Scraper für eine bestimmte Zeit (maximal 60 Sekunden) an. Dokumentation: [hier ]
- Parameter: wait_for_css Beschreibung: Hält den Scraper an, bis ein bestimmter CSS-Selektor (d. h. Klasse oder ID) auf der Seite sichtbar ist. Dokumentation: [hier ]
- Parameter: session Beschreibung: Ermöglicht es Ihnen, denselben Proxy (IP-Adresse) für mehrere Anfragen zu verwenden. Dokumentation: [hier ]