Zurück zum Blog
Anwendungsfälle
Robert SfichiLast updated on Apr 28, 20269 min read

Top 5 der besten Scraping-Tools für Amazon

Top 5 der besten Scraping-Tools für Amazon

Beim Web Scraping werden Webseiten abgerufen und die darauf enthaltenen Daten extrahiert. Sobald Sie die Informationen haben, möchten Sie diese in der Regel aufbereiten, analysieren, neu formatieren oder in eine Tabellenkalkulation kopieren.

Web Scraping hat viele Anwendungsmöglichkeiten, aber heute konzentrieren wir uns auf nur einige wenige: das Sammeln von Preis- und Produktdaten von Marktplätzen. Einzelhändler nutzen diese Erkenntnisse, um den Markt und ihre Konkurrenz besser zu verstehen.

Die Vorteile können tatsächlich enorm sein. Denken Sie einmal darüber nach: Um der Strategie Ihrer Konkurrenz entgegenzuwirken, müssen Sie diese zunächst kennen. Wenn Sie beispielsweise deren Preise kennen, können Sie sich mit einem Sonderrabatt oder durch den Verkauf zu einem niedrigeren Preis einen Vorsprung beim Verkauf verschaffen.

Amazon ist einer der größten Marktplätze im Internet. Die Menschen nutzen seine Dienste täglich, um Lebensmittel, Bücher, Laptops und sogar Webhosting-Dienste zu bestellen. In Zukunft plant Amazon, auch schlüsselfertige Häuser in dieses Angebot aufzunehmen.

Als führende E-Commerce-Website ist Amazon eine der größten Datenbanken für Produkte, Bewertungen, Händler und Markttrends. Es ist eine Goldgrube für Web-Scraping.

Wir werden die 5 besten APIs analysieren, um Amazon-Daten zu scrapen, ohne blockiert zu werden. Wenn Sie auf der Suche nach dem besten Tool zur Datenextraktion von Amazon sind, wird Ihnen dieser Artikel viel Zeit sparen.

Los geht’s! Klicken Sie auf einen der folgenden Dienste, um zum entsprechenden Abschnitt zu springen.

Warum sollte jemand Amazon-Daten scrapen?

Wenn Sie schon einmal versucht haben, etwas online zu verkaufen, wissen Sie, dass einige der wichtigsten Schritte in diesem Prozess sind:

  • Wettbewerbsanalyse;
  • die Verbesserung Ihrer Produkte und Ihres Wertversprechens;
  • Ermittlung von Markttrends und deren Einflussfaktoren.

Durch das Scrapen von Amazon-Daten können wir auf einfache Weise Informationen zu Konkurrenzprodukten wie Preis, Bewertungen oder Verfügbarkeit abrufen, vergleichen und überwachen. Wir können das Kostenmanagement für deren Geschäftstätigkeit analysieren, aber auch tolle Angebote für den Weiterverkauf finden.

Eines ist sicher: Wenn Sie Amazon nutzen, um Ihre Produkte zu verkaufen, profitieren Sie von der Analyse aller zuvor genannten Faktoren. Sie können dies selbst tun, indem Sie Hunderte oder sogar Tausende von Produkten manuell überwachen, oder Sie können ein Tool verwenden, um diesen Prozess zu automatisieren.

In den folgenden Abschnitten werden wir versuchen, einige Lösungen für alle anzubieten, die Schwierigkeiten beim Scraping von Amazon-Informationen haben.

Warum benötigen Sie eine Web-Scraping-API?

Amazon ist einer der größten (wenn nicht sogar der größte) Online-Shops, den das Internet je gesehen hat. Als solcher verfügt Amazon auch über eine der größten Datensammlungen in Bezug auf Kunden, Produkte, Bewertungen, Händler, Markttrends und sogar das Kundenverhalten.

Bevor wir uns mit der Datenextraktion befassen, sollten Sie wissen, dass Amazon das Scraping seiner Website nicht gutheißt. Aus diesem Grund unterscheidet sich die Struktur der Seiten, je nachdem, in welche Kategorien die Produkte fallen. Die Website verfügt über einige grundlegende Anti-Scraping-Maßnahmen, die Sie daran hindern könnten, an die dringend benötigten Informationen zu gelangen. Darüber hinaus kann Amazon feststellen, ob Sie einen Bot zum Scraping einsetzen, und wird Ihre IP-Adresse dann definitiv sperren.

Die besten Scraping-APIs für diese Aufgabe

Um die Aufgabe so schnell wie möglich zu erledigen und nicht für jedes zu testende Tool ein neues Projekt erstellen zu müssen, führen wir das Scraping über ein Terminal und einige Curl-Anfragen durch. Wir haben fünf vielversprechende Web-Scraping-APIs ausgewählt, die wir ausprobieren wollen.

Lassen Sie uns jede einzelne davon testen und herausfinden, welches das beste Tool zum Scrapen von Amazon-Daten ist:

1. WebScrapingAPI

WebScrapingAPI ist ein Tool, mit dem wir beliebige Online-Ressourcen scrapen können. Es sammelt den HTML-Code jeder Webseite über eine einfache API und liefert verarbeitungsfertige Daten. Es eignet sich hervorragend zum Extrahieren von Produktinformationen, zur Verarbeitung von Immobilien-, Personal- oder Finanzdaten und sogar zum Nachverfolgen von Informationen für einen bestimmten Markt. Mit WebScrapingAPI können wir alle benötigten Informationen von einer bestimmten Amazon-Produktseite abrufen.

Suchen wir zunächst ein interessantes Produkt auf dem Amazon-Marktplatz.

Wir werden die im obigen Bild gezeigte Produktseite scrapen.

Als Nächstes holen wir uns die URL der Produktseite: https://www.amazon.co.uk/dp/B088CZW8XC/ref=gw_uk_desk_h1_vicc_sh_cto_kif0321?pf_rd_r=RYXBGN8C757Y9BD6W38B

Nachdem wir ein neues WebScrapingAPI-Konto erstellt haben, werden wir zum Dashboard der Anwendung weitergeleitet. WebScrapingAPI bietet einen kostenlosen Tarif mit 1000 Anfragen zum Testen der Anwendung an. Das ist mehr als genug für das, was wir vorhaben.

Auf der Dashboard-Seite klicken wir auf die Schaltfläche „Use API Playground“. Hier sehen wir den vollständigen Curl-Befehl, mit dem wir die Amazon-Produktseite scrapen können.

Fügen wir den Produktlink in das URL-Eingabefeld ein. Dadurch ändert sich die Vorschau des URL-Befehls auf der rechten Seite.

Nachdem dieser Schritt abgeschlossen ist, kopieren Sie den Curl-Befehl, öffnen Sie ein neues Terminalfenster und fügen Sie ihn dort ein. Wenn Sie die vorherigen Schritte befolgt haben, sollten Sie etwa Folgendes erhalten:

Nachdem wir die Eingabetaste gedrückt haben, gibt WebScrapingAPI die Produktseite im HTML-Format zurück.

Nach unseren Untersuchungen gelang es WebScrapingAPI in 99,7 % der Fälle, die benötigten Informationen erfolgreich abzurufen – mit einer Erfolgsquote von 997 von 1000 Anfragen und einer Latenzzeit von nur 1 Sekunde.

2. ScrapingBee

ScrapingBee bietet die Möglichkeit, Web-Scraping durchzuführen, ohne blockiert zu werden, und nutzt dabei sowohl klassische als auch Premium-Proxys. Der Schwerpunkt liegt auf der Extraktion aller benötigten Daten durch das Rendern von Webseiten in einem echten Browser (Chrome). Dank des großen Proxy-Pools können Entwickler und Unternehmen scrapen, ohne sich Gedanken über Proxys und Headless-Browser machen zu müssen.

Versuchen wir, dieselbe Amazon-Seite wie zuvor zu scrapen. Erstellen Sie ein neues Konto bei ScrapingBee, gehen Sie zum Dashboard der Anwendung und fügen Sie die zuvor angegebene URL in das URL-Eingabefeld ein.

Klicken Sie auf die Schaltfläche „In Zwischenablage kopieren“, die Sie im Abschnitt „Request Builder“ finden.

Öffnen wir nun ein Terminalfenster, fügen den soeben kopierten Code ein und drücken die Eingabetaste.

Durch Ausführen dieses Befehls werden wir dieselbe Seite auf dem Amazon-Marktplatz scrapen, damit wir die Ergebnisse der einzelnen APIs vergleichen können.

Unsere Untersuchungen haben ergeben, dass ScrapingBee in 92,5 % der Fälle die Informationen erfolgreich abrufen konnte, allerdings mit einer recht hohen Latenz von 6 Sekunden.

3. ScraperAPI

ScraperAPI ist ein Tool für Entwickler, die Web-Scraper erstellen – wie sie selbst sagen – das Tool, das jede Seite mit einem einfachen API-Aufruf scrapt. Der Webdienst kümmert sich um Proxys, Browser und CAPTCHAs, sodass Entwickler den rohen HTML-Code von jeder Website abrufen können. Darüber hinaus schafft das Produkt einen einzigartigen Ausgleich zwischen seinen Funktionen, seiner Zuverlässigkeit und seiner Benutzerfreundlichkeit.

Genau wie zuvor erstellen wir ein neues Konto bei ScraperAPI und nutzen die 1000 kostenlosen Anfragen, um das Scraping-Tool zu testen. Nachdem wir den Registrierungsprozess abgeschlossen haben, werden wir auf die folgende Seite weitergeleitet:

Auf den ersten Blick sieht es nicht so aus, als ob ScraperAPI die Möglichkeit bietet, die Curl-Anfrage durch Eingabe einer neuen URL anzupassen. Das ist aber kein Problem. Wir öffnen ein neues Terminalfenster und kopieren den Code aus dem Eingabefeld „Sample API Code“.

Wie wir sehen können, lautet die Standard-URL, die gescrapt wird, „http:/httpbin.org/ip“. Wir werden sie durch die escaped-Version der Produkt-URL ersetzen, die oben im Abschnitt angegeben ist. Ersetzen Sie den zuvor angezeigten Link durch den folgenden:

https%3A%2F%2Fwww.amazon.co.uk%2Fdp%2FB088CZW8XC%2Fref%3Dgw_uk_desk_h1_vicc_sh_cto_kif0321%3Fpf_rd_r%3DRYXBGN8C757Y9BD6W38B

Der endgültige Befehl sollte in etwa so aussehen:

Nachdem wir die Eingabetaste gedrückt haben, wird uns der HTML-Code der Produktseite angezeigt. Sie können natürlich Cheerio oder einen anderen Markup-Parser verwenden, um die resultierende Datenstruktur zu bearbeiten.

ScraperAPI scheint eine der besten Optionen zu sein, da seine Erfolgsquote bei 100 % liegt und die Latenzzeit 1 Sekunde nicht überschreitet.

Wie wir bereits im vorigen Kapitel erwähnt haben, sollten Sie bedenken, dass Amazon jegliche Versuche, Daten von seiner Website zu scrapen, unterbindet.

4. Zenscrape

Zenscrape ist eine Web-Scraping-API, die den HTML-Code jeder beliebigen Website zurückgibt und sicherstellt, dass Entwickler Informationen schnell und effizient erfassen können. Das Tool ermöglicht es Ihnen, Online-Inhalte reibungslos und zuverlässig zu erfassen, indem es Javascript-Rendering oder CAPTCHAs löst.

Genau wie zuvor werden wir nach Abschluss des Registrierungsprozesses auf die Dashboard-Seite weitergeleitet.

Kopieren wir die URL der Produktseite und fügen sie in das URL-Eingabefeld ein.

Um den Curl-Befehl anzuzeigen, den wir zum Scrapen der Amazon-Daten benötigen, scrollen wir bis zur Mitte der Seite. Klicken Sie auf die Schaltfläche „In Zwischenablage kopieren“, öffnen Sie ein neues Terminalfenster und fügen Sie den Befehl dort ein. Er sollte in etwa so aussehen:

Genau wie bei den anderen Web-Scraping-Tools erhalten wir als Ergebnis die Seite im HTML-Format.

Unsere Untersuchungen haben ergeben, dass Zenscrape eine Erfolgsquote von 98 % aufweist, mit 98 erfolgreichen Anfragen von 100 und einer Latenz von 1,4 Sekunden. Damit liegt es hinter den zuvor vorgestellten Tools, aber unserer Meinung nach verfügt es über eine der intuitivsten und ansprechendsten Benutzeroberflächen und erfüllt seine Aufgabe definitiv.

5. ScrapingAnt

ScrapingAnt ist das Scraping-Tool, das seinen Kunden ein umfassendes Web-Harvesting- und Scraping-Erlebnis bietet. Es handelt sich um einen Dienst, der sich um Javascript-Rendering, die Aktualisierung und Wartung von Headless-Browsern sowie um Proxy-Vielfalt und -Rotation kümmert. Die Scraping-API bietet hohe Verfügbarkeit, Zuverlässigkeit und anpassbare Funktionen für jeden geschäftlichen Bedarf.

Für unseren abschließenden Test werden wir denselben Vorgang wiederholen. Erstellen wir ein neues Konto bei ScrapingAnt und nutzen wir die 1000 kostenlosen Anfragen, um die Produktseite von Amazon zu scrapen.

Ich denke, wir haben uns inzwischen gut mit den Web-Scraper-Oberflächen vertraut gemacht.

Genau wie zuvor ersetzen wir den Wert in der URL-Eingabe durch unsere URL, kopieren den curl-Befehl in ein neues Terminalfenster und drücken die Eingabetaste.

Dies liefert eine ähnliche HTML-Struktur, die wir dann mit Cheerio oder einem anderen Markup-Parser auswerten können. Die Hauptfunktionen von ScrapingAnt sind das Rendern von Chrome-Seiten, die Vorverarbeitung der Ausgabe und das Scrapen von Anfragen mit geringer Wahrscheinlichkeit, dass eine CAPTCHA-Prüfung ausgelöst wird.

Unsere Untersuchungen haben ergeben, dass ScrapingAnt eine Erfolgsquote von 100 % bei einer Latenz von 3 vollen Sekunden aufweist. Obwohl die Erfolgsquote zu den höchsten in dieser Liste gehört, stellt die Latenz von 3 Sekunden ein großes Problem dar, wenn wir große Mengen an Amazon-Produktdaten scrapen.

Fazit

Wie wir gesehen haben, ist der Prozess bei allen Web-Scraping-APIs ziemlich identisch. Man sucht eine Seite zum Scrapen, schreibt die Curl-Anfrage einschließlich des Produktlinks, stellt die Anfrage und parst die empfangenen Daten entsprechend den persönlichen Anforderungen.

In diesem Prozess haben wir versucht, das beste Tool für diese Aufgabe zu ermitteln. Wir haben 5 Scraper getestet und analysiert und festgestellt, dass sich die Ergebnisse nicht wesentlich unterscheiden. Letztendlich erfüllen sie alle ihren Zweck. Der Unterschied liegt in der Latenz, der Erfolgsquote, der Anzahl der kostenlosen Anfragen und den Preisen der einzelnen Scraper.

WebScrapingAPI ist eine hervorragende Lösung für das Scraping von Amazon-Daten, da es eine der geringsten Latenzen (1 Sekunde) und eine Erfolgsquote von nahezu 100 %aufweist. Es bietet eine kostenlose Stufe für diejenigen unter uns, die keine große Anzahl von Anfragen stellen müssen, und es enthält zudem 1000 kostenlose Anfragen, falls Sie es einfach nur ausprobieren möchten.

ScrapingBee ist der zweite Web-Scraper, den wir getestet haben, doch die Ergebnisse waren nicht so zufriedenstellend. Mit einer Erfolgsquote von nur 92,5 % und einer ziemlich hohen Latenz (6 Sekunden) hätten wir große Schwierigkeiten, die benötigten Informationen zu unserem Amazon-Produkt zu erhalten.

ScraperAPI ist ebenfalls einer der schnellsten Scraper, die wir getestet haben. Mit einer Latenz von nur 1 Sekunde und einer Erfolgsquote von 100 % liefert er die besten Ergebnisse in Bezug auf die technischen Anforderungen. Sein Nachteil ist die Benutzeroberfläche, da sie die rudimentärste zu sein scheint. Das Preismodell ist ein weiterer Schwachpunkt, da es keine kostenlose Stufe bietet.

Zenscrape verfügt definitiv über eine der intuitivsten Benutzeroberflächen aller von uns getesteten Scraper. Der einzige, der dem nahekommt, ist WebScrapingAPI. Zenscrape hat eine Latenz von nur 1,4 Sekunden und eine Erfolgsquote von 98 %.

ScrapingAnt ist der letzte Scraper, den wir getestet haben. Mit einer Latenz von etwa 3 Sekunden und einer Erfolgsquote von 100 % ist er eine gute Wahl für das Scraping der benötigten Amazon-Informationen, allerdings etwas langsam.

Letztendlich leisten alle von uns getesteten Web-Scraper sehr gute Arbeit beim Scraping von Amazon-Produktdaten. Auch wenn die Ergebnisse sehr knapp beieinander liegen, sollten wir immer das für unsere spezifischen Anforderungen effizienteste Tool wählen.

Wir empfehlen Ihnen, sie selbst auszuprobieren. Finden Sie heraus, welches Produkt am besten zu Ihren Bedürfnissen passt. Lesen Sie auch diesen Artikel darüber, wie Sie eine Web-Scraping-API optimal nutzen können. Schließlich ist es nicht dasselbe, ein Tool auszuwählen und zu wissen, wie man es einsetzt.

Über den Autor
Robert Sfichi, Full-Stack-Entwickler @ WebScrapingAPI
Robert SfichiFull-Stack-Entwickler

Robert Sfichi ist Teammitglied bei WebScrapingAPI, wo er an der Produktentwicklung mitwirkt und dabei hilft, zuverlässige Lösungen zu entwickeln, die die Plattform und ihre Nutzer unterstützen.

Los geht’s

Sind Sie bereit, Ihre Datenerfassung zu erweitern?

Schließen Sie sich den über 2.000 Unternehmen an, die WebScrapingAPI nutzen, um Webdaten im Unternehmensmaßstab ohne zusätzlichen Infrastrukturaufwand zu extrahieren.