Zurück zum Blog
Die Wissenschaft des Web-Scrapings
Anda MiuțescuLast updated on Mar 31, 20268 min read

Befreien Sie sich ein für alle Mal von IP-Sperren beim Web-Scraping

Befreien Sie sich ein für alle Mal von IP-Sperren beim Web-Scraping

Stellen Sie sich Folgendes vor:

Sie haben erkannt, dass das Internet voller wertvoller Daten steckt, die Ihrem Unternehmen helfen können, und haben daher beschlossen, diese zu nutzen. Sie haben sich mit Datenextraktion vertraut gemacht und Ihren eigenen Scraper in Python programmiert. Alles ist bereit – Sie haben eine Webseite ausgewählt und den Bot losgeschickt. Doch dann, aus heiterem Himmel, blockiert die Website Ihren Scraper und lässt Sie keine Informationen mehr extrahieren.

Pech gehabt, aber keine Sorge, die Lösung könnte nicht einfacher sein.

Das Scrapen von Daten ist heutzutage bei Unternehmen weit verbreitet, da die gesammelten Informationen auf vielfältige Weise zur Steigerung der Rentabilität genutzt werden können. Eines der häufigsten Probleme ist, dass man während des Scraping-Prozesses blockiert wird. Wir nutzen verschiedene Methoden, um dieses Problem zu vermeiden, darunter die IP-Rotation, die im Mittelpunkt des heutigen Artikels steht.

Aber hier ist eine recht häufige Frage: Warum versuchen Websites, Ihre Bots zu blockieren, wenn Sie Daten rechtmäßig und ethisch einwandfrei extrahieren? Ganz einfach: Sie kennen Ihre Absichten nicht und haben zu viel zu verlieren, wenn sie nicht handeln.

Bots haben bei Website-Betreibern einen ziemlich schlechten Ruf, da sie auf vielfältige Weise als Saboteure, Eindringlinge oder allgemeine Störenfriede eingesetzt wurden. Das Problem bei dieser Sichtweise ist, dass Bots lediglich Werkzeuge sind. Niemand beschwert sich über die Bots, die Google nutzt, um Seiten zu finden und zu indexieren. Der Punkt ist: Bots können sowohl gut als auch schlecht sein, je nachdem, wie sie eingesetzt werden.

Vor diesem Hintergrund ist das Misstrauen der Website-Betreiber gegenüber Bots durchaus berechtigt. Es gibt zahlreiche Möglichkeiten, wie Bots Probleme verursachen können, sei es absichtlich oder unabsichtlich:

  • Sie können die Analysedaten der Website verfälschen. Die Analysesoftware erkennt Besucher, die Bots sind, in der Regel nicht, zählt sie also mit, was zu verzerrten Berichten führt.
  • Sie können so viele Anfragen senden, dass der Host-Server dadurch verlangsamt wird und die Website möglicherweise sogar für andere Besucher nicht mehr erreichbar ist. Dies geschieht in der Regel absichtlich und wird als DDoS-Angriff bezeichnet.
  • Für Websites, die auf Werbeeinnahmen auf ihren Seiten angewiesen sind, können Bots zunächst wie ein Segen erscheinen, da sie mehr Geld für die Website generieren. Das Problem ist, dass Werbenetzwerke nicht dumm sind – sie werden bemerken, dass einige der Anzeigen von Bots angesehen werden, was eine Form von Klickbetrug darstellt. Es versteht sich von selbst, dass Websites nicht dieser Vorwürfe beschuldigt werden wollen.
  • E-Commerce-Websites können durch Bots viel Ärger haben. Manche Skripte kaufen neue Produkte in dem Moment, in dem sie verfügbar sind, damit der Ersteller sie dann mit Gewinn weiterverkaufen kann, wodurch eine künstliche Knappheit entsteht. Alternativ können Bots den Lagerbestand durcheinanderbringen, indem sie Artikel in den Warenkorb legen und dann aufhören, wodurch sie echten Käufern den Zugang zu diesen Produkten effektiv versperren.

Kurz gesagt: Man kann einer Website nicht wirklich vorwerfen, dass sie sich vor Bots hütet. Nächste Frage: Wie haben sie dich überhaupt identifiziert?

Warum ich?

Websites sind (im Allgemeinen) für Menschen konzipiert, und wenn eine Website einen fremden Bot, wie beispielsweise einen Web-Scraper, erkennt, wird sie diesen höchstwahrscheinlich blockieren. Die Frage ist also: Wie hat die Website Ihren Bot aufgespürt?

Damit eine Website Sie blockieren kann, muss sie zunächst den Bot identifizieren, und das tut sie, indem sie auf ungewöhnliches Surfverhalten achtet.

Web-Scraper sind schneller als jeder Mensch, das macht ihren Reiz aus, ist aber meistens auch der entscheidende Hinweis. Wenn du den Bot damit beauftragst, zehn Seiten von einer Website zu scrapen, erledigt er den Auftrag in weniger Zeit, als du gebraucht hast, um ihn zu erteilen. Die Website muss lediglich feststellen, dass eine einzelne IP-Adresse zehn Anfragen schneller gesendet hat, als es ein Mensch könnte, und schon identifiziert sie den Bot.

Es gibt auch andere Methoden, von denen die bekannteste folgende ist:

  • Browser-Fingerprinting
  • TLS-Fingerprinting
  • Überprüfung der IP-Adresse anhand von Listen bekannter Proxys

Es gibt auch andere Gegenmaßnahmen gegen Web-Scraper, wie CAPTCHAs, aber diese dienen eher dazu, verdächtiges Verhalten zu unterbinden, als es zu erkennen.

So vermeiden Sie die IP-Sperre

Das Interessante an der Vermeidung von IP-Sperren ist: Je mehr IP-Adressen Sie haben, desto unwahrscheinlicher ist es, dass eine davon entdeckt wird. Und selbst wenn einige davon gesperrt werden, haben Sie natürlich immer noch genug übrig.

Dein erster Schritt ist also ein starker Proxy-Pool. Dafür brauchst du einen zuverlässigen Proxy-Pool-Anbieter, da dies die kostengünstigste Option ist. Anstatt IPs zu kaufen, zahlst du einfach eine monatliche Gebühr und erhältst Zugriff auf Hunderttausende oder sogar Millionen von IPs.

Neben der schieren Anzahl der Proxys musst du auch die Zusammensetzung des Proxy-Pools berücksichtigen. Manche IPs fallen mehr auf als andere, während manche Websites besonders aufmerksam sind. Du könntest für alle deine Scraping-Aktivitäten Premium-Proxys verwenden, aber das wäre verschwenderisch, da bessere Proxys mehr Geld kosten.

Entscheidend ist, dass Sie Zugang zu allen Tools haben, die Sie möglicherweise benötigen, sowie das Wissen, um für jede Situation das richtige auszuwählen.

Das letzte Puzzleteil ist der Aspekt der Rotation der von Ihnen verwendeten IPs. Die Verwendung desselben Proxys führt zu dem zuvor beschriebenen Problem – eine einzelne IP, die Anfragen zu schnell stellt, um von einem Menschen zu stammen. Mit Ihrem Proxy-Pool können Sie jedoch jede Anfrage von einer anderen Quelle aus senden. Die Website sieht nicht mehr einen hyperaktiven Nutzer, sondern zehn verschiedene Nutzer, die fast gleichzeitig surfen.

Das war ein kurzer Überblick darüber, was Sie beachten müssen. Lassen Sie uns nun näher darauf eingehen, welche Art von Proxys Sie sich besorgen sollten und wie Sie diese am besten nutzen.

Finden Sie die richtige Tarnung

Es gibt eine Vielzahl verschiedener Proxys zur Auswahl und viele Kriterien zu berücksichtigen. Auf den ersten Blick mag das Thema sehr kompliziert erscheinen und Sie könnten am liebsten das Handtuch werfen, aber bleiben Sie dran! Sie werden die Grundlagen schon allein durch das Lesen eines coolen, informativen und leicht verständlichen Artikels wie diesem verstehen!

Lassen Sie uns zunächst über Anonymität sprechen, den Hauptvorteil von Proxy-IPs. Zunächst einmal ist Anonymität keine Selbstverständlichkeit: Manche Proxys versuchen gar nicht, Ihre echte IP-Adresse zu verbergen, sondern fungieren lediglich als Vermittler – man nennt sie transparente Proxys. Wenn eine Anfrage über eine solche IP gestellt wird, informiert einer der Header die Website darüber, dass es sich tatsächlich um einen Proxy handelt, während ein anderer Ihre tatsächliche Adresse übermittelt.

Zweitens bedeutet die Tatsache, dass Sie eine Tarnung verwenden, nicht automatisch, dass Sie damit jemanden täuschen. Anonyme Proxys verbergen Ihre echte Adresse, aber nicht die Tatsache, dass es sich um Proxys handelt. Der Anfrage-Header verrät Sie wieder. Die Website weiß zwar nicht, wer Sie sind oder wo Sie sich befinden, aber sie weiß, dass jemand mit einer bestimmten IP-Adresse auf die Seite zugreift.

Schließlich gibt es noch Proxys mit hoher Anonymität, auch Elite-Proxys genannt. Diese sind das Nonplusultra, da sie nicht nur Ihre Identität geheim halten, sondern sich auch nicht als Proxys zu erkennen geben. Verstehen Sie uns nicht falsch: Ein entschlossener Webmaster wird alle Proxys identifizieren, egal wie gut die Tarnung ist, aber Elite-Proxys bieten dennoch die beste Chance, unbemerkt zu bleiben.

Für das Web-Scraping gibt es im Allgemeinen zwei Arten von angebotenen Proxys: Datacenter- und Residential-Proxys. Beide Arten von IPs verbergen Ihre tatsächliche Adresse, der Unterschied liegt eher in ihrer Beschaffenheit.

Datacenter-Proxys sind cloudbasierte IPs ohne realen Standort. Diese auf moderner Infrastruktur aufbauenden Proxys sind relativ kostengünstig, und Sie können Zugang zu einigen Tausend erhalten, ohne Ihr Budget zu sprengen. Zudem nutzen Datencenter-IPs eine gute Internetverbindung, sodass Sie Daten schneller extrahieren können als mit anderen Proxy-Arten. Der Nachteil ist, dass sie keinen realen Standort haben und sich ein Subnetz teilen (ein Teil der IP ist für alle Proxys derselben „Familie“ identisch), wodurch Datencenter-IPs leichter zu erkennen und folglich zu blockieren sind.

Residential-Proxys können als die hochwertige Option angesehen werden, da es sich um echte IPs handelt, die von echten Internetdienstanbietern bereitgestellt werden und über echte physische Standorte verfügen. Kurz gesagt, sie sind von normalen Besuchern kaum zu unterscheiden. Ein Proxy-Pool sollte Residential-IPs von möglichst vielen verschiedenen Standorten enthalten, um gute Geschwindigkeiten und den Zugriff auf geografisch eingeschränkte Inhalte zu gewährleisten. Da sie die besten Ergebnisse liefern, ist es keine Überraschung, dass Residential-Proxys auch höhere Preise haben.

Vertusch deine Spuren

Wenn ein Proxy seine Aufgabe gut erfüllt, sieht es so aus, als wäre die IP-Adresse Ihres Bots seine echte Adresse. Das ist alles schön und gut, aber ein Proxy kann nicht verbergen, wie Bots arbeiten, nämlich sehr schnell. Mit einem einzigen, hochwertigen Proxy wird also einfach die Proxy-IP Ihres Bots gesperrt, und Sie stehen wieder am Anfang.

Wenn Sie über mehrere Proxys verfügen, können Sie bei jeder Anfrage zu einem anderen wechseln, sodass die Aktivität eines eifrigen Bots wie ein Schwarm verschiedener Nutzer wirkt. Wenn alles gut läuft, wird keine der IPs gesperrt und der Web-Scraper erledigt seine Arbeit.

Sie können Proxys manuell wechseln, aber der Vorgang ist langwierig und frustrierend – genau das Gegenteil dessen, was der Einsatz von Bots eigentlich sein sollte. Daher verfügen die meisten Web-Scraping-Tools, die etwas taugen, über automatische Proxy-Rotationsfunktionen.

Bei WebscrapingAPI funktioniert das so: Jede Anfrage für jede Webseite, die du stellst, wird automatisch über eine andere IP-Adresse gesendet. Selbst wenn du dieselbe Seite hundert Mal scrapst, registriert die Website dies als hundert verschiedene Besucher, die auf die Seite zugreifen.

In manchen Fällen möchten Sie vielleicht sogar, dass die Website Sie erkennt. In diesem Fall müssen Sie lediglich einen Parameter in Ihrer Anfrage ändern, und Sie verwenden dieselbe IP-Adresse, wenn Sie eine Seite erneut aufrufen.

Die Rotation Ihrer Proxys ist absolut notwendig, wenn Sie Daten von mehreren Seiten derselben Website extrahieren möchten. Die automatische Proxy-Rotation soll den Prozess einfach und reibungslos gestalten.

Beruhigende Worte

Es besteht kein Grund zur Panik, wenn ein Web-Scraper von einer Website blockiert wird. Solange wir keine Urheberrechte verletzen, bedeutet das Umgehen der Beschränkung nicht, dass man etwas Illegales tut. Glücklicherweise ist die IP-Rotation eine schnelle und effiziente Lösung für die blockierten Scraper dieser Welt.

Probieren Sie unseren kostenlosen Tarif aus und sichern Sie sich 1000 API-Aufrufe ohne jegliche Verpflichtungen, um mit dem Scraping loszulegen.

Über den Autor
Anda Miuțescu, Autor für technische Inhalte @ WebScrapingAPI
Anda MiuțescuAutor für technische Inhalte

Anda Miuțescu ist Technical Content Writer bei WebScrapingAPI und verfasst verständliche, nützliche Inhalte, die Entwicklern helfen, das Produkt und seine Funktionen besser zu verstehen.

Los geht’s

Sind Sie bereit, Ihre Datenerfassung zu erweitern?

Schließen Sie sich den über 2.000 Unternehmen an, die WebScrapingAPI nutzen, um Webdaten im Unternehmensmaßstab ohne zusätzlichen Infrastrukturaufwand zu extrahieren.