Zurück zum Blog
Die Wissenschaft des Web-Scrapings
Raluca PenciucLast updated on Mar 31, 202617 min read

Rotierende Proxys: Alles, was Sie wissen müssen

Rotierende Proxys: Alles, was Sie wissen müssen

Als du angefangen hast, die Grundlagen des Web-Scrapings zu lernen, hattest du da auch diesen Moment, in dem dir klar wurde: „Oh Mann, dafür brauche ich Proxys“? Nun, mach dich darauf gefasst, diese Erkenntnis noch einmal zu erleben, denn rotierende Proxys sind die nächste Stufe der Web-Scraping-Funktionalität.

Glaubst du mir nicht? Schauen wir uns zunächst die Vorteile an, die Proxys bieten, wenn man sie nicht rotiert, und dann die zusätzlichen Vorteile, die man durch die Rotation erhält. Das bieten nicht-rotierende IPs:

  • Du kannst das Scraping einer Seite/Website erneut versuchen, nachdem die ursprüngliche IP-Adresse gesperrt wurde.
  • Sie können die Adressen manuell wechseln, um Websites zu umgehen, die Geolokalisierung nutzen, um Inhalte zu beschränken.
  • Sie geben Ihren tatsächlichen Standort nicht preis.
  • Durch Hinzufügen einer Anforderungsverzögerung können Sie Daten von Websites mit Anti-Scraping-Maßnahmen extrahieren.

Das sind definitiv gute Dinge, aber schauen wir mal, was passiert, wenn du einen neuen Dreh hinzufügst (Wortspiel beabsichtigt):

  • Der Scraper sendet kontinuierlich Anfragen, bis er die benötigten Informationen erhält.
  • Sie können problemlos auf geografisch eingeschränkte Inhalte aus jedem Land zugreifen, in dem Sie einen Proxy haben.
  • Websites merken nicht einmal, dass sie von Bots besucht werden.
  • Sie können Daten von jeder Website abrufen, ohne die Anfragen verlangsamen zu müssen.

Das ist nur ein kurzer Überblick über die Unterschiede, aber ziemlich beeindruckend, oder? Tauchen wir also ein und erfahren wir, wie diese Vorteile zustande kommen!

Was sind rotierende Proxys?

Mit rotierenden Proxys meinen wir den Prozess, bei dem bei jeder gesendeten Anfrage automatisch von einer IP-Adresse zur nächsten gewechselt wird. Theoretisch könnte man das manuell machen, aber das würde bedeuten, dass man keine Liste von URLs zum Scraping in die Warteschlange stellen könnte. Stattdessen müsste man einen Proxy zuweisen, eine Anfrage senden, einen anderen Proxy zuweisen, eine weitere Anfrage senden und so weiter. Ich hoffe, du siehst, wie ineffizient das wäre.

Für die automatische Proxy-Rotation benötigen Sie einen neuen Vermittler, sozusagen einen Proxy für Ihren Proxy. Dieser neue Vermittler ist ein Server, der Zugriff auf Ihren gesamten Proxy-Pool hat. Anstatt also selbst die IP-Liste zu durchsuchen, übernimmt der Server das für Sie. Sie müssen ihm lediglich den Befehl geben.

Hier ist eine Schritt-für-Schritt-Anleitung des Scraping-Prozesses mit einem Programm, das Proxys rotiert:

  • Der Benutzer sendet eine Anfrage an den Proxy-Verwaltungsserver.
  • Der Server wählt zufällig einen Proxy aus (sofern nicht anders angegeben) und sendet die Anfrage an diesen.
  • Der Proxy leitet die Anfrage dann an das endgültige Ziel weiter, die Webseite mit den zu extrahierenden Daten.
  • Die Antwort wird auf demselben Weg zurück zum Nutzer geleitet.

Diese vier Schritte werden wiederholt, bis der Nutzer alle gewünschten Informationen erhalten hat. Jede Anfrage läuft über einen neuen Proxy, wodurch die Aktionen vieler verschiedener Nutzer simuliert werden, die sich mit einer Website verbinden.

Im Grunde genommen erfordern rotierende Proxys also keinen zusätzlichen Aufwand Ihrerseits. Das ist das Schöne daran. Es ist mehr Automatisierung für ein Tool, das ohnehin schon dazu gedacht ist, Unmengen an Informationen ohne Aufwand seitens des Benutzers zu sammeln.

Natürlich benötigen Sie für die IP-Rotation in erster Linie einen Proxy-Pool. Da jedoch nicht alle Proxys gleich sind, müssen Sie auch die richtigen IPs zusammenstellen. Hier sind die beiden führenden Optionen:

Rechenzentrum vs. Privathaushalt

Es gibt verschiedene Möglichkeiten, Proxys zu klassifizieren. Man kann nach Anonymität, Zugriff oder Herkunft unterscheiden. Der letztgenannte Faktor ist für Web-Scraping-Projekte am wichtigsten. In diesem Sinne sind Proxys im Allgemeinen entweder Rechenzentrum- oder Residential-Proxys. Schauen wir uns beide an.

Rotierende Rechenzentrumsproxys

Rechenzentren werden so genannt, weil sie über eine unübertroffene Kapazität verfügen, Informationen online zu speichern und zu teilen. Der Begriff „in der Cloud gespeichert“ ist nur eine prägnantere Art zu sagen: „in einem Rechenzentrum gespeichert, und du kannst darauf zugreifen, solange du Internet hast.“ Die kürzere Version geht viel besser über die Lippen.

Rechenzentren sind im Wesentlichen riesige Ansammlungen miteinander verbundener Server mit einer kolossalen kombinierten Speicherkapazität und der Infrastruktur, um sie am Laufen zu halten. Rechenzentrums-Proxys werden, wie Sie vielleicht schon erraten haben, von diesen Strukturen gehostet. Um Proxys zu erhalten, müssen Sie einen virtuellen Server erstellen, ein Betriebssystem darauf installieren und dann spezielle Software installieren, um IPs als Proxys einzurichten.

Der Schlüssel zu effizienten Rechenzentrum-Proxys liegt darin, das richtige Gleichgewicht zwischen Servern und IPs zu finden. Ein Server kann mehrere IPs beherbergen, aber jede einzelne verursacht zusätzlichen Aufwand. Ab einem bestimmten Punkt sinkt der Ertrag des Servers, und man muss einen neuen erstellen. Das Jonglieren mit Servern und IPs ist sehr aufwendig, daher ziehen es die meisten Entwickler vor, diese Proxys einfach bei spezialisierten Unternehmen zu mieten oder zu kaufen.

Die IPs sind nicht mit einem Internetdienstanbieter verbunden. Stattdessen haben Sie es mit den Betreibern des Rechenzentrums oder einem Drittanbieter zu tun, der Speicherplatz nutzt, um Proxys einzurichten und an Kunden zu verteilen.

Sie sind eine beliebte Wahl für Web-Scraper, weil:

  • Sie sind im Vergleich zu privaten IP-Adressen kostengünstig, da sie in großer Zahl eingerichtet werden;
  • Dank ihrer überragenden Geschwindigkeit können Sie in kürzerer Zeit mehr Daten sammeln;
  • Sie sind dank der soliden Infrastruktur der Rechenzentren sehr zuverlässig;
  • Es ist einfach, sie in großen Mengen von derselben Serverfarm zu kaufen oder zu mieten.

Natürlich hat alles auch seine Nachteile. Bei Rechenzentrums-Proxys sind das:

  • Ihre IPs sind für wachsame Websites leichter zu erkennen;
  • Alle Proxys aus demselben Rechenzentrum teilen sich eine Subnetz-Kennung, wodurch sie anfälliger für pauschale Sperrungen sind.
  • Es ist schwieriger, einen Proxy-Pool mit IPs aus allen Ländern aufzubauen, da es nur wenige Rechenzentren gibt.

Durch die Verwendung von rotierenden Rechenzentrumsproxys können Sie erfolgreich auf die meisten Websites zugreifen und diese scrapen. Da jede neue Anfrage von einer anderen IP-Adresse stammt, ist es relativ schwierig, den Scraper aufzuspüren und zu blockieren.

Bei fortschrittlichen und beliebten Websites sieht die Sache anders aus. Amazon, Google und andere große Namen sind täglich mit Scrapern und anderen Bots konfrontiert. Daher ist es viel wahrscheinlicher, dass man bemerkt wird. Zudem besteht bei Rechenzentrums-Proxys immer das Risiko, dass sie bereits gesperrt sind, da alle IPs desselben Rechenzentrums ein gemeinsames Subnetz nutzen.

Am wichtigsten ist, wen Sie als Proxy-Anbieter wählen und wie dieser seine IPs verwaltet. Die Rechenzentrums-Proxys von WebScrapingAPI sind beispielsweise privat und garantieren, dass sie kaum oder gar nicht auf Blacklists landen.

Rotierende Residential-Proxys

Wenn Rechenzentren die neue und hochtechnologische Alternative sind, sind Residential-IPs die bewährte Option. Residential-IPs sind echte Geräte, die über einen Internetdienstanbieter mit dem Internet verbunden sind. Diese Proxys sind von normalen Nutzern praktisch nicht zu unterscheiden, da sie in gewisser Weise genau das sind.

Das Einrichten eines Rechenzentrums-Proxy-Pools erfordert etwas IT-Kenntnis, Geld und die richtige Software. Das Sammeln von Residential-IPs ist hingegen wesentlich komplizierter. Zunächst müssten Sie Menschen davon überzeugen, Ihnen zu erlauben, spezielle Software auf ihrem Gerät zu installieren, die Ihnen Fernzugriff ermöglicht. Dann müssten sie die Geräte ständig eingeschaltet lassen. Andernfalls wäre der Proxy manchmal unbrauchbar.

Aufgrund der Unannehmlichkeiten und des erforderlichen Maßes an Vertrauen ist es für Entwickler wesentlich einfacher, Residential-Proxys von spezialisierten Dienstanbietern zu mieten.

Im Vergleich zu Rechenzentrums-Proxys haben private IP-Adressen einige wesentliche Vorteile:

  • Residential-IPs werden von Internetdienstanbietern unterstützt und wirken beim Surfen im Internet wie normale Besucher, wodurch der Scraper schwerer zu erkennen ist;
  • Jede IP-Adresse ist einzigartig, sodass selbst wenn ein Proxy identifiziert und blockiert wird, alle anderen weiterhin nutzbar sind;
  • Es ist einfacher, einen Proxy-Pool aus einer Vielzahl von Standorten zusammenzustellen, was einen leichteren Zugriff auf geografisch eingeschränkte Inhalte gewährleistet.

Trotz dieser erheblichen Vorteile, die Residential-Proxys in puncto Effektivität zu den Besten der Besten machen, weisen sie auch einige Nachteile auf:

  • Sie sind in der Regel mit höheren Kosten verbunden;
  • Aufgrund des Standorts und der Internetverbindung des Geräts variiert die Anfragedauer von IP zu IP und ist im Allgemeinen langsamer als bei Rechenzentrums-Proxys;
  • Sie müssen den Anbieter von Residential-Proxys sorgfältig auswählen und sicherstellen, dass er eine ausreichende Anzahl von IPs anbietet und über Proxys in den Ländern verfügt, die Sie für Ihr Projekt benötigen.

Residential-Proxys bieten in Kombination mit einem IP-Rotationssystem und einem Skript, das Request-Header (insbesondere User-Agent) wechselt, die beste Tarnung. Damit kann Ihr Web-Scraper Daten sammeln, ohne auf Hindernisse wie IP-Sperren oder CAPTCHAs zu stoßen.

Aufgrund ihrer Authentizität werden Residential-Proxys häufig zum Scraping komplexerer Websites verwendet, wie Suchmaschinen, große E-Commerce-Seiten oder Social-Media-Plattformen. Wenn Sie sich jedoch auf diesen Seiten anmelden, deaktivieren Sie die Proxy-Rotation, damit alle Anfragen von derselben IP-Adresse stammen. Andernfalls sieht es so aus, als würde derselbe Nutzer innerhalb von Sekunden Anfragen von überall auf der Welt senden, was darauf hindeutet, dass es sich um einen Bot handelt.

Warum Sie rotierende Proxys für das Web-Scraping verwenden sollten

Einige Websites sind besonders beliebte Ziele für Web-Scraper. Google, Amazon und Facebook fallen einem da sofort ein. Diese Plattformen rechnen mit Bots und setzen daher Methoden ein, um diese sowohl zu verlangsamen als auch zu stoppen. Angesichts der zunehmenden Beliebtheit von Web-Scrapern werden diese Gegenmaßnahmen von immer mehr Websites eingesetzt.

In diesem Zusammenhang wird es immer wichtiger, dass Sie Ihre IP-Adressen rotieren. Andernfalls riskieren Sie ständige IP-Sperren und Captchas, und Ihr Proxy-Pool wird nach und nach unwirksam.

Umgehung von Request-Throttling

Anfragedrosselung ist eine Technik, mit der Websites die Geschwindigkeit verringern, mit der Bots navigieren können. Einfach ausgedrückt begrenzt sie die Anzahl der Anfragen, die ein Besucher innerhalb eines bestimmten Zeitraums stellen kann.

Sobald das Limit erreicht ist, wird der Bot auf eine CAPTCHA-Seite umgeleitet. Wenn Ihr Web-Scraping-Tool keine CAPTCHA-Lösungsfunktionen hat oder diese nicht funktionieren, kann die IP das Scraping auf dieser Website nicht fortsetzen.

Der entscheidende Punkt hierbei ist, dass Websites die Anzahl der von jeder IP gesendeten Anfragen überwachen. Wenn Ihre Anfragen von mehreren Adressen gesendet werden, verteilt sich die Last auf diese. Hier ein Beispiel:

Wenn eine Website so eingerichtet ist, dass nach 10 Anfragen die 11. ein CAPTCHA auslöst, bedeutet das, dass Sie 10 Seiten scrapen können, bevor Sie anhalten und die IP manuell ändern müssen. Wenn Sie Preisinformationen sammeln, ist das im Vergleich zur Gesamtzahl der Seiten, die Sie scrapen möchten, vielleicht nur ein Tropfen auf den heißen Stein.

Durch die Rotation Ihrer Proxys entfällt die Notwendigkeit, manuell einzugreifen. Sie können das Zehnfache der Anzahl Ihrer Proxys scrapen. Dann ist die einzige Grenze die Größe des Proxy-Pools, wobei jede IP-Adresse voll ausgeschöpft wird.

Das Beste daran ist, dass die Anforderungsdrosselung die Anzahl der Zugriffe über einen festgelegten Zeitraum begrenzt. Mit einem ausreichend großen Proxy-Pool läuft der Timer für die bereits verwendeten Proxys ab, bevor du sie erneut aufrufen musst, was dir praktisch unbegrenzte Scraping-Möglichkeiten bietet.

Verteilen Sie Anfragen gleichmäßig über den Proxy-Pool

Nach derselben Logik wie im vorherigen Punkt stellt die Proxy-Rotation sicher, dass Sie nicht dieselben IPs überbeanspruchen, während andere ungenutzt bleiben. Einfach ausgedrückt: Sie nutzen Ihre Ressourcen so effizient wie möglich. Das Ergebnis: Sie erzielen möglicherweise dieselben Ergebnisse mit einer geringeren Anzahl von IPs.

Ohne Proxy-Rotation nutzen Sie dieselbe IP-Adresse, bis sie gesperrt wird, während alle anderen Proxys ungenutzt bleiben. Wenn einer nicht mehr funktioniert, wechseln Sie zum nächsten. Diese Methode lässt Proxys wie eine endliche Ressource erscheinen, die zum Sammeln von Daten aufgebraucht wird. Das ist nicht notwendig.

Mit einer guten geografischen Verteilung und einer ausgewogenen Aufteilung zwischen Rechenzentren und privaten Standorten kann ein guter Proxy-Pool unbegrenzt lange genutzt werden, wenn Sie die IPs rotieren. Sie müssen lediglich sicherstellen, dass kein einzelner Proxy auffällt und Gefahr läuft, gesperrt zu werden.

In diesem Sinne kann die Proxy-Rotation den Scraping-Prozess exponentiell beschleunigen. Der Schlüssel dazu sind gleichzeitige Anfragen. Die meisten Web-Scraping-APIs können mehrere Anfragen gleichzeitig senden, wobei die Anzahl von deinem gewählten Paket abhängt.

Das gleichzeitige Senden von 50 Anfragen an dieselbe Website wird zwangsläufig Verdacht erregen. Tatsächlich weicht dies so stark vom normalen Nutzerverhalten ab, dass du höchstwahrscheinlich sofort blockiert wirst. Du kannst dir wahrscheinlich denken, worauf das hinausläuft. Die Rotation deiner Proxys ist ein Muss, da sie es dir ermöglicht, den Scraper bis an seine Grenzen zu bringen, ohne blockiert zu werden.

Helfen Sie dem Scraper, nicht entdeckt zu werden

Da wir gerade beim Thema Blockierung sind: Einer der wichtigsten Vorteile der Proxy-Rotation ist die Anonymität, die sie gewährleistet. Lassen Sie uns das näher erläutern!

Websites sind nicht besonders begeistert davon, von Bots besucht zu werden. Möglicherweise versuchen sie, Sie daran zu hindern, Daten zu sammeln, oder wollen einfach nur sicherstellen, dass kein Schadprogramm versucht, ihre Server zum Absturz zu bringen. Deshalb setzen sie verschiedene Gegenmaßnahmen ein, um Bots zu erkennen und zu blockieren. Da Web-Scraper schneller im Internet surfen als normale Nutzer, fallen sie auf. Denken Sie an das Beispiel mit den 50 gleichzeitigen Anfragen zurück. Laut dem „2020 Digital Experience Benchmark“ von ContentSquare verbringt der durchschnittliche Nutzer 62 Sekunden auf einer einzelnen Seite. Der Unterschied im Verhalten ist offensichtlich.

Mit rotierenden Proxys wechseln Sie ständig zwischen IP-Adressen und vermeiden es, zahlreiche Anfragen von einer einzigen Adresse aus zu senden. Das Ergebnis: Die Website sieht den von Ihnen generierten Traffic als eine Gruppe separater Besucher, zwischen denen keine Verbindung besteht.

Zugriff auf geografisch eingeschränkte Inhalte

Ein Proxy-Rotator sollte IP-Adressen nicht einfach nach dem Zufallsprinzip wechseln. Sicher, manchmal reicht das aus, aber eine fortgeschrittenere Funktion, auf die du achten solltest, ist die Option, Proxys aus einer bestimmten Region zu rotieren.

Diese Funktion ist entscheidend, wenn Sie versuchen, Informationen zu sammeln, die sich auf eine bestimmte Region beziehen. Je nach geografischer Herkunft einer Anfrage können einige Websites:

  • Daten anzeigen, die spezifisch für den Ursprung der IP-Adresse sind
  • den Zugriff einschränken, weil die Anfrage aus einem gesperrten Land stammt

Durch die Rotation eines vielfältigen Proxy-Pools können Sie also sowohl die Nachteile abmildern als auch die Vorteile nutzen. Auf die vorherigen Punkte angewendet bedeutet das:

  • Sie erhalten einen besseren Überblick über ausländische Märkte, indem Sie länderspezifische Daten erheben;
  • Informationen extrahieren, die sonst aufgrund der Sperrung bestimmter Länder für die Website nicht zugänglich wären.

Es ist wichtig, wachsam zu bleiben und zu erkennen, wenn Websites ihre Inhalte basierend auf der Herkunft der Anfrage anpassen. Diese Websites bieten potenziell wertvolle Einblicke in die Daten eines Landes. Wenn Sie jedoch nicht wissen, dass Sie angepasste Informationen erhalten, kann dies zu erheblichen Ungenauigkeiten in Ihren Daten führen.

So nutzen Sie rotierende Proxys

Genau wie Web-Scraper können Sie einen Proxy-Rotator ganz alleine erstellen, verwalten und nutzen. Dafür benötigen Sie Programmierkenntnisse (Python ist ideal, da es viele wertvolle Frameworks und eine aktive Community bietet), etwas allgemeines Informatikwissen, eine Liste von Proxys und jede Menge Geduld.

Die einfachste Form wäre ein Skript, das eine Variable mit Ihrer Proxy-Liste empfängt und jeder Anfrage zufällige IPs zuweist. Sie könnten beispielsweise die Funktion random.sample() verwenden, um jedes Mal eine IP völlig zufällig auszuwählen, aber das bedeutet, dass derselbe Proxy möglicherweise mehrmals hintereinander verwendet wird. In diesem Fall könntest du es so einrichten, dass eine IP-Adresse nach ihrer Verwendung aus der Proxy-Liste entfernt wird, sodass sie erst wieder verwendet wird, wenn alle anderen Adressen ebenfalls aufgebraucht sind.

Hier ist ein kurzes Beispiel in Python:

import random
import requests

proxy_pool = ["191.5.0.79:53281", "202.166.202.29:58794", "51.210.106.217:443", "5103.240.161.109:6666"]
URL = 'https://httpbin.org/get'

while len(proxy_pool) >0:
	random_proxy_list = random.sample(proxy_pool, k=1)
	random_proxy = {
		'http': 'http://' + random_proxy_list[0],
	}
	response = requests.get(URL, proxies=random_proxy)
	print(response.json())
	proxy_pool.remove(random_proxy_list[0])

Der Code durchläuft den Proxy-Pool nur einmal und wendet ihn auf eine einzige URL an, aber er sollte die Logik gut veranschaulichen. Die IPs habe ich übrigens von https://free-proxy-list.net/ bezogen. Es überrascht nicht, dass sie nicht funktionierten.

Das ist eigentlich das Problem beim Erstellen eines eigenen Rotators. Man braucht immer noch gute dedizierte oder zumindest gemeinsam genutzte IPs. Wenn man schon dabei ist, Proxys zu kaufen, kann man sich genauso gut nach einer Lösung umsehen, die die IPs auch für einen rotiert. Auf diese Weise verschwendet man keine zusätzliche Zeit mit der Erstellung oder kein zusätzliches Geld für die Auslagerung. Außerdem erhält man weitere Vorteile wie:

  • Eine schnelle Option, um nur IPs aus einer bestimmten Region zu rotieren;
  • Die Möglichkeit, auszuwählen, welche Arten von Proxys rotiert werden sollen (Rechenzentrum oder Privatadressen; regulär oder mobil; usw.)
  • Einrichtung statischer IPs für den Fall, dass Sie hinter einem Login-Bildschirm scrapen;
  • Automatische Wiederholungsversuche mit neuen IPs, wenn eine Anfrage fehlschlägt.

Nehmen wir WebScrapingAPI als Beispiel dafür, wie einfach es ist, eine Seite mit rotierenden Proxys zu scrapen. Der folgende Code stammt direkt aus der Dokumentation, wo es viele weitere ähnliche Codeausschnitte gibt:

import requests

url = "https://api.webscrapingapi.com/v1"

params = {
	"api_key":"XXXXXX",
	"url":"https://httpbin.org/get",
	"proxy_type":"datacenter",
	"country":"us"
}

response = requests.request("GET", url, params=params)

print(response.text)

Das ist der gesamte Code, den Sie benötigen, um eine URL unter Verwendung von Rechenzentrumsproxys aus den USA zu scrapen. Beachten Sie, dass es keine Liste von IPs zum Wechseln und nicht einmal einen Parameter dafür gibt. Das liegt daran, dass die API standardmäßig die Proxys wechselt. Wenn Sie dieselbe IP für mehrere Sitzungen verwenden möchten, fügen Sie einfach einen neuen Parameter hinzu:

import requests

url = "https://api.webscrapingapi.com/v1"

params = {
 "api_key":"XXXXXX",
 "url":"https://httpbin.org/get",
 "proxy_type":"datacenter",
 "country":"us",
 "session":"100"
}

response = requests.request("GET", url, params=params)

print(response.text)

Verwenden Sie einfach dieselbe Ganzzahl für den Parameter „session“, um für jede URL dieselbe statische IP zu nutzen.

Die besten Anbieter für rotierende Proxys

Da Sie nun wissen, wie rotierende Proxys den Web-Scraping-Prozess optimieren können, sollte der nächste Schritt darin bestehen, einen Proxy-Anbieter auszuwählen, der Ihren Anforderungen und Ressourcen entspricht. Ich habe eine Liste meiner Favoriten zusammengestellt, basierend auf verschiedenen Faktoren: Preisgestaltung, Proxy-Standorte und die Anzahl der Rechenzentrums- und Residential-Proxys.

1. WebScrapingAPI

Lassen Sie mich Ihnen eine Frage stellen: Was gibt es Besseres als schnelle, effiziente und erschwingliche Proxys für die Verbindung zu Ihrem Web-Scraper?

Die Antwort: Eine schnelle, effiziente und erschwingliche Web-Scraping-API zu erhalten, die all das für Sie erledigt. Ich könnte endlos über die Datenextraktionsfunktionen von WebScrapingAPI sprechen, aber konzentrieren wir uns vorerst auf die IPs. Der gesamte Proxy-Pool umfasst über 100 Millionen IPs, die über den ganzen Globus verteilt sind.

Anstatt die Bandbreitennutzung zu messen, wählen Sie ein Paket mit einer bestimmten Anzahl von API-Aufrufen. Jeder API-Aufruf entspricht einer gescrapten Seite, jeweils über eine andere IP, da, wie bereits erwähnt, die Proxy-Rotation standardmäßig aktiviert ist.

Es stehen fünf Pakete zur Auswahl, darunter eine kostenlose Option, die Ihnen 1.000 API-Aufrufe pro Monat (zusätzlich zur kostenlosen Testversion) bietet, damit Sie sich ein Bild vom Produkt machen können. Der Preis beginnt bei 20 $ für 200.000 API-Aufrufe, und die Konditionen werden bei größeren Paketen günstiger. Für spezielle Anwendungsfälle können wir einen maßgeschneiderten Plan ausarbeiten, der Ihren Anforderungen entspricht.

Wenn Sie Daten über Proxys von einem bestimmten Standort aus extrahieren möchten, stehen Ihnen zahlreiche Optionen zur Verfügung. Der Proxy-Pool für Rechenzentren verteilt sich auf 7 Länder, während private IP-Adressen aus 40 verschiedenen Regionen ausgewählt werden können. Sollte das nicht ausreichen, können Sie sich für ein individuelles Paket entscheiden, bei dem Sie 195 weitere Standorte zu Ihrer Liste hinzufügen können.

2. Oxylabs

Oxylabs verfolgt einen interessanten Ansatz bei der IP-Rotation. Normalerweise müssen Sie die IPs selbst rotieren, wenn Sie ein Paket wählen, aber Sie haben die Möglichkeit, den Proxy-Rotator als Add-on hinzuzukaufen.

Während einige Anwendungsfälle vielleicht nicht stark von rotierenden Proxys abhängen, ist dies bei der Datenextraktion unerlässlich. Wenn Sie sich also für Oxylabs-Proxys entscheiden, sollten Sie auch den Rotator erwerben.

Das Unternehmen bietet separate Pakete für Residential- und Datacenter-Proxys an. Die Nutzung von Residential-IPs wird nach der genutzten Bandbreite berechnet, wobei das günstigste Paket bei 300 $ pro Monat für 20 GB Datenverkehr beginnt. Datacenter-Proxys verfügen über unbegrenzte Bandbreite, und die Pakete unterscheiden sich darin, wie viele IPs Sie erhalten. Diese beginnen bei 160 $ pro Monat, und Sie müssen zwischen 100 US-IPs oder 60 Nicht-US-IPs wählen.

Insgesamt verfügen sie über mehr als 100 Millionen Residential-Proxys und 2 Millionen Rechenzentrums-Proxys. Es ist also unwahrscheinlich, dass Ihnen die IPs ausgehen.

Der Proxy-Pool erstreckt sich über ein beeindruckendes Gebiet – 186 verschiedene Standorte. Obwohl all diese Länder Residential-IPs haben, solltest du nicht erwarten, dass sie alle auch Datencenter-Proxys bieten.

3. Shifter

Shifter nutzt die hochmoderne Infrastruktur hinter Rechenzentrums-Proxys in vollem Umfang. Daher bieten sie neben der erwarteten Option für dedizierte IPs auch gemeinsam genutzte Rechenzentrums-Proxys an.

Was uns am Angebot von Shifter gefällt, ist die große Auswahl an Paketen. So beginnt beispielsweise der kleinste Shared-Proxy-Tarif bei 30 $ pro Monat für den Zugriff auf 10 Shared-Proxys. Am anderen Ende des Spektrums erhalten Sie 1000 Shared-Proxys für 2000 $. Kurz gesagt: Sie haben die Wahl.

Dedizierte Rechenzentrum-Proxys sind erwartungsgemäß teurer, wobei das günstigste Paket bei 25 $ für 5 IPs beginnt, auf die nur Sie Zugriff haben.

Wenn Sie an privaten IPs interessiert sind, beginnen die Preise bei 250 $ pro Monat für 10 spezielle Backconnect-Proxys, was bedeutet, dass ein Server die Proxy-Rotation übernimmt, sodass Sie sich nicht darum kümmern müssen.

Ihr Proxy-Pool umfasst mehr als 31 Millionen IPs, und Nutzer können die genaue Anzahl in ihrem Control Panel einsehen.

Geo-Targeting ist für jedes Land der Welt verfügbar, aber es gibt einen Haken: Sie können es nur mit privaten IP-Adressen nutzen.

4. SmartProxy

Neben seinem beeindruckenden Proxy-Pool bietet SmartProxy eine schöne Auswahl an Tools. Dazu gehören ein Proxy-Adressgenerator, Add-ons für Chrome und Firefox sowie ein Programm, mit dem Sie gleichzeitig von mehreren Browsern aus im Internet surfen können.

Aber kommen wir zurück zu den Proxys. SmartProxy bietet seinen Nutzern Zugriff auf über 40 Millionen private IP-Adressen sowie 40.000 Rechenzentrums-Proxys. Darüber hinaus stellen sie auch spezielle private Proxys bereit, die für das Scraping von Suchmaschinen konzipiert sind. Im Gegensatz zu den beiden anderen Optionen, deren Preis von der genutzten Bandbreite abhängt, haben Suchmaschinen-Proxy-Pakete eine feste Anzahl von Anfragen.

Während die meisten IPs aus den USA, Großbritannien, Kanada, Deutschland, Indien und Japan stammen, gibt es über hundert Standorte mit mindestens 50 IPs.

Preislich liegen die Pakete bei 50 $ für 100 GB Datenverkehr über Rechenzentrums-Proxys oder 75 $ für 5 GB mit Residential-Proxys. Wie zu erwarten, bieten umfangreichere Tarife günstigere Konditionen.

5. Bright Data

Bright Data bietet einen beeindruckenden Proxy-Pool, der sich aus Rechenzentrums-, Residential- und mobilen Proxys zusammensetzt. In Zahlen sieht das so aus:

  • Über 700.000 Rechenzentrums-IPs
  • Über 72.000.000 Residential-IPs
  • Über 85.000 statische Residential-IPs
  • Über 7.500.000 mobile IPs

Das sind zweifellos große Zahlen. Der Nachteil ist, dass auch die Preise ziemlich hoch sind. Zwar gibt es einige Pakete mit Festpreisen, doch am besten nutzt man den Preisrechner, um sich einen individuellen Tarif zusammenzustellen. Mit diesem Rechner legt man fest, wie viele IPs man möchte und welche maximale Bandbreite pro Monat benötigt, und erhält dann den genauen Preis.

Was die geografische Lage angeht, verfügt Bright Data über IPs in fast jedem Land der Welt. Auf ihrer Website gibt es eine Seite, auf der Sie die Standorte überprüfen können. Wenn Sie bestimmte Arten von Proxys in bestimmten Regionen benötigen, ist diese Seite sehr nützlich.

So wählen Sie einen Proxy-Anbieter aus

Einer der größten Vorteile von Web-Scraping und Proxys im Allgemeinen ist die große Auswahl an Optionen.

Da die meisten Menschen oder Unternehmen ein bestimmtes Ziel vor Augen haben, ist es nicht ungewöhnlich, einen Anbieter auszuwählen und dann festzustellen, dass er nicht gut passt. Das ist nicht ideal, kommt aber vor. Glücklicherweise bieten die meisten Unternehmen eine Testphase, ein kostenloses Paket oder zumindest eine Geld-zurück-Garantie an.

Daher ist der beste Rat, den ich Ihnen geben kann: Schauen Sie sich die verschiedenen Optionen an, vergleichen Sie die Angebote, und Sie werden bestimmt etwas finden, das zu Ihnen passt.

Neben Proxys benötigen Sie auch einen Web-Scraper, oder? Nun, von all den Alternativen sind hier 10 Produkte zur Datenextraktion, die Ihre Aufmerksamkeit verdienen.

Wenn du keine Zeit hast, hier ist eine kurze Empfehlung speziell für dich: Starte deine kostenlose Testversion von WebScrapingAPI, und du musst keine anderen Scraper ausprobieren!

Über den Autor
Raluca Penciuc, Full-Stack-Entwickler @ WebScrapingAPI
Raluca PenciucFull-Stack-Entwickler

Raluca Penciuc ist Full-Stack-Entwicklerin bei WebScrapingAPI. Sie entwickelt Scraper, verbessert Umgehungsstrategien und findet zuverlässige Wege, um die Erkennung auf Zielwebsites zu verringern.

Los geht’s

Sind Sie bereit, Ihre Datenerfassung zu erweitern?

Schließen Sie sich den über 2.000 Unternehmen an, die WebScrapingAPI nutzen, um Webdaten im Unternehmensmaßstab ohne zusätzlichen Infrastrukturaufwand zu extrahieren.