Was sind ISP Proxies und wie man sie für Web Scraping verwendet
Mihnea-Octavian Manolache am 22. Februar 2023

Proxys sind ein sehr wichtiger Aspekt des Web Scraping. Und es gibt hauptsächlich drei Arten von Proxys. Es gibt Rechenzentrums-, Privat- und ISP-Proxys. Jeder Typ hat seine eigenen Anwendungsfälle. Dennoch gibt es wenig bis gar keine Informationen darüber, was sie bedeuten und wann sie beim Web Scraping eingesetzt werden sollten. Vor allem ISP-Proxys werden von technischen Redakteuren nicht behandelt. Deshalb werden wir uns heute auf diese Art von Proxys konzentrieren. Am Ende des heutigen Artikels sollten Sie über ein solides Verständnis verfügen:
- Was ist eine Vollmacht im Allgemeinen und wie funktioniert sie?
- Was ist die Definition eines ISP-Proxys und was sind seine Besonderheiten?
- Wie und warum man ISP-Proxys für Web Scraping verwendet
Was ist ein Proxyserver?
Kurz gesagt, Proxys sind Middleware zwischen Clients und Servern. Ein Proxy fungiert als Vermittler für Anfragen von Clients, die Ressourcen von anderen Servern benötigen. Der Ablauf einer Client-Proxy-Server-Beziehung sieht in etwa so aus:
- Ein Client verbindet sich mit dem Proxy-Server und fordert einen Dienst von einem Zielserver an
- Der Proxy-Server wertet die Anfrage aus, verbindet sich mit dem Zielserver und holt den angeforderten Dienst ab
- Nach dem Empfang überträgt er den Dienst unverändert an den Kunden zurück.
Abgesehen davon werden Proxys auch dazu verwendet:
- die Sicherheit erhöhen
- Verbesserung der Netzleistung
- Netzwerkverkehr filtern
- unerwünschte Websites blockieren
- geografische Beschränkungen des Internetzugangs zu umgehen
Was ist die Definition von ISP-Proxys?
Wie in der Einleitung erläutert, gibt es im Wesentlichen drei Arten von Proxys. Für die ersten beiden ist die Definition ziemlich einfach. Rechenzentrums-Proxys sind Proxys, die sich im Besitz von Rechenzentren befinden. Das bedeutet, dass ihre IP-Adressen mit dem Rechenzentrum verbunden sind. Bei Wohnsitz-Proxys ist die IP-Adresse mit einem physischen Standort verbunden. Außerdem sind diese IP-Adressen auf eine bestimmte Person oder Organisation registriert.
Wenn es um IPS-Proxys geht, gibt es ein wenig Verwirrung. Zunächst einmal steht ISP für Internet Service Provider. Und wie Sie sich vorstellen können, stammen alle privaten IPs von ISPs. Nun, dieser kleine Aspekt beantwortet die Frage teilweise. ISP-Proxys liegen irgendwo zwischen den Proxys für Rechenzentren und den Proxys für Privatanwender.
In den meisten Fällen handelt es sich bei einem ISP-Proxy um einen privaten Proxy, der auf einem Rechner im Rechenzentrum gehostet wird. Daher haben diese Proxys die gleichen Vorteile wie die beiden anderen. Und die Liste der Vorteile umfasst in den meisten Fällen (aber nicht nur):
- IP-Legitimität - die Verwendung einer privaten IP-Adresse senkt das Risiko einer Bot-Erkennung
- Geschwindigkeit - das Hosting des Proxy auf einem Server im Rechenzentrum erhöht die Leistung des Dienstes
Warum ISP-Proxys für Web-Scraping verwenden?
Die Verwendung von Proxys beim Web-Scraping ist ein weit verbreitetes Bedürfnis. Bevor ich jedoch auf ISP-Proxys im Einzelnen eingehe, möchte ich Ihnen erklären, warum Proxys für Scraping wichtig sind. Lassen Sie uns zunächst einmal definieren, was Web Scraping ist. Auf einer hohen Ebene bedeutet Web Scraping den Zugriff auf einen Server mit dem Ziel, Ressourcen zu extrahieren. Und das geschieht in der Regel mit automatisierter Software. Außerdem werden beim Web Scraping in der Regel viele Anfragen in kurzer Zeit an den Zielserver gesendet.
Wie Sie sich vorstellen können, bedeutet dies eine große Belastung für den Server. Aus diesem Grund sind Webplattformen in der Regel nicht erfreut über den Zugriff von Scrapern auf ihre Server. Um den Zugriff durch automatisierte Software zu verhindern, verwenden diese Plattformen in der Regel eine Art von Erkennungs- und Präventionssystem. Und eine dieser Erkennungsmethoden ist so einfach wie möglich: die Überprüfung der IP-Adresse. Es entspricht dem gesunden Menschenverstand, dass IP-Adressen, die mit Rechenzentren verbunden sind, eher Bots beherbergen.
Und ich denke, das beantwortet die Frage ganz gut. Wenn wir die wichtigsten Vorteile berücksichtigen, die zuvor besprochen wurden, können wir die Antwort besser verstehen. Wir verwenden ISP-Proxys beim Web-Scraping in erster Linie, um unsere Erfolgsquote zu erhöhen und gleichzeitig eine optimale Leistung beizubehalten. Aber das ist noch nicht alles. Lassen Sie uns andere Szenarien untersuchen:
#Nr. 1: Zugang zu standortspezifischen Websites
Sicherlich sind Sie schon auf Websites gestoßen, die Besucher aus bestimmten Regionen ansprechen. In der Suchmaschinenoptimierung ist dieses Konzept als geostandortspezifischer Inhalt bekannt. Dabei überprüfen Websites zunächst die Herkunft der IP-Adresse des Kunden. Wenn diese mit ihrem Muster übereinstimmt (z. B. eine US-Website, die sich nur an US-Kunden wendet), wird dem Kunden die Verbindung gestattet. Stammt der Kunde hingegen aus einem anderen Land, sperrt die Website den Zugang.
Beim Web Scraping ist dies ein sehr häufiges Szenario. Als Abhilfe werden wir daher Proxys aus dem betreffenden Land verwenden. Probieren Sie zunächst einen Proxy für ein Rechenzentrum aus. Wenn Sie dann immer noch gesperrt werden, können Sie ISP-Proxys ausprobieren, die wiederum eine höhere Erfolgsquote bieten.
#Nr. 2: Versenden einer großen Anzahl von Anfragen
Wenn wir auf viele Ressourcen auf einem Server zugreifen wollen, können wir diesen Server stark belasten. Die Server sehen das in der Regel als Missbrauch an und blockieren die IP-Adresse, die all diese Anfragen sendet. Beim Web Scraping verwenden wir ein rotierendes System, das zwischen den Proxys der Internetanbieter wechselt, um eine Blockierung zu vermeiden. Auf diese Weise "denkt" der Server, dass verschiedene private Nutzer auf ihn zugreifen. Daher werden die Massenanfragen nicht blockiert.
Wie verwendet man ISP-Proxys für Web-Scraping?
Es gibt hauptsächlich zwei Arten von Web-Scrapern:
- Basierend auf einfachen HTTP-Clients
- Fähig zum Rendern von JavaScript
Die erste Variante ist nicht so komplex und in der Regel schneller, da sie kein Rendering von JavaScript erfordert. Es ist nichts anderes als das Senden eines `curl`-Befehls. Die meisten modernen Websites sind jedoch stark auf JavaScript angewiesen. Ein gutes Beispiel ist die Verwendung eines einfachen HTTP-Clients zum Scrapen einer mit React oder Next JS erstellten Webplattform. In solchen Szenarien erhalten Sie wahrscheinlich eine HTML-Datei zurück, in der steht: "Bitte aktivieren Sie JavaScript". Hier ist ein gutes Beispiel für eine Anwendung, die ich mit React gebaut habe:
~ » curl https://<REACT_APP>.com
...<body><noscript>You need to enable JavaScript to run this app.</noscript><div id="root"></div></body></html>
Wenn Sie also einen modernen Scraper erstellen wollen, müssen Sie höchstwahrscheinlich eine automatisierte Version eines Webbrowsers verwenden. Dieser hilft Ihnen beim Rendern von JavaScript und bei der Durchführung verschiedener Aktionen auf Ihrem Ziel.
Normalerweise verwende ich JavaScript und Puppeteer für meine Beispiele. Aber ich denke, dieses Mal werde ich zu meiner ersten und liebsten Programmiersprache wechseln: Python. Und die beste Lösung für Web-Treiber in Python ist Selenium. Schauen wir uns also an, wie man einen Web Scraper mit Selenium und ISP-Proxys erstellt:
#1: Ein neues Projekt erstellen
Als Erstes müssen wir ein neues Verzeichnis erstellen, in dem unsere Dateien gespeichert werden. Als nächstes öffnen Sie das Projekt in Ihrer bevorzugten IDE (bei mir ist es Visual Studio Code) und öffnen ein neues Terminal. Um ein neues Terminal in VSCode zu öffnen, gehen Sie zu Terminal > Neues Terminal. Wir erstellen eine neue virtuelle Umgebung innerhalb des Projekts und aktivieren sie:
~ " python3 -m venv env && source env/bin/activate
Erstellen Sie in Ihrem Projekt eine neue Datei "scraper.py" und fügen Sie etwas Code hinzu. Die Grundstruktur eines Scrapers mit Selenium ist aus Sicht der funktionalen Programmierung wie folgt:
from selenium import webdriver
def scrape_page(url):
driver = webdriver.Chrome()
driver.get(url)
return driver.page_source
Und das war's. In 5 Zeilen Code:
- Wir schalten einen automatischen Browser ein
- Wir greifen auf unser Ziel zu
- Und wir sammeln seine Ressourcen.
Aber denken Sie daran, dass wir ISP-Proxys mit Selenium verwenden wollen. So dass unser Browser nicht der heimlichste ist, aber sagen wir, mehr unentdeckbar. Glücklicherweise sind die Dinge in Python recht einfach (und genau deshalb liebe ich es). Hier ist, wie wir Proxys in Selenium einführen:
from selenium import webdriver
def scrape_page(url, proxy):
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=%s' % proxy)
driver = webdriver.Chrome(options=options)
driver.get(url)
return driver.page_source
print(scrape_page('http://httpbin.org/ip', '75.89.101.60:80'))
Wir haben nur weitere Zeilen innerhalb der Funktion hinzugefügt. Die letzte Zeile dient dazu, die Funktion aufzurufen. Wenn Sie das Skript jetzt ausführen, sollten wir wahrscheinlich sehen können, dass die Anfrage von 75.89.101.60 kommt. Für dieses Beispiel habe ich einen kostenlosen Proxyserver von hier verwendet. Wenn Sie jedoch einen echten Scraper erstellen möchten, sollten Sie sich nach zuverlässigeren Quellen umsehen. Vorzugsweise Proxy-Anbieter, die auch ISP-Proxys anbieten.
Wie kann man die Herkunft einer IP-Adresse überprüfen?
Es gibt einige Möglichkeiten, um zu überprüfen, ob eine IP-Adresse von einem ISP-Proxy stammt. Aber da wir heute über DevOps sprechen, sollten Sie sich wahrscheinlich mit der Verwendung des Terminals vertraut machen. Heute werde ich Ihnen `whois` vorstellen.
In Unix und Unix-ähnlichen Betriebssystemen ist `whois` eingebaut. Es ist ein Befehlszeilendienstprogramm, mit dem Benutzer Informationen über Ziele nachschlagen können. Und die Ziele können entweder Domänennamen oder IP-Adressen sein. Lassen Sie uns also ein neues Terminalfenster öffnen und diesen Befehl testen.
Als erstes senden wir einen `curl`-Befehl an die von ipify.org angebotene API. Auf diese Weise können Sie Ihre eigene IP-Adresse abrufen und den Test mit ihr durchführen. Wenn Sie mit `curl` nicht vertraut sind, lesen Sie einfach meinen Artikel über die Verwendung von curl.
~ » curl api.ipify.org
<IP_ADDRESS>
Now that we have an IP address to test on, just send your `whois` command. I’ve used my own IP, but feel free to replace <IP_ADDRESS> with yours:
~ » whois <IP_ADDRESS>
...
inetnum: 82.78.XX.0 - 82.78.XX.XX
netname: RO-RESIDENTIAL
descr: RCS & RDS Residential CGN
descr: City: Bucuresti
remarks: INFRA-AW
country: RO
...
Die Ausgabe ist umfangreicher, aber ich wollte, dass Sie einen Überblick darüber erhalten, wie leicht eine IP-Adresse eines Wohnorts ermittelt werden kann. Es gibt auch öffentliche APIs, die IPs von Rechenzentren aufspüren, wie z. B. die von incolumitas angebotene .
Schlussfolgerungen
Heute haben wir sowohl die DevOps- als auch die Coding-Fähigkeiten beim Aufbau eines Web Scrapers untersucht. Zum Abschluss möchte ich Ihnen eine einfache Frage stellen. Kann man sagen, dass ISP-Proxys nichts anderes sind als Rechenzentrums-Proxys, die sich hinter einer privaten IP-Adresse verstecken? Ich denke, das ist nicht die genaueste Definition, aber sie beschreibt diese Proxys ziemlich gut.
Bei Web Scraping API verwenden wir sowohl private als auch Rechenzentrums-Proxys. Das liegt daran, dass einige Ziele den Datenverkehr für Nicht-Residenten erlauben, während andere dies nicht tun. Wenn Sie mehr darüber erfahren möchten, wie Sie Proxys mit unserer API verwenden können, schauen Sie sich unsere Dokumentation an.
Nachrichten und Aktualisierungen
Bleiben Sie auf dem Laufenden mit den neuesten Web Scraping-Anleitungen und Nachrichten, indem Sie unseren Newsletter abonnieren.
We care about the protection of your data. Read our <l>Privacy Policy</l>.Privacy Policy.

Ähnliche Artikel

Entdecken Sie die Komplexität des Scrapens von Amazon-Produktdaten mit unserem ausführlichen Leitfaden. Von Best Practices und Tools wie der Amazon Scraper API bis hin zu rechtlichen Aspekten erfahren Sie, wie Sie Herausforderungen meistern, CAPTCHAs umgehen und effizient wertvolle Erkenntnisse gewinnen.


Starten Sie mit WebScrapingAPI, der ultimativen Web-Scraping-Lösung! Sammeln Sie Echtzeitdaten, umgehen Sie Anti-Bot-Systeme und genießen Sie professionellen Support.


Erfahren Sie, welcher Browser am besten geeignet ist, um Cloudflare-Erkennungssysteme beim Web-Scraping mit Selenium zu umgehen.
