Was sind ISP Proxies und wie man sie für Web Scraping verwendet

Mihnea-Octavian Manolache am 22. Februar 2023

Proxys sind ein sehr wichtiger Aspekt des Web Scraping. Und es gibt hauptsächlich drei Arten von Proxys. Es gibt Rechenzentrums-, Privat- und ISP-Proxys. Jeder Typ hat seine eigenen Anwendungsfälle. Dennoch gibt es wenig bis gar keine Informationen darüber, was sie bedeuten und wann sie beim Web Scraping eingesetzt werden sollten. Vor allem ISP-Proxys werden von technischen Redakteuren nicht behandelt. Deshalb werden wir uns heute auf diese Art von Proxys konzentrieren. Am Ende des heutigen Artikels sollten Sie über ein solides Verständnis verfügen:

Was ist eine Vollmacht im Allgemeinen und wie funktioniert sie?
Was ist die Definition eines ISP-Proxys und was sind seine Besonderheiten?
Wie und warum man ISP-Proxys für Web Scraping verwendet

Was ist ein Proxyserver?

Kurz gesagt, Proxys sind Middleware zwischen Clients und Servern. Ein Proxy fungiert als Vermittler für Anfragen von Clients, die Ressourcen von anderen Servern benötigen. Der Ablauf einer Client-Proxy-Server-Beziehung sieht in etwa so aus:

Ein Client verbindet sich mit dem Proxy-Server und fordert einen Dienst von einem Zielserver an
Der Proxy-Server wertet die Anfrage aus, verbindet sich mit dem Zielserver und holt den angeforderten Dienst ab
Nach dem Empfang überträgt er den Dienst unverändert an den Kunden zurück.

Abgesehen davon werden Proxys auch dazu verwendet:

die Sicherheit erhöhen
Verbesserung der Netzleistung
Netzwerkverkehr filtern
unerwünschte Websites blockieren
geografische Beschränkungen des Internetzugangs zu umgehen

Was ist die Definition von ISP-Proxys?

Wie in der Einleitung erläutert, gibt es im Wesentlichen drei Arten von Proxys. Für die ersten beiden ist die Definition ziemlich einfach. Rechenzentrums-Proxys sind Proxys, die sich im Besitz von Rechenzentren befinden. Das bedeutet, dass ihre IP-Adressen mit dem Rechenzentrum verbunden sind. Bei Wohnsitz-Proxys ist die IP-Adresse mit einem physischen Standort verbunden. Außerdem sind diese IP-Adressen auf eine bestimmte Person oder Organisation registriert.

Wenn es um IPS-Proxys geht, gibt es ein wenig Verwirrung. Zunächst einmal steht ISP für Internet Service Provider. Und wie Sie sich vorstellen können, stammen alle privaten IPs von ISPs. Nun, dieser kleine Aspekt beantwortet die Frage teilweise. ISP-Proxys liegen irgendwo zwischen den Proxys für Rechenzentren und den Proxys für Privatanwender.

In den meisten Fällen handelt es sich bei einem ISP-Proxy um einen privaten Proxy, der auf einem Rechner im Rechenzentrum gehostet wird. Daher haben diese Proxys die gleichen Vorteile wie die beiden anderen. Und die Liste der Vorteile umfasst in den meisten Fällen (aber nicht nur):

IP-Legitimität - die Verwendung einer privaten IP-Adresse senkt das Risiko einer Bot-Erkennung
Geschwindigkeit - das Hosting des Proxy auf einem Server im Rechenzentrum erhöht die Leistung des Dienstes

Warum ISP-Proxys für Web-Scraping verwenden?

Die Verwendung von Proxys beim Web-Scraping ist ein weit verbreitetes Bedürfnis. Bevor ich jedoch auf ISP-Proxys im Einzelnen eingehe, möchte ich Ihnen erklären, warum Proxys für Scraping wichtig sind. Lassen Sie uns zunächst einmal definieren, was Web Scraping ist. Auf einer hohen Ebene bedeutet Web Scraping den Zugriff auf einen Server mit dem Ziel, Ressourcen zu extrahieren. Und das geschieht in der Regel mit automatisierter Software. Außerdem werden beim Web Scraping in der Regel viele Anfragen in kurzer Zeit an den Zielserver gesendet.

Wie Sie sich vorstellen können, bedeutet dies eine große Belastung für den Server. Aus diesem Grund sind Webplattformen in der Regel nicht erfreut über den Zugriff von Scrapern auf ihre Server. Um den Zugriff durch automatisierte Software zu verhindern, verwenden diese Plattformen in der Regel eine Art von Erkennungs- und Präventionssystem. Und eine dieser Erkennungsmethoden ist so einfach wie möglich: die Überprüfung der IP-Adresse. Es entspricht dem gesunden Menschenverstand, dass IP-Adressen, die mit Rechenzentren verbunden sind, eher Bots beherbergen.

Und ich denke, das beantwortet die Frage ganz gut. Wenn wir die wichtigsten Vorteile berücksichtigen, die zuvor besprochen wurden, können wir die Antwort besser verstehen. Wir verwenden ISP-Proxys beim Web-Scraping in erster Linie, um unsere Erfolgsquote zu erhöhen und gleichzeitig eine optimale Leistung beizubehalten. Aber das ist noch nicht alles. Lassen Sie uns andere Szenarien untersuchen:

#Nr. 1: Zugang zu standortspezifischen Websites

Sicherlich sind Sie schon auf Websites gestoßen, die Besucher aus bestimmten Regionen ansprechen. In der Suchmaschinenoptimierung ist dieses Konzept als geostandortspezifischer Inhalt bekannt. Dabei überprüfen Websites zunächst die Herkunft der IP-Adresse des Kunden. Wenn diese mit ihrem Muster übereinstimmt (z. B. eine US-Website, die sich nur an US-Kunden wendet), wird dem Kunden die Verbindung gestattet. Stammt der Kunde hingegen aus einem anderen Land, sperrt die Website den Zugang.

Beim Web Scraping ist dies ein sehr häufiges Szenario. Als Abhilfe werden wir daher Proxys aus dem betreffenden Land verwenden. Probieren Sie zunächst einen Proxy für ein Rechenzentrum aus. Wenn Sie dann immer noch gesperrt werden, können Sie ISP-Proxys ausprobieren, die wiederum eine höhere Erfolgsquote bieten.

#Nr. 2: Versenden einer großen Anzahl von Anfragen

Wenn wir auf viele Ressourcen auf einem Server zugreifen wollen, können wir diesen Server stark belasten. Die Server sehen das in der Regel als Missbrauch an und blockieren die IP-Adresse, die all diese Anfragen sendet. Beim Web Scraping verwenden wir ein rotierendes System, das zwischen den Proxys der Internetanbieter wechselt, um eine Blockierung zu vermeiden. Auf diese Weise "denkt" der Server, dass verschiedene private Nutzer auf ihn zugreifen. Daher werden die Massenanfragen nicht blockiert.

Wie verwendet man ISP-Proxys für Web-Scraping?

Es gibt hauptsächlich zwei Arten von Web-Scrapern:

Basierend auf einfachen HTTP-Clients
Fähig zum Rendern von JavaScript

Die erste Variante ist nicht so komplex und in der Regel schneller, da sie kein Rendering von JavaScript erfordert. Es ist nichts anderes als das Senden eines `curl`-Befehls. Die meisten modernen Websites sind jedoch stark auf JavaScript angewiesen. Ein gutes Beispiel ist die Verwendung eines einfachen HTTP-Clients zum Scrapen einer mit React oder Next JS erstellten Webplattform. In solchen Szenarien erhalten Sie wahrscheinlich eine HTML-Datei zurück, in der steht: "Bitte aktivieren Sie JavaScript". Hier ist ein gutes Beispiel für eine Anwendung, die ich mit React gebaut habe:

~ » curl https://<REACT_APP>.com

...<body><noscript>You need to enable JavaScript to run this app.</noscript><div id="root"></div></body></html>

Wenn Sie also einen modernen Scraper erstellen wollen, müssen Sie höchstwahrscheinlich eine automatisierte Version eines Webbrowsers verwenden. Dieser hilft Ihnen beim Rendern von JavaScript und bei der Durchführung verschiedener Aktionen auf Ihrem Ziel.

Normalerweise verwende ich JavaScript und Puppeteer für meine Beispiele. Aber ich denke, dieses Mal werde ich zu meiner ersten und liebsten Programmiersprache wechseln: Python. Und die beste Lösung für Web-Treiber in Python ist Selenium. Schauen wir uns also an, wie man einen Web Scraper mit Selenium und ISP-Proxys erstellt:

#1: Ein neues Projekt erstellen

Als Erstes müssen wir ein neues Verzeichnis erstellen, in dem unsere Dateien gespeichert werden. Als nächstes öffnen Sie das Projekt in Ihrer bevorzugten IDE (bei mir ist es Visual Studio Code) und öffnen ein neues Terminal. Um ein neues Terminal in VSCode zu öffnen, gehen Sie zu Terminal > Neues Terminal. Wir erstellen eine neue virtuelle Umgebung innerhalb des Projekts und aktivieren sie:

~ " python3 -m venv env && source env/bin/activate

Erstellen Sie in Ihrem Projekt eine neue Datei "scraper.py" und fügen Sie etwas Code hinzu. Die Grundstruktur eines Scrapers mit Selenium ist aus Sicht der funktionalen Programmierung wie folgt:

from selenium import webdriver

def scrape_page(url):

 driver = webdriver.Chrome()

 driver.get(url)

 return driver.page_source

Und das war's. In 5 Zeilen Code:

Wir schalten einen automatischen Browser ein
Wir greifen auf unser Ziel zu
Und wir sammeln seine Ressourcen.

Aber denken Sie daran, dass wir ISP-Proxys mit Selenium verwenden wollen. So dass unser Browser nicht der heimlichste ist, aber sagen wir, mehr unentdeckbar. Glücklicherweise sind die Dinge in Python recht einfach (und genau deshalb liebe ich es). Hier ist, wie wir Proxys in Selenium einführen:

from selenium import webdriver

def scrape_page(url, proxy):

 options = webdriver.ChromeOptions()

 options.add_argument('--proxy-server=%s' % proxy)

 driver = webdriver.Chrome(options=options)

 driver.get(url)

 return driver.page_source

print(scrape_page('http://httpbin.org/ip', '75.89.101.60:80'))

Wir haben nur weitere Zeilen innerhalb der Funktion hinzugefügt. Die letzte Zeile dient dazu, die Funktion aufzurufen. Wenn Sie das Skript jetzt ausführen, sollten wir wahrscheinlich sehen können, dass die Anfrage von 75.89.101.60 kommt. Für dieses Beispiel habe ich einen kostenlosen Proxyserver von hier verwendet. Wenn Sie jedoch einen echten Scraper erstellen möchten, sollten Sie sich nach zuverlässigeren Quellen umsehen. Vorzugsweise Proxy-Anbieter, die auch ISP-Proxys anbieten.

Wie kann man die Herkunft einer IP-Adresse überprüfen?

Es gibt einige Möglichkeiten, um zu überprüfen, ob eine IP-Adresse von einem ISP-Proxy stammt. Aber da wir heute über DevOps sprechen, sollten Sie sich wahrscheinlich mit der Verwendung des Terminals vertraut machen. Heute werde ich Ihnen `whois` vorstellen.

In Unix und Unix-ähnlichen Betriebssystemen ist `whois` eingebaut. Es ist ein Befehlszeilendienstprogramm, mit dem Benutzer Informationen über Ziele nachschlagen können. Und die Ziele können entweder Domänennamen oder IP-Adressen sein. Lassen Sie uns also ein neues Terminalfenster öffnen und diesen Befehl testen.

Als erstes senden wir einen `curl`-Befehl an die von ipify.org angebotene API. Auf diese Weise können Sie Ihre eigene IP-Adresse abrufen und den Test mit ihr durchführen. Wenn Sie mit `curl` nicht vertraut sind, lesen Sie einfach meinen Artikel über die Verwendung von curl.

~ » curl api.ipify.org

<IP_ADDRESS>

Now that we have an IP address to test on, just send your `whois` command. I’ve used my own IP, but feel free to replace <IP_ADDRESS> with yours:

~ » whois <IP_ADDRESS>

...

inetnum:        82.78.XX.0 - 82.78.XX.XX

netname:        RO-RESIDENTIAL

descr:          RCS & RDS Residential CGN

descr:          City: Bucuresti

remarks:        INFRA-AW

country:        RO

...

Die Ausgabe ist umfangreicher, aber ich wollte, dass Sie einen Überblick darüber erhalten, wie leicht eine IP-Adresse eines Wohnorts ermittelt werden kann. Es gibt auch öffentliche APIs, die IPs von Rechenzentren aufspüren, wie z. B. die von incolumitas angebotene .

Schlussfolgerungen

Heute haben wir sowohl die DevOps- als auch die Coding-Fähigkeiten beim Aufbau eines Web Scrapers untersucht. Zum Abschluss möchte ich Ihnen eine einfache Frage stellen. Kann man sagen, dass ISP-Proxys nichts anderes sind als Rechenzentrums-Proxys, die sich hinter einer privaten IP-Adresse verstecken? Ich denke, das ist nicht die genaueste Definition, aber sie beschreibt diese Proxys ziemlich gut.

Bei Web Scraping API verwenden wir sowohl private als auch Rechenzentrums-Proxys. Das liegt daran, dass einige Ziele den Datenverkehr für Nicht-Residenten erlauben, während andere dies nicht tun. Wenn Sie mehr darüber erfahren möchten, wie Sie Proxys mit unserer API verwenden können, schauen Sie sich unsere Dokumentation an.