Die 11 besten Tipps, um zu vermeiden, dass Sie beim Web-Scraping blockiert oder mit einer IP-Sperre belegt werden

Ștefan Răcila am 07. April 2023

Web Scraping ist ein leistungsfähiges Instrument zur Extraktion wertvoller Daten aus Websites. Es ermöglicht Ihnen, den Prozess der Datenerfassung zu automatisieren, was sowohl für Unternehmen als auch für Privatpersonen eine große Zeitersparnis bedeutet. Doch mit großer Macht kommt auch große Verantwortung. Wenn Sie nicht vorsichtig sind, kann es passieren, dass Ihre IP-Adresse von der Website, auf der Sie Daten sammeln, gesperrt wird.

In diesem Artikel gebe ich 11 detaillierte Tipps, wie man das Web scrapen kann, ohne gesperrt oder auf eine schwarze Liste gesetzt zu werden. Wenn Sie diese Tipps befolgen, lernen Sie, wie Sie Ihre Identität beim Scrapen schützen, wie Sie die Nutzungsbedingungen von Websites einhalten und wie Sie Ihre Anfragen zeitlich so planen, dass die Zielwebsite nicht mit zu vielen Anfragen überlastet wird.

Warum werden Sie blockiert?

Web Scraping ist nicht immer erlaubt, da es als Verstoß gegen die Nutzungsbedingungen einer Website angesehen werden kann. Websites haben oft spezielle Regeln für die Verwendung von Web-Scraping-Tools. Sie können Scraping gänzlich verbieten oder einschränken, wie und welche Daten gescannt werden dürfen. Außerdem kann das Scraping einer Website die Server der Website stark belasten, was die Website für legitime Nutzer verlangsamen kann.

Es kann zu Problemen kommen, wenn Sie sensible Informationen wie persönliche Informationen oder Finanzdaten auslesen. Dies kann zu schwerwiegenden rechtlichen Problemen sowie zu potenziellen Verstößen gegen den Schutz der Privatsphäre und Datenschutzgesetze führen.

Außerdem verfügen einige Websites über Anti-Scraping-Maßnahmen, um Scraper zu erkennen und zu blockieren. Die Verwendung von Scraping kann als ein Versuch angesehen werden, diese Maßnahmen zu umgehen, was ebenfalls verboten wäre.

Generell ist es wichtig, die Nutzungsbedingungen einer Website zu respektieren und sicherzustellen, dass das Scraping auf ethische und legale Weise erfolgt. Wenn Sie sich nicht sicher sind, ob Scraping erlaubt ist, sollten Sie immer den Administrator oder das Rechtsteam der Website fragen.

1. Respektieren Sie die Nutzungsbedingungen der Website

Bevor Sie eine Website scannen, sollten Sie unbedingt die Nutzungsbedingungen der Website lesen und verstehen. Diese finden Sie in der Regel in der Fußzeile der Website oder auf einer separaten Seite mit den "Nutzungsbedingungen" oder dem "Roboter-Ausschluss". Es ist wichtig, dass Sie alle in den Nutzungsbedingungen aufgeführten Regeln und Vorschriften befolgen.

2. Beachten Sie die "robots.txt"-Datei

Das Robots Exclusion Protocol (REP) ist ein Standard, der von Websites verwendet wird, um mit Web-Crawlern und anderen automatischen Agenten wie Scrapern zu kommunizieren. Das REP wird durch eine Datei namens "robots.txt" implementiert, die auf dem Server der Website abgelegt wird. Diese Datei enthält Anweisungen für Web-Crawler und andere automatisierte Agenten, die ihnen mitteilen, auf welche Seiten oder Abschnitte der Website nicht zugegriffen werden darf und welche nicht indiziert werden dürfen.

Die robots.txt-Datei ist eine einfache Textdatei, die eine bestimmte Syntax verwendet, um anzugeben, welche Teile der Website vom Crawling ausgeschlossen werden sollen. Die Datei kann z. B. Anweisungen zum Ausschluss aller Seiten unter einem bestimmten Verzeichnis oder aller Seiten mit einem bestimmten Dateityp enthalten. Ein Web-Crawler oder Scraper, der die REP beachtet, liest die robots.txt-Datei beim Besuch einer Website und greift nicht auf Seiten oder Abschnitte zu, die in der Datei ausgeschlossen sind.

Als Beispiel finden Sie hier die robots.txt-Datei für unsere Website.

3. Proxys verwenden

Es gibt mehrere Gründe, warum Sie beim Web-Scraping einen Proxy verwenden können. Ein Proxy ermöglicht es Ihnen, Ihre Anfragen über eine andere IP-Adresse zu leiten. Dies kann dazu beitragen, Ihre Identität zu verschleiern und es Websites zu erschweren, Ihre Scraping-Aktivitäten zu verfolgen. Indem Sie Ihre IP-Adresse ändern, wird es für eine Website noch schwieriger, Ihren Scraper zu erkennen und zu blockieren. Es wird so aussehen, als kämen die Anfragen von verschiedenen Orten.

Geografische Beschränkungen umgehen

Einige Websites können geografische Beschränkungen haben, die nur bestimmten Nutzern auf der Grundlage ihrer IP-Adresse den Zugang erlauben. Durch die Verwendung eines Proxyservers, der sich am Zielort befindet, können Sie diese Beschränkungen umgehen und Zugang zu den Daten erhalten.

IP-Sperren vermeiden

Websites können zu schnell eintreffende Anfragen erkennen und blockieren. Daher ist es wichtig, dass Sie Ihre Anfragen zeitlich staffeln und nicht zu viele auf einmal senden. Mithilfe eines Proxys können Sie IP-Sperren vermeiden, indem Sie Anfragen über verschiedene IP-Adressen senden. Selbst wenn eine IP-Adresse gesperrt wird, können Sie das Scraping fortsetzen, indem Sie zu einer anderen wechseln.

4. Drehen Sie Ihre IP-Adresse

IP-Rotation ist eine Technik, die beim Web-Scraping eingesetzt wird, um Ihre Identität zu verschleiern und es Websites zu erschweren, Ihren Scraper zu erkennen und zu blockieren. Bei der IP-Rotation wird für jede Anfrage an eine Website eine andere IP-Adresse verwendet. Durch die Rotation der IP-Adressen können Sie Ihre Scraping-Aktivitäten eher wie normalen menschlichen Datenverkehr erscheinen lassen.

Es gibt zwei Möglichkeiten, die IP-Rotation beim Scrapen zu erreichen:

Verwendung eines Pools von Proxy-IPs

Bei dieser Methode wird ein Pool von IP-Adressen von verschiedenen Proxyservern verwendet. Bevor eine Anfrage an eine Website gestellt wird, wählt der Scraper nach dem Zufallsprinzip eine IP-Adresse aus dem Pool aus, die für diese Anfrage verwendet wird.

Verwendung eines Proxy-Rotationsdienstes

Bei dieser Methode wird ein Dienst verwendet, der die IP-Adresse für jede Anfrage an eine Website automatisch wechselt. Der Dienst unterhält einen Pool von IP-Adressen und weist jeder Anfrage automatisch eine andere IP-Adresse zu. Dies kann eine bequemere Methode der IP-Rotation sein, da Sie den IP-Pool nicht verwalten müssen, sondern dies dem Dienst überlassen können.

Die IP-Rotation kann auch dazu beitragen, das Scraping zu beschleunigen, da die Anfragen über mehrere IP-Adressen gleichzeitig gesendet werden können.

5. Verwenden Sie einen Headless Browser

Um beim Web Scraping nicht eingeschränkt zu werden, sollen Ihre Interaktionen mit der Ziel-Website so aussehen, als würden normale Benutzer die URLs besuchen. Die Verwendung eines Headless-Webbrowsers ist eine der besten Möglichkeiten, dies zu erreichen.

Ein Headless Browser ist ein Browser ohne grafische Benutzeroberfläche, der programmatisch oder über eine Befehlszeile gesteuert werden kann. Dadurch können Sie mit einer Website interagieren, als würden Sie sie manuell durchsuchen, und die Wahrscheinlichkeit, dass Ihr Scraper unentdeckt bleibt, kann sich erhöhen.

Sie können Puppeteer oder andere Browser-Automatisierungssuiten verwenden, um Headless-Browser in Ihren Crawler oder Scraper zu integrieren.

Besuchen Sie unsere ausführlichen Anleitungen zur Verwendung von Puppeteer mit NodeJS und zur Verwendung von Selenium mit Python, um mehr über die Verwendung von Headless-Browsern zu erfahren.

6. Echte Benutzer-Agenten verwenden

Die meisten gängigen Online-Browser, wie Google Chrome und Firefox, verfügen über einen Headless-Modus. Auch wenn Sie einen offiziellen Browser im Headless-Modus verwenden, müssen Sie dafür sorgen, dass sein Verhalten natürlich erscheint. Zu diesem Zweck werden in der Regel verschiedene spezielle Anfrage-Header wie User-Agent verwendet.

Der User Agent ist eine Zeichenfolge, die die Software, die Version und das Gerät identifiziert, von dem die Anfrage stammt. Diese Informationen können von der Website verwendet werden, um zu bestimmen, wie sie auf die Anfrage reagieren soll, und sie können auch dazu verwendet werden, den Ursprung der Anfrage zu verfolgen. Durch die Verwendung eines User-Agents, der einem häufig verwendeten Browser sehr ähnlich ist, erhöhen Sie die Wahrscheinlichkeit, dass Ihr Scraper unentdeckt bleibt.

7. Nutzen Sie einen Dienst zum Lösen von CAPTCHAs

CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) ist eine Technik, die von Websites verwendet wird, um automatisches Scraping zu verhindern. Dieser Test kann zwischen Menschen und Bots unterscheiden, indem er Aufgaben stellt, die nur von einem Menschen gelöst werden können. Zum Beispiel die Identifizierung einer Reihe von Zeichen in einem Bild. Bereiten Sie sich darauf vor, wenn sie erscheinen, indem Sie einen Drittanbieterdienst wie Anti Captcha oder 2Captcha verwenden .

Vielleicht sollten Sie darüber nachdenken, ob es noch rentabel ist, Websites zu scrapen, die im Laufe der Zeit kontinuierlich CAPTCHAs lösen müssen. Einige dieser CAPTCHA-Lösungsanbieter sind ziemlich langsam und teuer. WebScrapingAPI verfügt über fortschrittliche Anti-Bot-Mechanismen, die die Anzahl der auftretenden CAPTCHAs reduzieren. Wir verwenden auch eine automatische CAPTCHA-Lösung als Rückfall.

8. Verlangsamen

Senden Sie nicht zu viele Anfragen in einem kurzen Zeitraum, da dies dazu führen kann, dass eine Website erkennt, dass Sie sie auslesen. Dies könnte Ihre Anfragen blockieren. Es ist wichtig, dass Sie Ihre Anfragen zeitlich verteilen und nicht zu viele auf einmal senden.

Fügen Sie zufällige Verzögerungen zwischen Ihren Anfragen und Aktionen ein. Sie machen das Verhalten Ihres Crawlers oder Scrapers für die Zielwebsite unberechenbarer und verringern so die Wahrscheinlichkeit einer Entdeckung.

Vermeiden Sie das Scraping großer Datenmengen in kurzer Zeit. Das Scraping großer Datenmengen in einem kurzen Zeitraum löst die Spam-Filter der Website aus, und Sie werden blockiert. Daher ist es wichtig, das Scraping zu staffeln und das Scraping großer Datenmengen in einem kurzen Zeitraum zu vermeiden.

9. Achten Sie auf Honeypot-Fallen

Auf einigen Websites werden Honeypot-Fallen aufgestellt. Diese Mechanismen dienen dazu, Bots in Fallen zu locken, während sie von den tatsächlichen Nutzern unbemerkt bleiben.

Links, die im HTML-Code einer Website enthalten, aber für Menschen unsichtbar sind, gehören zu den einfachsten Honigtopf-Fallen. Um festzustellen, ob ein Link für echte Benutzer sichtbar ist oder nicht, sollten Sie seinen Berechnungsstil überprüfen.

Hier ist ein Codebeispiel mit zwei Funktionen, die eine Liste mit allen sichtbaren Links auf der Webseite zurückgeben. Die Funktion prüft für jeden Link, ob die Hintergrundfarbe die gleiche ist wie die Textfarbe. Sie hat auch einen Parameter namens strict. Dieser weist die Funktion an, zu prüfen, ob der Link angezeigt wird oder ob er sichtbar ist, denn nicht alle nicht angezeigten Links sind Honeypot-Fallen.

function getComputedBackgroundColor(elem) {

    let isTransparent

    do {

        const bgColor = window.getComputedStyle(elem).backgroundColor

        isTransparent = !/rgb\(|[1-9]{1,3}\)'$/.test(bgColor) // you can test this regex on regex101.com



        if (isTransparent) {

            elem = elem.parentElement

        }

    } while (isTransparent)



    return window.getComputedStyle(elem).backgroundColor

}



function filterLinks(strict) { 

	let allLinksArray = Array.from(document.querySelectorAll('a[href]')); 

	console.log('There are ' + allLinksArray.length + ' total links'); 

    

	let filteredLinks = allLinksArray.filter(link => { 

		let linkCss = window.getComputedStyle(link); 

		let isDisplayed = linkCss.getPropertyValue('display') != 'none'; 

		let isVisible = linkCss.getPropertyValue('visibility') != 'hidden';

        let computedBgColor = window.getComputedBackgroundColor(link)

        let textColor = linkCss.textColor



        if (strict) {

            if (isDisplayed && isVisible && computedBgColor !== textColor) return link; 

        } else {

            if (computedBgColor !== textColor) return link; 

        }

	}); 

    

	console.log('There are ' + filteredLinks.length + ' visible links'); 

}

Normalerweise werden Honeypot-Fallen in Kombination mit Tracking-Systemen eingesetzt, die automatisierte Anfragen identifizieren können. Auf diese Weise kann die Website selbst dann, wenn künftige Anfragen nicht von der gleichen IP-Adresse stammen, erkennen, dass sie ähnlich sind.

10. Google Cache verwenden

Google Cache ist eine Funktion der Google-Suche, mit der Nutzer eine im Cache gespeicherte Version einer Webseite anzeigen können. Auch wenn die ursprüngliche Website nicht mehr erreichbar ist oder die Webseite entfernt wurde. Diese Funktion kann beim Web-Scraping nützlich sein, da Sie damit auf eine Webseite zugreifen können, selbst wenn die ursprüngliche Website Ihre IP oder Ihren Scraper blockiert.

Um auf den zwischengespeicherten Wert einer Webseite zuzugreifen, müssen Sie der URL der Zielwebseite "https://webcache.googleusercontent.com/search?q=cache:" voranstellen. Um zum Beispiel die Preisseite von WebScrapingAPI abzurufen, könnten Sie "https://webcache.googleusercontent.com/search?q=cache:https://www.webscrapingapi.com/pricing" abrufen.

Die Verwendung des Google-Caches kann eine gute Alternative beim Scrapen sein, aber bedenken Sie, dass er eingeschränkt sein könnte. Er könnte alte Versionen der Website-Daten enthalten. Die Häufigkeit, mit der Google eine Website crawlt, hängt von der Popularität ab, so dass die Daten auf nicht so beliebten Websites veraltet sein könnten.

Ein weiterer Vorbehalt könnte sein, dass Sie keine Abfrageparameter oder Anker für die Zielwebseite verwenden können. Außerdem weisen einige Websites Google aktiv an, ihre Seiten nicht in den Cache zu stellen.

11. Einen Fachmann anheuern

Die Beauftragung eines professionellen Scraping-Dienstes kann Ihnen helfen, häufige Scraping-Fallen zu vermeiden und Ihnen saubere, zuverlässige Daten zu liefern. WebScrapingAPI ist einer der besten Scraping-Anbieter, der über die notwendige Infrastruktur, Bandbreite und ein IP-Rotationssystem verfügt, um umfangreiche Scraping-Aufträge zu bearbeiten.

Bitte beachten Sie, dass es sich bei diesen Tipps um allgemeine Richtlinien handelt und nicht um eine Garantie dafür, dass Sie nicht gesperrt werden. Jede Website ist anders und hat andere Anti-Scraping-Maßnahmen. Aber wenn Sie diese Tipps befolgen, erhöhen Sie die Chancen, dass Ihr Scraper reibungslos und unentdeckt funktioniert.

Zusammenfassung

Zusammenfassend lässt sich sagen, dass es wichtig ist, Web-Scraping verantwortungsbewusst durchzuführen, um zu vermeiden, dass man blockiert oder auf eine schwarze Liste gesetzt wird. Wenn Sie die 11 Tipps aus diesem Artikel befolgen, schützen Sie Ihre Identität. Sie respektieren die Nutzungsbedingungen der Website und vermeiden es, die Website mit zu vielen Anfragen zu überlasten. Denken Sie daran, dass Sie immer auf ethische und legale Weise scrapen. Auf diese Weise können Sie sicherstellen, dass Sie nicht von Websites blockiert werden.

Außerdem lohnt es sich, einen professionellen Scraping-Dienst zu beauftragen. Er kann Ihnen saubere, zuverlässige Daten liefern und Ihnen dabei helfen, häufige Scraping-Fallen zu vermeiden. Ein professioneller Scraping-Dienstleister verfügt über fortschrittlichere Tools und Techniken für das Web-Scraping. Solche Tools können bei der Handhabung von CAPTCHA, der Behandlung von Fehlern und der Umgehung von Anti-Scraping-Maßnahmen helfen. Sie können Ihnen Zeit und Geld sparen und Ihnen helfen, auf der richtigen Seite des Gesetzes zu bleiben.

WebScrapingAPI bietet eine 7-tägige Testphase an, für die keine Karte erforderlich ist, so dass Sie es ausprobieren können .