Wie man LinkedIn im Jahr 2026 scrapen kann: Eine Python-Anleitung

TL;DR: Beim Scraping von LinkedIn muss man eine aggressive Authentifizierungsbarriere, Verhaltens-Tracking und TLS-Fingerprinting umgehen. Dieser Leitfaden bietet dir einen Entscheidungsbaum mit Methoden für jeden Seitentyp, funktionierende Python-Muster für Stellenanzeigen, Profile und Unternehmen (versteckte API, JSON-LD, bei Bedarf Selenium) sowie eine umfassende Anti-Block-Checkliste für 2026.

Wenn du schon einmal versucht hast, herauszufinden, wie man LinkedIn scrapt, bist du wahrscheinlich auf dieselbe Hürde gestoßen wie wir alle: eine aggressive Anmeldeaufforderung, die schon nach wenigen Seitenaufrufen erscheint, gefolgt von stillen 999-Antworten und schließlich gar nichts Nützlichem mehr. Das Scraping von LinkedIn ist die Praxis, öffentliche Daten (Profile, Unternehmen, Stellenanzeigen und Suchergebnisse) direkt mithilfe von HTTP-Clients, Headless-Browsern oder versteckten APIs zu extrahieren, ohne sich bei einem persönlichen Konto anzumelden. Technisch gesehen ist dies schwieriger als das Scraping einer typischen E-Commerce-Website, aber es ist keineswegs unmöglich.

Dieser Leitfaden ist eine Code-First-Anleitung für Entwickler, Dateningenieure und Growth-Ops-Teams, die öffentliche LinkedIn-Daten benötigen, ohne Konten zu verbrennen oder blind Proxys zu rotieren. Wir beginnen damit, was Sie realistisch abgreifen können, analysieren, wie LinkedIn Scraper erkennt, und gehen drei Python-Methoden (eine versteckte Stellen-API, JSON-LD-Parsing und einen Headless-Browser-Fallback) anhand eines Entscheidungsbaums durch, damit Sie für jeden Seitentyp den kostengünstigsten und zuverlässigsten Weg wählen können. Die Anti-Block-Ebene und der rechtliche Kontext kommen am Ende, da sie unabhängig davon gelten, welche Methode Sie wählen.

Welche LinkedIn-Daten Sie realistisch abrufen können

Bevor wir uns damit befassen, wie man LinkedIn scrapt, ist es hilfreich, ehrlich zu sein, was von außerhalb der Authentifizierungsbarriere erreichbar ist. Vier Seitentypen sind ohne Anmeldung nutzbar: öffentliche Profilseiten, öffentliche Unternehmensseiten, einzelne Stellenanzeigen und die /jobs/search Ergebnisseite. Alles andere (Sales Navigator, der Personensuchindex, Nachrichtengrafiken, die vollständige Mitarbeiterliste auf einer Unternehmensseite) liegt hinter der Authentifizierung und einer Grenze der Nutzungsbedingungen, die dieser Leitfaden nicht überschreiten wird.

Innerhalb dieses öffentlichen Bereichs gibt es dennoch echten Wert. Sie erhalten die wichtigsten Felder, die die meisten Teams für Recruiting-Informationen, Vertriebsakquise und Arbeitsmarktforschung benötigen, solange Sie akzeptieren, dass die Tiefe begrenzt ist und Sie möglicherweise Quellen kombinieren müssen, um Lücken zu füllen.

Öffentliche LinkedIn-Felder nach Seitentyp

Die folgende Tabelle ordnet jeden öffentlichen Seitentyp seinen extrahierbaren Feldern und Anwendungsfällen zu. Viele Anfragen nach „Wir wollen LinkedIn scrapen“ verpuffen, sobald ein Stakeholder sieht, was ohne Anmeldung verfügbar ist.

Seitentyp	Öffentliche Felder (typisch)	Nützlich für
Profil (`/in/...`)	Name, Titel, Überschrift, Standort, Zusammenfassung, Profil-URL, Arbeitgeber	Akquise, Vorauswahl durch Personalvermittler
Unternehmen (`/company/...`)	Name, Branche, Hauptsitz, Follower, Website, Anzahl offener Stellen	Kundenrecherche, Erstellung von ICPs
Stellenanzeige (`/jobs/view/...`)	Titel, Unternehmen, Standort, Veröffentlichungsdatum, Beschreibung, Berufserfahrung	Arbeitsmarktanalyse, Stellenbörsen
Stellensuche (`/jobs/search?...`)	Liste der Stellenanzeigen sowie Metadaten zur Paginierung	Umfassende Stellenbündelung in großem Maßstab

Wenn ein Feld nicht in dieser Tabelle enthalten ist, gehen Sie davon aus, dass die Authentifizierungsbarriere im Weg steht. Eine separate Übersicht über Jobdaten ist eine sinnvolle ergänzende Lektüre.

Wie LinkedIn Scraper erkennt und blockiert

Wer lernt, wie man LinkedIn scrapt, stellt schnell fest, dass die Abwehrmaßnahmen mehrschichtig sind und nicht einfach aus einem Menü ausgewählt werden können. Es gibt drei parallel laufende Ebenen, die alle in ein internes Signal einfließen: einen Betrugswert pro Besucher, der entscheidet, ob Ihre Anfrage genehmigt, hinter einer Anmeldeaufforderung soft-blockiert oder komplett abgelehnt wird.

Die erste Ebene ist die Authentifizierungsbarriere. Anonyme Besucher werden in der Regel bereits nach drei bis fünf Profilaufrufen zur Anmeldung gezwungen, was bedeutet, dass jeder Scraper, der Dutzende von Profilen unter derselben Identität abfragt, bereits beim ersten Versuch scheitert. Die zweite Ebene ist das Verhaltens-Tracking. LinkedIn überwacht den Zeitpunkt der Anfragen, den Navigationsfluss, die Mausaktivität und die Referrer-Muster. Ein Mensch lädt nicht 100 Profile pro Minute; ein ungebremster Scraper tut dies jedoch, und dieses einzelne Signal reicht aus, um die Sitzung zu markieren. Die dritte Ebene ist das Request-Fingerprinting. LinkedIn überprüft die IP-Qualität (Privathaushalt versus Rechenzentrum), den JA3-Hash aus Ihrem TLS-Handshake, Header und Cookies sowie Geräteattribute. Das Senden eines Standard- python-requests/2.x User-Agent von einer AWS-IP führt zu schlechten Bewertungen in allen drei Bereichen gleichzeitig.

Betrachten Sie diese Ebenen als additiv, nicht als alternativ. Das Bereinigen einer davon bei gleichzeitiger Ignorierung der anderen verschiebt Ihren Betrugswert selten so stark, dass es eine Rolle spielt. Eine Einführung zur Vermeidung von Scraper-Sperren lohnt es sich, als Lesezeichen zu speichern, bevor Sie skalieren.

Entscheidung für die richtige Scraping-Methode bei LinkedIn: Ein Entscheidungsbaum

Bei der Entscheidung, wie LinkedIn gescrapt werden soll, sollten Sie standardmäßig das leichteste Tool wählen, das die benötigten Daten liefert. LinkedIn ist als Single-Page-Anwendung aufgebaut, sodass seine Daten über drei Mechanismen fließen, von denen jeder einer eigenen idealen Scraping-Methode zugeordnet ist.

Server-gerendertes HTML. Einige Seiten liefern in der anfänglichen HTML-Antwort genügend Daten, um sie mit Requests und BeautifulSoup zu parsen. Das ist auf LinkedIn heute selten, trifft aber immer noch auf einige Unternehmens-Unterseiten und Entitätsseiten zu.
JSON, das in <script> Tags. Öffentliche Profil- und Unternehmensseiten betten einen <script type="application/ld+json"> Block ein, der die Felder widerspiegelt, die die sichtbare Seite rendert. Das Parsen ist schneller, kostengünstiger und weitaus weniger anfällig als das Verfolgen von CSS-Selektoren durch das DOM.
XHR / versteckte APIs. Die Infinite-Scroll-Funktionen (Stellen-Feed, Unternehmensstellenliste, Suche) rufen interne Endpunkte mit vorhersehbaren Abfrageparametern auf. Das direkte Nachspielen dieser Aufrufe umgeht das Rendern vollständig.

Die Faustregel: Versuchen Sie es bei Profil- und Unternehmensseiten zunächst mit JSON-LD, greifen Sie bei Stellenangeboten und der Suche auf die versteckte API zurück und nutzen Sie einen Headless-Browser nur, wenn beides fehlschlägt. Die meisten Teams, die herausfinden wollen, wie man LinkedIn in großem Maßstab scrapt, geben zu viel Geld für Selenium aus, um Aufgaben zu erledigen, die ein 30-zeiliges Requests-Skript bewältigen kann.

Methode 1: So scrapen Sie LinkedIn-Stellenangebote über die versteckte „Jobs-Guest“-API

Der Endpunkt für die Jobsuche ist die am einfachsten zu scrapende Oberfläche von LinkedIn: Er ist absichtlich für nicht authentifizierte Besucher zugänglich und wird durch einen einzigen start Abfrageparameter paginiert. Zum Zeitpunkt der Erstellung dieses Artikels lautet der Pfad /jobs-guest/jobs/api/seeMoreJobPostings/search, und die Antwort liefert HTML-Stellenanzeigen statt JSON. LinkedIn wechselt interne Endpunkte regelmäßig, daher sollten Sie den Pfad vor dem Produktionslauf in DevTools erneut überprüfen.

Ein minimalistisches Python-Skript, das mit BeautifulSoup geparst wird, sieht wie folgt aus:

import requests
from bs4 import BeautifulSoup

BASE = "https://www.linkedin.com/jobs-guest/jobs/api/seeMoreJobPostings/search"
HEADERS = {
    "User-Agent": "Mozilla/5.0",
    "Accept-Language": "en-US,en;q=0.9",
}

def fetch_page(keywords, location, start=0):
    params = {"keywords": keywords, "location": location, "start": start}
    r = requests.get(BASE, params=params, headers=HEADERS, timeout=20)
    r.raise_for_status()
    return r.text

def parse_cards(html):
    soup = BeautifulSoup(html, "html.parser")
    for card in soup.select("li"):
        title = card.select_one(".base-search-card__title")
        company = card.select_one(".base-search-card__subtitle")
        loc = card.select_one(".job-search-card__location")
        link = card.select_one("a.base-card__full-link")
        if title and link:
            yield {
                "title": title.get_text(strip=True),
                "company": company.get_text(strip=True) if company else None,
                "location": loc.get_text(strip=True) if loc else None,
                "url": link["href"].split("?")[0],
            }

jobs, start = [], 0
while True:
    html = fetch_page("python developer", "Berlin", start)
    batch = list(parse_cards(html))
    if not batch:
        break
    jobs.extend(batch)
    start += 25

Die Seitengröße beträgt fünfundzwanzig Karten. Die Stoppbedingung ist ein leeres Resultset, nicht eine feste Seitenanzahl, da LinkedIn die Ergebnisse nach Region und Aktualität filtert. Leiten Sie jobs in den Python-Modul csv oder in einen Pandas-Frame ein, und Sie erhalten einen LinkedIn-Stellenfeed, ohne einen Browser zu verwenden. Ein BeautifulSoup-Tutorial behandelt die Selektor-Muster, falls Sie eine Auffrischung benötigen.

Methode 2: So scrapen Sie LinkedIn-Profile und -Unternehmen über JSON-LD

Der Schachzug zur Informationsgewinnung bei Profil- und Unternehmensseiten besteht darin, CSS-Selektoren komplett zu überspringen und den <script type="application/ld+json"> Block zu parsen, den LinkedIn beim serverseitigen Rendering einfügt. JSON-LD ist strukturiert, stabil und ändert sich weitaus seltener als das sichtbare DOM. Um es auf einer beliebigen öffentlichen LinkedIn-URL zu finden, öffne DevTools und suche //script[@type='application/ld+json'] im Element-Panel.

import json
import requests
from bs4 import BeautifulSoup

HEADERS = {
    "User-Agent": "Mozilla/5.0",
    "Accept-Language": "en-US,en;q=0.9",
}

def scrape_ld(url):
    r = requests.get(url, headers=HEADERS, timeout=20)
    r.raise_for_status()
    soup = BeautifulSoup(r.text, "html.parser")
    blob = soup.find("script", {"type": "application/ld+json"})
    if not blob:
        return None
    return json.loads(blob.string)

# Public profile
profile = scrape_ld("https://www.linkedin.com/in/some-public-handle/")
# Public company
company = scrape_ld("https://www.linkedin.com/company/openai/")

Bei einem öffentlichen Profil sind Felder wie name, jobTitle, worksFor, addressund manchmal alumniOf. Bei einem Unternehmen sind name, description, url, numberOfEmployeesund einen address Block. Alles, was LinkedIn hinter einer Anmeldung verbirgt (vollständige Mitarbeiterliste, gemeinsame Kontakte, Kontaktdaten), ist im JSON-LD nicht vorhanden; das ist kein Parsing-Fehler, sondern die Authentifizierungsbarriere.

Weichen Sie nur bei Feldern, die JSON-LD nicht offenlegt, auf HTML-Parsing aus, wie beispielsweise beim Karussell „Ähnliche Seiten“ auf Unternehmensseiten, und behandeln Sie diese Selektoren als den anfälligsten Teil Ihrer Pipeline. Dort entfällt auch der größte Teil des Wartungsaufwands, da LinkedIn sein Frontend-Markup in der Regel alle zwei bis vier Wochen umgestaltet.

Methode 3: Headless-Browser für die Suche und verzögert geladene Abschnitte

Greifen Sie nur dann auf Selenium oder Playwright zurück, wenn die ersten beiden Methoden nicht ausreichen. Häufige Anwendungsfälle sind Personensuchergebnisse, die verzögert geladene Registerkarte „Jobs bei diesem Unternehmen“ und jede Seite, auf der wichtige Daten erst nach einem Scroll-Ereignis erscheinen. Wenn Sie so etwas noch nie zuvor erstellt haben, ist eine Einführung in Headless-Browser eine nützliche Voraussetzung, und das Tutorial „Selenium mit Python“ führt Sie bei Bedarf durch die Treiberkonfiguration.

Der minimale Arbeitsablauf sieht wie folgt aus: Starten Sie einen Chromium-Treiber, navigieren Sie mit einem realistischen User-Agent, warten Sie, bis sich die Netzwerkverbindung stabilisiert hat, scrollen Sie, bis der relevante Block geladen ist, und greifen Sie dann entweder mit einem Selenium-Locator auf das DOM zu oder übergeben Sie driver.page_source an BeautifulSoup übergeben. Melden Sie sich nicht über Selenium bei einem echten LinkedIn-Konto an. Diese Kombination verstößt gegen die Nutzungsbedingungen von LinkedIn und ist der schnellste Weg, um eine dauerhafte Sperrung des Kontos zu riskieren.

Headless-Browser sind für sich genommen keine Anti-Bot-Lösung. Vanilla Puppeteer und Playwright lassen sich auf JA3- und navigator Objektebene leicht zu identifizieren, daher benötigst du weiterhin die Proxy- und Pacing-Einstellungen aus dem nächsten Abschnitt. Wenn eine Aufgabe ohne Browser erledigt werden kann, erledige sie ohne Browser.

Anti-Block-Checkliste: Proxys, Header, JA3 und Pacing

Wenn Teams, die herausfinden wollen, wie man LinkedIn scrapt, von einem einmaligen Skript zu einem wiederkehrenden Crawl wechseln, liegt der Fehler fast immer im Anti-Bot-Schutz und nicht im Parsing. Arbeiten Sie diese Liste der Reihe nach ab.

Verwende Residential-Proxys, keine aus Rechenzentren. LinkedIn führt eine strenge Liste von ASNs aus Rechenzentren. Residential-Pools rotieren echte ISP-IPs von Endnutzern und sind viel schwerer zu erkennen. Ein Leitfaden zur Verwendung von Proxys mit Python Requests ist der beste Ausgangspunkt, wenn du die Rotation noch nicht eingerichtet hast.
Achte auf deinen JA3-Fingerabdruck. Ein einfacher requests hat einen TLS-Fingerabdruck, der mit keinem echten Browser übereinstimmt. Tools, die curl_cffi den JA3-Hash eines echten Browsers umschließen oder wiedergeben, bestehen diese Prüfung; rohe requests nicht.
Sende einen vollständigen Header-Satz. Mindestens: einen aktuellen User-Agent, Accept, Accept-Language, Accept-Encodingund ein plausibler Referer. Fehlt Accept-Language allein ist ein deutliches Anzeichen für einen Scraper.
Gehen Sie es langsam an. Begrenzen Sie die Parallelität, variieren Sie die Verzögerungen zwischen einer und fünf Sekunden und vermeiden Sie Bursts.
Wechseln Sie die Identität, nicht nur die IP-Adresse. Kombinieren Sie jeden IP-Wechsel mit einem neuen User-Agent und einem neuen Cookie-Jar, damit LinkedIn die Sitzungen nicht miteinander verknüpfen kann.

Wenn du nach dieser Liste immer noch soft-blockiert bist, liegt das Problem am Volumen, nicht an der Konfiguration. Mach langsamer.

Ist das Scraping von LinkedIn legal?

Der wegweisende US-Fall ist hiQ Labs gegen LinkedIn, in dem die Gerichte allgemein entschieden haben, dass das Scraping öffentlich zugänglicher LinkedIn-Daten keinen Verstoß gegen den Computer Fraud and Abuse Act darstellt. Der Rechtsstreit dauerte von etwa 2017 bis 2022 und endete nach der Veröffentlichung der Urteile des Ninth Circuit; für den aktuellen Stand und den genauen Umfang der Entscheidung ist die EFF-Fallseite zu hiQ gegen LinkedIn eine übersichtliche und für Laien verständliche Referenz. Zwei Dinge leistet dieses Urteil nicht: Es hebt die Nutzungsbedingungen von LinkedIn nicht auf, die den automatisierten Zugriff während der Anmeldung weiterhin verbieten, und es gilt nicht außerhalb der US-Gerichtsbarkeit. Wenn Sie im kommerziellen Maßstab scrapen, betrachten Sie dies als Hintergrundinformation und konsultieren Sie einen Rechtsbeistand, bevor Sie Ihr Produkt auf den Markt bringen. Eine allgemeine Einführung zur Frage, ob Web-Scraping legal ist, ist ebenfalls lesenswert.

Wichtige Erkenntnisse

Passen Sie die Methode an den Seitentyp an, nicht an Ihre Gewohnheiten. JSON-LD ist die beste Wahl für Profil- und Unternehmensseiten, die Hidden-Jobs-API eignet sich am besten für Stellenanzeigen und die Suche, und ein Headless-Browser ist die Ausweichlösung, nicht die Standardoption.
Drei Verteidigungsebenen, ein Betrugs-Score. Die Authentifizierungsbarriere, das Verhaltens-Tracking und TLS/Header-Fingerprinting fließen alle in denselben internen Score ein; die Bereinigung nur einer dieser Ebenen ändert selten das Ergebnis.
Residential-Proxys plus JA3-fähige HTTP-Clients sind die Grundvoraussetzung. Mit Datencenter-IPs allein erreichen Sie keine funktionierende Pipeline auf LinkedIn.
Melden Sie sich niemals über Automatisierung an. Dies verstößt gegen die Nutzungsbedingungen und führt zur dauerhaften Sperrung von Konten, unabhängig davon, wie sorgfältig Ihre Selektoren sind.
Planen Sie für Ausfälle. LinkedIn überarbeitet sein Frontend in der Regel alle paar Wochen; entwerfen Sie Selektoren und JSON-Parser so, dass Sie sie in einer einzigen Datei austauschen können.

FAQ

Kann ich LinkedIn scrapen, ohne mich bei einem Konto anzumelden?

Ja, aber nur den öffentlichen Bereich. Öffentliche Profilseiten, Unternehmensseiten, einzelne Stellenanzeigen und der /jobs/search Endpunkt sind ohne Authentifizierung erreichbar. Sales Navigator, der Personen-Suchindex, Daten zu gemeinsamen Kontakten und die vollständige Mitarbeiterliste auf einer Unternehmensseite sind dies nicht. Anonyme Scraper werden zudem nach etwa drei bis fünf Profilaufrufen zur Anmeldung aufgefordert; planen Sie daher von Anfang an eine Rotation von IP-Adressen und Identitäten ein.

Sollte ich die offizielle LinkedIn-API anstelle von Scraping verwenden?

Wahrscheinlich nicht für die allgemeine Datenerfassung. Die offizielle LinkedIn-API ist stark eingeschränkt: Sie ist für Partnerintegrationen wie Bewerbungen, das Teilen von Beiträgen oder Marketing-Automatisierung konzipiert und liefert nicht die Art von öffentlichen Profil- oder Unternehmensdaten, die die meisten Scraping-Projekte benötigen. Die meisten Teams, die die offizielle API evaluieren, greifen letztendlich auf das Scraping der öffentlichen Website zurück, um die Lücken der API zu schließen.

Welche Art von Proxys eignet sich am besten für das Scraping von LinkedIn: Residential- oder Rechenzentrums-Proxys?

Residential-Proxys, mit Rotation. LinkedIn unterhält strenge Sperrlisten für Rechenzentrums-ASNs (AWS, GCP, OVH und ähnliche), sodass IPs aus Rechenzentren sehr schnell gedrosselt werden oder eine 999-Antwort erhalten. Residential-Pools leiten den Datenverkehr über echte ISP-IPs von Privatkunden weiter und sehen aus wie gewöhnlicher Nutzerverkehr. Für einmalige Abfragen mit geringem Volumen funktionieren auch mobile Proxys, aber für die meisten Aufgaben sind sie überdimensioniert und teurer.

Wie kann ich erkennen, ob mein LinkedIn-Scraper kurz davor ist, blockiert zu werden?

Achten Sie auf drei Frühwarnsignale. Erstens: ein Anstieg der Antwortzeiten (LinkedIn verzögert oft, bevor es sperrt). Zweitens: eine Zunahme von Seiten, die statt Inhalt eine Anmelde-Zwischenseite anzeigen. Drittens: HTTP-999-Antworten, die den LinkedIn-spezifischen Code „Sie wurden markiert“ darstellen. Wenn einer der drei Werte über eine Stunde hinweg ansteigt, pausieren Sie den Crawl und wechseln Sie die Identitäten, bevor es eskaliert.

Wie oft ändert LinkedIn seine Seitenstruktur und macht Scraper unbrauchbar?

Häufig. Frontend-HTML- und CSS-Selektoren ändern sich in der Regel alle zwei bis vier Wochen, interne Voyager-API-Endpunkte wechseln etwa alle vier bis acht Wochen, und JSON-LD-Strukturen bleiben meist mehrere Monate lang stabil. Verankern Sie Ihre Scraper nach Möglichkeit in JSON-LD oder versteckten APIs, isolieren Sie instabile CSS-Selektoren in einem eigenen Modul und planen Sie jeden Monat einen kleinen Wartungsdurchlauf ein.

Zusammenfassung

Um herauszufinden, wie man LinkedIn in großem Maßstab scrapt, geht es weniger um clevere Tricks als vielmehr um Disziplin. Wählen Sie die leichteste Methode pro Seitentyp, respektieren Sie die Authentifizierungsbarriere und behandeln Sie die Anti-Bot-Schicht als oberste Priorität statt als nachträglichen Einfall. JSON-LD wird den Großteil Ihrer Arbeit an Profilen und Unternehmen übernehmen. Der „jobs-guest“-Endpunkt wird den Großteil Ihrer Arbeit am Stellenmarkt übernehmen. Sparen Sie sich Selenium für die wirklich dynamischen Oberflächen auf, führen Sie es niemals im angemeldeten Zustand aus und investieren Sie Ihre Entwicklungszeit lieber in Proxys, Pacing und JA3-Hygiene als in ein ausgefeiltes Selenium-Skript.

Die Wartung ist die andere Hälfte der Arbeit. LinkedIn überarbeitet sein Frontend in einem Rhythmus, der sich in Wochen misst. Entwerfen Sie daher Parser, die Fehler deutlich anzeigen, protokollieren Sie strukturelle Änderungen und isolieren Sie Selektoren, damit eine Korrektur eine Änderung an einer einzigen Datei ist und keine Neuprogrammierung erfordert.

Wenn Sie die Proxy-, Fingerprint- und CAPTCHA-Ebene lieber ganz überspringen und sich auf die Daten selbst konzentrieren möchten, übernimmt die Scraper-API von WebScrapingAPI die Anforderungsseite (IP-Rotation, JA3, Header, Wiederholungsversuche) hinter einem einzigen Endpunkt und gibt rohes HTML zurück, das Sie mit demselben Requests-plus-BeautifulSoup-Code parsen können, den Sie oben bereits geschrieben haben. Die Scraping-Logik bleibt Ihre Sache; das Entsperren ist unsere.