Kurzfassung: XPath ist eine Abfragesprache, mit der man HTML-/XML-Bäume anhand von Pfaden, Attributen oder Textinhalten durchsuchen kann. Dieser Leitfaden behandelt die XPath-Syntax, Achsen und Funktionen und zeigt anschließend funktionierende Python-Scraper mit lxml und Selenium. Außerdem erhältst du ein übersichtliches Spickzettel sowie einen Abschnitt zur Fehlerbehebung für die häufigsten XPath-Fehler.
XPath (XML Path Language) ist eine Abfragesprache, die mithilfe von Pfadausdrücken Knoten aus XML- und HTML-Dokumenten auswählt. Wenn Ihnen CSS-Selektoren für Ihre Scraping-Aufgaben zu eingeschränkt erscheinen, ist Web-Scraping mit XPath der logische nächste Schritt.
Während CSS-Selektoren sich im DOM nur vorwärts und nach unten bewegen, durchläuft XPath das DOM in jede Richtung: nach oben zu einem übergeordneten Element, seitwärts zu einem gleichrangigen Element oder tief in verschachtelte untergeordnete Elemente hinein. Es kann Elemente auch anhand ihres sichtbaren Textes abgleichen – eine Fähigkeit, die CSS gänzlich fehlt. Diese Funktionen machen XPath für das Web-Scraping besonders wertvoll auf komplexen oder schlecht strukturierten Seiten.
In diesem Tutorial lernen Sie die grundlegende XPath-Syntax kennen (Pfade, Prädikate, Achsen, Funktionen), erfahren, wie Sie Ausdrücke in Ihrem Browser testen, und erstellen echte Python-Scraper mit lxml und Selenium. Wir behandeln auch die häufigen Fallstricke, die XPath-Selektoren in der Produktion zum Scheitern bringen, und wie man sie vermeidet.




