Web Scraping leicht gemacht: Die Bedeutung von Data Parsing

Suciu Dan am 26. April 2023

Das Parsen von Daten ist der Prozess der Analyse und Umwandlung strukturierter oder unstrukturierter Daten in ein spezifischeres Format, das von verschiedenen Softwaresystemen verwendet und verstanden werden kann.

Zum besseren Verständnis dieses Konzepts sind hier einige Beispiele für Parser aufgeführt:

CSV-Parser: zum Parsen und Konvertieren von CSV-Dateien (Comma Separated Values) in besser verwendbare Formate
JSON-Parser: zum Parsen und Konvertieren von JSON-Daten (JavaScript Object Notation) in besser verwendbare Formate
Regex-Parser: zum Parsen und Extrahieren bestimmter Textmuster unter Verwendung regulärer Ausdrücke
Compiler: zum Parsen und Konvertieren von in einer Programmiersprache geschriebenem Code in maschinenlesbaren Code in einer anderen Programmiersprache
SQL-Parser: zum Analysieren und Interpretieren einer SQL-Abfrage, zum Ausführen des Befehls und zum Zurückgeben der Ergebnisse

Beim Web Scraping ist das Parsen von Daten unerlässlich. Websites bestehen aus HTML, einer großartigen Auszeichnungssprache für die Anzeige von Informationen auf einem Bildschirm, aber nicht so gut für Maschinen zu lesen.

Wenn wir eine Website scrapen, holen wir uns eine lange HTML-Zeichenkette. Um mit diesen Informationen etwas Sinnvolles anzufangen, müssen wir sie parsen.

Dabei wird die Bedeutung des Parsens von Daten beim Web-Scraping ebenso behandelt wie die verschiedenen verfügbaren Arten von Datenparsern, z. B. HTML-Parsing-Bibliotheken für verschiedene Programmiersprachen, reguläre Ausdrücke und die Erstellung eines eigenen Parsers.

Erstellen eines Datenparsers

Ein guter Datenparser kann auf der Grundlage vordefinierter Regeln relevante Informationen aus einem HTML-Dokument extrahieren, unabhängig von der Art des verwendeten Parsers. Der Parsing-Prozess besteht aus zwei Hauptschritten: lexikalische Analyse und syntaktische Analyse.

Bei der lexikalischen Analyse werden einzelne Wörter und Symbole in einem Dokument analysiert und in kleinere, besser handhabbare Teile zerlegt.

Dazu gehört die Tokenisierung, d. h. die Zerlegung eines Dokuments in einzelne Token, z. B. Schlüsselwörter, Symbole und Zahlen.

Werfen wir einen Blick auf dieses einfache HTML-Dokument:

<html>

  <head>

	<title>Scraping</title>

  </head>

  <body>

	<h1>Welcome to my scraping page</h1>

	<p>This is a paragraph.</p>

	<ul>

  	<li>First Scraping Item</li>

  	<li>Second Scraping Item</li>

	</ul>

  </body>

</html>

Der lexikalische Analyseprozess würde dieses Dokument in einzelne Elemente wie z.B.:

`<html>`
`<head>`
`<title>`
Kratzen
`</title>`
`<body>`
`<h1>`
Willkommen auf meiner Scraping-Seite".
`</h1>`
[...]
`</body>`
`</html>`

Auf diese Weise wird jedes Element des HTML-Dokuments in kleinere, besser zu handhabende Token aufgeteilt, die weiter analysiert und verarbeitet werden können.

Bei der syntaktischen Analyse wird die Struktur eines Dokuments analysiert und festgestellt, wie die einzelnen Token zueinander in Beziehung stehen. Dies beinhaltet die Identifizierung von Mustern und Strukturen in den Daten und die Verwendung dieser Informationen zur Erstellung einer baumartigen Struktur, die als Parse-Baum bezeichnet wird.

For example, the <html> tag is the root element, and it contains the <head> and <body> elements. Within the <head> element, there is a <title> element, and within the <body> element, there are <h1>, <p>, and <a> elements.

By identifying these elements and their relationships, you can construct a parse tree, with the <html> element as the root, <head> and <body> as its children, and so on.

You can use the parse tree to extract specific data from the HTML document, such as the text within the <title> element, or the href attribute of the <a> element.

Beste HTML-Parsing-Bibliotheken

In diesem Abschnitt werden wir einige der beliebtesten HTML-Parsing-Bibliotheken, die für verschiedene Programmiersprachen verfügbar sind, untersuchen. Diese Bibliotheken erleichtern die Extraktion strukturierter Daten aus einem HTML-Dokument und können ein guter Ausgangspunkt für Ihr Web-Scraping-Projekt sein.

Von Pythons Scrapy und BeautifulSoup bis hin zu NodeJSs Cheerio und Javas JSoup werden wir einen Blick auf jede Bibliothek werfen und Beispiele für ihre Verwendung geben.

Ob Sie Anfänger oder erfahrener Entwickler sind, dieser Abschnitt vermittelt Ihnen ein solides Verständnis der Möglichkeiten, die Ihnen bei der Arbeit mit HTML-Daten zur Verfügung stehen.

Fangen wir an!

Cheerio

Cheerio ist eine JavaScript-Bibliothek, die es Entwicklern ermöglicht, das DOM eines HTML- oder XML-Dokuments zu analysieren, zu manipulieren und zu navigieren, ähnlich wie jQuery es tut. Dieser Artikel geht viel mehr ins Detail über Cheerio und spricht über verschiedene Anwendungsfälle.

Hier ist eine einfache Cheerio-Implementierung:

const cheerio = require('cheerio');

const $ = cheerio.load('<h2 class="title">Hello, World!</h2>');

console.log($('h2').text())

Wenn Sie diesen Code ausführen, erhalten Sie die folgende Ausgabe:

Hallo, Welt!

Scrapy und BeautifulSoup

Scrapy und BeautifulSoup sind Bibliotheken für Web-Scraping in Python.

Scrapy ist ein leistungsfähiges Web-Scraping-Framework, mit dem Sie strukturierte Daten aus Websites extrahieren können, indem Sie Selektoren oder XPath-Ausdrücke verwenden.

Hier ist ein einfaches Scrapy-Beispiel:

import scrapy

class QuotesSpider(scrapy.Spider):

    name = "quotes"

    def start_requests(self):

        urls = [

            'https://quotes.toscrape.com/page/1/',

            'https://quotes.toscrape.com/page/2/',

        ]

        for url in urls:

            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):

        page = response.url.split("/")[-2]

        filename = f'quotes-{page}.html'

        with open(filename, 'wb') as f:

            f.write(response.body)

        self.log(f'Saved file {filename}')

Sie können den Code mit diesem Befehl ausführen:

Schrottkrabbel-Angebote

BeautifulSoup ist eine Bibliothek, die es Ihnen ermöglicht, HTML- und XML-Dokumente zu parsen und Daten aus ihnen zu extrahieren, ähnlich wie ein Webbrowser es tut.

Hier ist eine einfache BeautifulSoup-Implementierung:

from bs4 import BeautifulSoup

html_doc = """<html><head><title>Scraper</title></head>

<body>

<h1 class="title">Hello, World!</h1>

</body>"""

soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.title.string)

Diese beiden Bibliotheken bieten eine einfache und bequeme API für das Durchlaufen, Durchsuchen und Ändern des Inhalts von Webseiten und eignen sich hervorragend für Web-Scraping-Projekte.

JSoup

Wenn Ihre bevorzugte Programmiersprache Java ist, ist JSoup ein Datenparser, der eine bequeme API zum Extrahieren und Manipulieren von Daten bereitstellt und dabei das Beste aus DOM, CSS und jQuery-ähnlichen Methoden verwendet.

Damit können Sie HTML-Dokumente parsen und navigieren und den Inhalt eines Dokuments mithilfe einer einfachen, intuitiven API ändern. Die Bibliothek eignet sich perfekt für Web Scraping, Web Crawling und Datenextraktionsprojekte.

Hier ist eine einfache Implementierung von JSoup zum Extrahieren des Textes aus dem Titel-Tag:

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

public class JSoupExample {

	public static void main(String[] args) {

    	String html = "<html><head><title>Example Title</title></head>"

            	+ "<body>Hello, World!</body></html>";

    	Document doc = Jsoup.parse(html);

    	// Get the title of the document

    	String title = doc.title();

    	System.out.println("Title: " + title);

	}

}

Nokogiri

Nokogiri ist eine Bibliothek für Ruby, die eine einfach zu bedienende Schnittstelle zum Parsen und Durchsuchen von XML- und HTML-Dokumenten bietet und XPath- und CSS-Selektoren unterstützt, so dass sie für Web-Scraping und Datenextraktionsaufgaben verwendet werden kann.

Für eine umfassendere Analyse der Datenparser-Bibliotheken im Ruby-Ökosystem können Sie diesen Artikel lesen .

Verwenden Sie diesen Befehl, um das nokogiri-Gem zu installieren:

gem install nokogiri

Das nächste Codebeispiel ist eine einfache nokogiri-Implementierung:

require "nokogiri"

html = "<!DOCTYPE html><html><head><title>Hello, World!</title></head><body>Hello, World!</body></html>"

parsed_data = Nokogiri::HTML.parse(html)

puts parsed_data.title

Reguläre Ausdrücke

Reguläre Ausdrücke, auch Regex genannt, sind ein leistungsfähiges Werkzeug für den Abgleich von Mustern in Zeichenketten. Sie werden häufig für Textverarbeitungsaufgaben wie Suche, Validierung und Extraktion von Informationen aus einem Dokument verwendet.

Sie können reguläre Ausdrücke verwenden, um Informationen aus HTML zu extrahieren, indem Sie nach bestimmten Mustern suchen, z. B. um E-Mail-Adressen oder Überschriften aus einem HTML-Dokument zu extrahieren.

Um zum Beispiel alle URLs aus einem HTML-Dokument zu extrahieren, können Sie den folgenden regulären Ausdruck verwenden:

/https?:\/\/[\w\.-]+\.[a-z]+/gi

Dieser Ausdruck passt auf jede Zeichenfolge, die mit "http" oder "https" beginnt, gefolgt von einem ":" und zwei Schrägstrichen, dann eine beliebige Kombination von Wortzeichen, Punkten und Bindestrichen, gefolgt von einem Punkt und einem oder mehreren Kleinbuchstaben. Mit dem Flag "gi" wird die Suche global und ohne Berücksichtigung der Groß-/Kleinschreibung durchgeführt.

Die Verwendung regulärer Ausdrücke kann etwas knifflig sein, da die Syntax komplex sein kann und es einige Versuche braucht, um das richtige Muster zu finden. Es gibt auch einige Websites wie Regex101 oder Rubular, die Ihnen beim Testen und Debuggen Ihrer regulären Ausdrücke helfen können.

Wenn Sie die verfügbaren Bibliotheken oder regulären Ausdrücke nicht verwenden möchten, können Sie jederzeit einen eigenen Parser erstellen.

Die Entwicklung eines eigenen Parsers kann eine gute Möglichkeit sein, ein tieferes Verständnis für die Daten zu erlangen, mit denen Sie arbeiten, und kann auch eine gute Option sein, wenn Sie spezielle Anforderungen haben, die von bestehenden Bibliotheken oder Tools nicht erfüllt werden.

Aufbau eines Parsers

Die Entwicklung eines Parsers kann eine anspruchsvolle, aber auch eine lohnende Aufgabe sein. Der Aufbau eines Parsers umfasst die Erstellung einer Reihe von Regeln und Anweisungen, die festlegen, wie die Daten geparst und organisiert werden sollen.

Dazu können Sie verschiedene Techniken wie reguläre Ausdrücke, Zustandsautomaten und rekursives Descent-Parsing verwenden.

Bei der Entwicklung eines Parsers ist es von entscheidender Bedeutung, die Struktur und das Format der Daten genau zu kennen, um einen geeigneten Satz von Regeln und Anweisungen für den Parser entwerfen zu können. Die Wahl einer geeigneten Programmiersprache ist ebenfalls eine wichtige Überlegung.

Einer der Vorteile der Erstellung eines eigenen Parsers ist, dass Sie ihn an die Daten und den jeweiligen Anwendungsfall anpassen können. Dies kann zu einem effizienteren und effektiveren Parser führen, als wenn Sie eine allgemeine Bibliothek oder ein Werkzeug verwenden.

Darüber hinaus kann die Erstellung Ihres Parsers auch eine großartige Lernerfahrung sein, da Sie dadurch ein tieferes Verständnis der zugrundeliegenden Konzepte und Techniken des Data Parsing erlangen.

Der Aufbau eines Parsers von Grund auf bringt auch Nachteile mit sich:

Die Entwicklung und Implementierung kann zeitaufwändig sein und einen erheblichen Aufwand erfordern, insbesondere wenn Sie mit Parsing-Algorithmen und Datenstrukturen nicht vertraut sind.
Es kann schwierig sein, Ihren Parser so leistungsfähig zu machen wie bestehende Bibliotheken oder Tools, die für die Leistung optimiert wurden.
Es kann schwierig sein, den Parser im Laufe der Zeit zu pflegen und zu aktualisieren, wenn sich das Datenformat oder die Struktur ändert.
Es kann schwierig sein, Fehler in Ihrem Code zu finden, insbesondere wenn Sie mit dem Parsing-Prozess nicht vertraut sind.
Er könnte anfällig für Fehler und Bugs sein, was dazu führen könnte, dass der Parser nicht wie erwartet funktioniert.
Bei komplexem Parsing könnte es schwierig sein, alle Regeln und Randfälle zu implementieren.
Sie ist möglicherweise nicht so effizient wie bereits vorhandene Bibliotheken und Werkzeuge, da diese bereits optimiert und von vielen Personen verwendet wurden.

Zusammenfassend lässt sich sagen, dass die Erstellung eines benutzerdefinierten Parsers von Grund auf eine Reihe von Nachteilen mit sich bringt, wie z. B. eine hohe Entwicklungszeit, hohe Wartungskosten und ein hohes Fehlerrisiko. Es wird im Allgemeinen empfohlen, vorhandene Bibliotheken oder Werkzeuge zu verwenden oder reguläre Ausdrücke zu benutzen, wenn sie die spezifischen Anforderungen Ihres Anwendungsfalls erfüllen können.

Schema.org-Metadaten

Das Parsen von schema.org-Metadaten ist eine Möglichkeit, strukturierte Daten aus Webseiten zu extrahieren, die Webschema-Standards verwenden. Die Gemeinschaft hinter schema.org verwaltet diese Standards und fördert die Verwendung von Schema für strukturierte Daten im Web.

Das Parsen von Schema-Metadaten kann aus verschiedenen Gründen nützlich sein, z. B. um aktuelle Informationen über Veranstaltungen zu finden oder für Forscher, die Daten für Studien sammeln. Auch Websites, die Daten wie Immobilienangebote, Stellenanzeigen und Wettervorhersagen zusammenfassen, können vom Parsen von Schemadaten profitieren.

Es gibt verschiedene Schemaformate, die Sie verwenden können, darunter JSON-LD, RDFa und Microdata.

JSON-LD (JavaScript Object Notation for Linked Data) ist ein Format zur Kodierung verknüpfter Daten mit JSON. Dieser Standard ist so konzipiert, dass er für Menschen leicht zu lesen und zu schreiben und für Maschinen leicht zu parsen und zu generieren ist.

So würde JSON-LD für eine Webseite über ein Buch aussehen:

<script type="application/ld+json">

{

  "@context": "http://schema.org",

  "@type": "Book",

  "name": "The Adventures of Tom Sawyer",

  "author": "Mark Twain",

  "datePublished": "1876-12-01",

  "description": "The Adventures of Tom Sawyer is a novel about a young boy growing up along the Mississippi River in the mid-1800s. It is a classic of American literature and has been loved by generations of readers.",

  "publisher": "Penguin Books",

  "image": "https://www.example.com/images/tom_sawyer.jpg"

}

</script>

Die Empfehlung des World Wide Web Consortium (W3C) ist RDFa, oder Resource Description Framework in Attributes, das zur Einbettung von RDF-Anweisungen in XML und HTML verwendet wird.

Unten sehen Sie, wie RDFa in einer HTML-Seite aussehen würde. Sie können sehen, wie Tag-Attribute verwendet werden, um die zusätzlichen Daten zu speichern.

<!DOCTYPE html>

<html>

  <head>

    <title>RDFa Example</title>

  </head>

  <body>

    <div about="http://example.com/books/the-great-gatsby" typeof="schema:Book">

      <h1 property="schema:name">The Great Gatsby</h1>

      <div property="schema:author" typeof="schema:Person">

        <span property="schema:name">F. Scott Fitzgerald</span>

      </div>

      <div property="schema:review" typeof="schema:Review">

        <span property="schema:author" typeof="schema:Person">

          <span property="schema:name">John Doe</span>

        </span>

        <span property="schema:reviewBody">

          A classic novel that explores themes of wealth, love, and the decline of the American Dream.

        </span>

        <span property="schema:ratingValue">4.5</span>

      </div>

    </div>

  </body>

</html>

Microdata ist eine WHATWG-HTML-Spezifikation, die verwendet wird, um Metadaten in bestehende Inhalte auf Webseiten einzuschachteln, und die schema.org oder benutzerdefinierte Vokabulare verwenden kann.

Hier ist ein Beispiel für Microdata in HTML:

<div itemscope itemtype="http://schema.org/Product">

  <span itemprop="name">Shiny new gadget</span>

  <img itemprop="image" src="shinygadget.jpg" alt="A shiny new gadget" />

  <div itemprop="offerDetails" itemscope itemtype="http://schema.org/Offer">

    <span itemprop="price">$19.99</span>

    <link itemprop="availability" href="http://schema.org/InStock" />

  </div>

</div>

Es gibt viele Tools zum Parsen von Schemata in verschiedenen Sprachen, wie z. B. Extruct von Zyte und die RDFLib-Bibliothek, mit denen sich strukturierte Daten aus Webseiten unter Verwendung von Webschemastandards leicht extrahieren lassen.

Hochwertige Parser

Bislang haben wir die Grundlagen des Parsens von Daten erörtert, einschließlich der zugrunde liegenden Konzepte der lexikalischen und syntaktischen Analyse. Wir haben auch verschiedene Open-Source-Bibliotheken für das Parsen von Daten, die Verwendung regulärer Ausdrücke, den Aufbau eines Parsers von Grund auf und das Parsen von Daten mit schema.org untersucht.

Sie können sich immer auf einen Webparser wie WebScrapingAPI SERP API oder Amazon API verlassen. Mit diesen Webparsern können Sie Daten in Echtzeit scrapen, ohne sich um Wartung, Code oder Infrastruktur kümmern zu müssen.

Die Verwendung eines Premium-Webparsers bietet mehrere Vorteile, darunter:

Verlässlichkeit: Web-Parser sind im Allgemeinen stabiler und zuverlässiger als freie oder Open-Source-Alternativen, die anfällig für Bugs und Fehler sein können.
Geschwindigkeit: Web-Parser sind auf Geschwindigkeit und Leistung optimiert, so dass Sie Daten schnell und effizient extrahieren können.
Skalierbarkeit: Web-Parser können große Datenmengen und ein hohes Verkehrsaufkommen bewältigen und eignen sich daher für groß angelegte Scraping- und Datenextraktionsprojekte.
Erweiterte Funktionen: Web-Parser enthalten oft erweiterte Funktionen, wie z. B. IP-Rotation, User-Agent-Spoofing und CAPTCHA-Auflösung, die Ihnen helfen können, Anti-Scraping-Maßnahmen zu umgehen und auf gesperrte Websites zuzugreifen.
Support und Wartung: Web-Parser werden mit Kundensupport und regelmäßigen Software-Updates geliefert, so dass Sie immer Zugang zu den neuesten Funktionen und Fehlerbehebungen haben.

Aber seien wir ehrlich: Premium-Web-Parser bringen nicht nur Vorteile mit sich. Hier sind einige Nachteile:

Kosten: Premium-Web-Parser können im Vergleich zu Open-Source-Optionen mit höheren Kosten verbunden sein
Begrenzte Anpassungsmöglichkeiten: Die Funktionalität eines Premium-Webparsers kann im Vergleich zur Erstellung eines eigenen Parsers eingeschränkt sein
Abhängigkeit von dem Dienst: Wenn der Dienst ausfällt oder Probleme auftauchen, kann dies Ihre Fähigkeit, Daten zu analysieren, beeinträchtigen
Begrenzte Kontrolle über die Daten: Mit einem Premium-Webparser haben Sie möglicherweise weniger Kontrolle über die Daten, auf die Sie zugreifen und die Sie verarbeiten können
Abhängigkeit von den Datenquellen des Anbieters: Die Qualität und Relevanz der vom Premium Web Parser gelieferten Daten kann durch die Datenquellen des Anbieters eingeschränkt sein.

Schlussfolgerung

Dieser Artikel bietet einen umfassenden Überblick über das Parsen von Daten, einschließlich des Parsing-Prozesses, verschiedener Arten von HTML-Parsing-Bibliotheken und der Verwendung von schema.org-Metadaten zur Verbesserung der Suchmaschinenoptimierung.

Wir haben auch die Vor- und Nachteile des Aufbaus eines eigenen Parsers, der Verwendung regulärer Ausdrücke und der Nutzung vorhandener Tools beleuchtet.

Eine wichtige Erkenntnis ist, dass das Parsen von Daten ein entscheidender Schritt beim Web Scraping und bei der Datenanalyse ist, da es Ihnen ermöglicht, Informationen zu extrahieren und auf nützliche Weise zu organisieren.

Um Ihnen den Einstieg zu erleichtern, können Sie unsere SERP API ausprobieren, ein erstklassiges Web-Scraping-Tool, mit dem Sie ganz einfach Daten aus Suchmaschinen extrahieren können. Wenn Sie es ausprobieren möchten, zögern Sie nicht, sich für unsere 14-tägige kostenlose Testversion anzumelden.