Das Parsen von Schema.org-Metadaten ist eine Möglichkeit, strukturierte Daten mithilfe von Web-Schema-Standards aus Webseiten zu extrahieren. Die Community hinter Schema.org verwaltet diese Standards und fördert die Verwendung von Schemata für strukturierte Daten im Web.
Das Parsen von Schema-Metadaten kann aus verschiedenen Gründen nützlich sein, beispielsweise um aktuelle Informationen zu Veranstaltungen zu finden oder für Forscher, die Daten für Studien sammeln. Darüber hinaus können auch Websites, die Daten wie Immobilienanzeigen, Stellenangebote und Wettervorhersagen aggregieren, vom Parsen von Schema-Daten profitieren.
Es gibt verschiedene Schema-Formate, die Sie verwenden können, darunter JSON-LD, RDFa und Microdata.
JSON-LD (JavaScript Object Notation for Linked Data) ist ein Format zur Kodierung von Linked Data unter Verwendung von JSON. Die Gestaltung dieses Standards erleichtert das Lesen und Schreiben für Menschen sowie das Parsen und Generieren für Maschinen.
So würde JSON-LD für eine Webseite über ein Buch aussehen:
<script type="application/ld+json">
{
"@context": "http://schema.org",
"@type": "Book",
"name": "The Adventures of Tom Sawyer",
"author": "Mark Twain",
"datePublished": "1876-12-01",
"description": "The Adventures of Tom Sawyer is a novel about a young boy growing up along the Mississippi River in the mid-1800s. It is a classic of American literature and has been loved by generations of readers.",
"publisher": "Penguin Books",
"image": "https://www.example.com/images/tom_sawyer.jpg"
}
</script>
Die Empfehlung des World Wide Web Consortium (W3C) lautet RDFa (Resource Description Framework in Attributes) und dient dazu, RDF-Aussagen in XML und HTML einzubetten.
Unten sehen Sie, wie RDFa innerhalb einer HTML-Seite aussehen würde. Sie können erkennen, wie Tag-Attribute verwendet werden, um die zusätzlichen Daten zu speichern.
<!DOCTYPE html>
<html>
<head>
<title>RDFa Example</title>
</head>
<body>
<div about="http://example.com/books/the-great-gatsby" typeof="schema:Book">
<h1 property="schema:name">The Great Gatsby</h1>
<div property="schema:author" typeof="schema:Person">
<span property="schema:name">F. Scott Fitzgerald</span>
</div>
<div property="schema:review" typeof="schema:Review">
<span property="schema:author" typeof="schema:Person">
<span property="schema:name">John Doe</span>
</span>
<span property="schema:reviewBody">
A classic novel that explores themes of wealth, love, and the decline of the American Dream.
</span>
<span property="schema:ratingValue">4.5</span>
</div>
</div>
</body>
</html>
Microdata ist eine WHATWG-HTML-Spezifikation, die dazu dient, Metadaten in bestehende Inhalte auf Webseiten einzubetten, und die schema.org oder benutzerdefinierte Vokabulare verwenden kann.
Hier ist ein Beispiel für Microdata in HTML:
<div itemscope itemtype="http://schema.org/Product">
<span itemprop="name">Shiny new gadget</span>
<img itemprop="image" src="shinygadget.jpg" alt="A shiny new gadget" />
<div itemprop="offerDetails" itemscope itemtype="http://schema.org/Offer">
<span itemprop="price">$19.99</span>
<link itemprop="availability" href="http://schema.org/InStock" />
</div>
</div>
Es gibt viele Tools, um Schemata in verschiedenen Sprachen zu parsen, wie beispielsweise Extruct von Zyte und die RDFLib-Bibliothek, die es einfach machen, strukturierte Daten mithilfe von Web-Schema-Standards aus Webseiten zu extrahieren.