Bevor wir uns mit den Grundlagen des Web-Scrapings befassen, sollten wir einige Schlüsselkonzepte durchgehen.
Der Großteil der schriftlichen Inhalte, auf die Sie auf einer Website stoßen, ist in einer textbasierten Auszeichnungssprache gespeichert, meist HTML. Um die Verarbeitung und Darstellung für alle Browser und Geräte zu vereinfachen, gibt es bei HTML einige allgemeine Regeln, denen alle Websites folgen.
Wenn Menschen eine Webseite aufrufen, sehen sie das Ergebnis dieses HTML-Codes. Roboter hingegen, wie beispielsweise die Indexierungs-Crawler von Google, betrachten den Code. Stellen Sie sich das als dieselben Informationen vor, nur in unterschiedlicher Form.
Wenn eine Person alle Informationen auf einer Webseite kopieren möchte, würde sie den gesamten Inhalt manuell auswählen (wobei höchstwahrscheinlich auch nutzlose Fülltexte mitkopiert würden), auf „Kopieren“ klicken und ihn dann in eine lokale Datei einfügen. Das klingt nicht so schlimm, aber stellen Sie sich vor, Sie müssten das zweihundert Mal tun, mehrmals pro Woche. Das würde zu einer unglaublichen Plackerei werden, und das Sortieren all dieser Daten wäre ebenso ein Albtraum.
Manche Websites machen es den Nutzern schwer, Inhalte auszuwählen und zu kopieren. Auch wenn diese Seiten nicht weit verbreitet sind, können sie das Tüpfelchen auf dem i sein.
Ein Web-Scraping-Tool ist ein Bot, der HTML-Code von Webseiten abruft. Es gibt zwei wesentliche Unterschiede zum manuellen Kopieren: Der Bot erledigt die Arbeit für Sie, und er erledigt sie viel schneller. Das Extrahieren des HTML-Codes von einer einzelnen Seite kann im Handumdrehen geschehen. Der entscheidende Faktor ist Ihre Internetgeschwindigkeit, die Sie auch beim manuellen Kopieren ausbremsen kann.
Wo Scraper jedoch wirklich glänzen, ist die Extraktion von Daten aus mehreren Quellen. Für einen leistungsstarken Web-Scraper macht es kaum einen Unterschied, ob es sich um eine Webseite oder um tausend handelt. Solange du ihm eine Liste mit URLs der Seiten gibst, die du scrapen möchtest, macht sich der Bot an die Arbeit und sammelt Daten.