Kurz gesagt: Beim Web Scraping werden Rohdaten von öffentlichen Webseiten gesammelt. Beim Data Mining werden strukturierte Daten analysiert, um Muster, Prognosen und Segmente zu ermitteln. Es handelt sich um verschiedene Phasen desselben Lebenszyklus, und die meisten Produktionssysteme kombinieren sie in einer Pipeline, die aus „Scraping“, „Normalisierung“ und „Mining“ besteht.
Wenn Sie jemals in einer Planungssitzung gesessen haben, in der jemand sagte: „Wir müssen Data Mining auf den Daten der Wettbewerber durchführen“, und jemand anderes hörte: „Wir müssen die Daten der Wettbewerber scrapen“, dann haben Sie bereits gesehen, welche Kosten die Verwechslung von Web Scraping und Data Mining mit sich bringt. Die beiden Begriffe werden so oft synonym verwendet, dass sie zu echten Fehlern bei der Projektabgrenzung führen: falsche Tools werden ausgewählt, falsche Verantwortliche zugewiesen, falsche Erfolgskennzahlen vereinbart.
Web-Scraping vs. Data Mining ist eine der hartnäckigsten Verwechslungen im Datenbereich, und der klarste Weg, sie zu klären, besteht darin, sich anzuschauen, was jedes Verfahren tatsächlich von Anfang bis Ende leistet. Dieser Leitfaden behandelt die Arbeitsdefinitionen, die dahinterstehenden Pipelines, die sich kaum überschneidenden Tools, die rechtlichen Grenzen, die für die Erfassung und die Analyse unterschiedlich gelten, sowie einen Entscheidungscheck mit fünf Fragen, den Sie in weniger als einer Minute durchführen können. Die Zielgruppe sind Praktiker, die ein reales Projekt planen, nicht Studenten, die einen Glossareintrag verfassen.




