Zum Inhalt springen

Espresso-Talk: Einstieg ins Web-Scraping

Im Rahmen des Espresso-Talks beleuchtete Datenwissenschaftler Benjamin Senst das Thema Web-Scraping. Die Veranstaltung bot einen fundierten Überblick über die Grundlagen, die technischen Hintergründe und die Einsatzmöglichkeiten dieser Technologie. Der Fokus lag darauf, den Community-Mitgliedern die Potenziale und Herausforderungen des Web-Scrapings verständlich zu machen.


28. 11. 2024

Einführung: Was ist eigentlich Web-Scraping genau?

Web-Scraping ist eine Technik zur automatisierten Erfassung öffentlich zugänglicher Daten aus dem Internet. Es ermöglicht, Informationen aus Websites systematisch zu extrahieren und für verschiedene Zwecke aufzubereiten. Dazu zählen beispielsweise Marktanalysen, die Erstellung von Wissenskarten oder die Unterstützung von zivilgesellschaftlichen Projekten.

Um die Funktionsweise besser zu verstehen, lohnt sich ein differenzierter Blick auf ähnliche Begriffe:

  • Web-Scraping: Zielt auf die Extraktion bestimmter Daten aus spezifischen Quellen.
  • Web Crawling: Durchsucht systematisch größere Bereiche des Internets und bereitet die Ergebnisse für weiterführende Analysen vor.
  • DOM (Document Object Model): Die Datenstruktur von HTML-Dokumenten, die beim Scraping analysiert wird, um relevante Inhalte zu identifizieren.

Warum ist Scraping so nützlich?

Benjamin verdeutlichte, bei welchen Anwendungsfällen Scraping sinnvoll sein kann. Es hilft, große Datenmengen zugänglich zu machen, strukturiert aufzubereiten und für die Erkenntnisgewinnung zu nutzen. Drei zentrale Anwendungsbereiche wurden hierbei hervorgehoben:

  • Wissen strukturieren und erschließen:
    Web-Scraping ermöglicht es, digitale Inhalte wie Notizen, PDFs oder Website-Daten in übersichtliche Formate zu überführen. Diese Daten können genutzt werden, um Lücken in bestehenden Wissensbeständen zu identifizieren oder neue Zusammenhänge zu erkennen.
  • Hintergrundrecherche und Marktanalysen:
    Mithilfe von Web-Scraping lassen sich aktuelle Trends und Entwicklungen analysieren, ohne einzelne Webseiten manuell durchsuchen zu müssen. Das spart Zeit und ermöglicht präzisere Einblicke.
  • Unterstützung für zivilgesellschaftliche Organisationen:
    NGOs oder ehrenamtliche Projekte können mit Web-Scraping größere Datenmengen auswerten, z. B. 400 bis 500 Webseiten, um fundierte Entscheidungen zu treffen oder neue Projekte zu entwickeln.

Technische Hintergründe: Wie funktioniert Web-Scraping?

Der Einstieg ins Web-Scraping erfordert keine umfangreichen Programmierkenntnisse, jedoch ein Verständnis für die Struktur von Websites. Der Prozess lässt sich in drei Schritte unterteilen:

  • Identifikation der Datenquellen:
    Es wird entweder direkt eine Liste von Website-URLs definiert oder über Suchmaschinen nach relevanten Quellen-Website gesucht. Diese können einzelne Seiten oder komplexe Netzwerke sein.
  • Analyse der Datenstruktur:
    Der HTML-Quelltext einer Website wird untersucht, um herauszufinden, wo die gewünschten Informationen im DOM verortet sind. Dies erfordert ein Grundverständnis von HTML und XML.
  • Automatisierung und Extraktion:
    Tools wie Scrapy oder andere Open-Source-Bibliotheken helfen, die definierten Daten automatisiert zu extrahieren. Die Ergebnisse werden in Datensätzen gespeichert, die für die Analyse aufbereitet werden.

Ein besonders umfangreicher Ansatz ist die Nutzung von „Webspinnen“, die mehrere Webseiten systematisch durchlaufen, Daten sammeln und für weiterführende Analysen bereitstellen.

Web-Scraping im Kontext von Big Data

Das Internet bietet eine nahezu unbegrenzte Fülle an Informationen. Mit Web-Scraping können diese Datenmengen gezielt erschlossen werden. Die Technologie ist eng verbunden mit weiteren Disziplinen:

  • Social Media Analyse: Extraktion von Meinungen, Trends und Mustern.
  • Data Mining: Analyse großer Datenmengen zur Identifikation von Zusammenhängen.
  • Crawling: Systematische Suche nach relevanten Inhalten für spezifische Fragestellungen.

Benjamin betont, dass Web-Scraping einen wichtigen Beitrag zur Data Literacy leisten kann – der Fähigkeit, Daten zu verstehen, kritisch zu hinterfragen und sinnvoll einzusetzen.

Fazit und Ausblick

Der Vortrag von Benjamin Senst zeigt, dass Scraping eine wertvolle Technologie ist, die weit über die bloße Datenextraktion hinausgeht. Besonders zivilgesellschaftliche Akteure sollten sich mit den Möglichkeiten dieser Technik auseinandersetzen, um Zugang zu datengetriebenen Prozessen zu erhalten. Gleichzeitig birgt Web-Scraping auch Herausforderungen: Es erfordert technisches Verständnis und die Berücksichtigung rechtlicher Rahmenbedingungen, wie z. B. den Schutz geistigen Eigentums und die Einhaltung von Datenschutzbestimmungen.

Wer mehr erfahren und in die Praxis des Web-Scraping eintauchen möchte, der kann sich zum kostenlosen Workshop des Civic Data Lab am 23. Januar (von 16 bis 18.30 Uhr) mit Benjamin anmelden.

 


Civic Data Lab Logo

Der Abruf externer Inhalte ist nur möglich, wenn Sie das Setzen von Marketing-Cookies akzeptieren.

Marketing-Cookies akzeptieren


Autorin

Bild3

Stephanie Agethen (sie/ihr)

Kontakt in HumHub


Mehr aus dem Blog