Zum Inhalt springen

Espresso-Talk: Einstieg ins Web-Scraping

Im Rahmen des Espresso-Talks beleuchtete Datenwissenschaftler Benjamin Senst das Thema Web-Scraping. Die Veranstaltung bot einen fundierten Überblick über die Grundlagen, die technischen Hintergründe und die Einsatzmöglichkeiten dieser Technologie. Der Fokus lag darauf, den Community-Mitgliedern die Potenziale und Herausforderungen des Web-Scrapings verständlich zu machen.

28. 11. 2024

Einführung: Was ist eigentlich Web-Scraping genau?

Web-Scraping ist eine Technik zur automatisierten Erfassung öffentlich zugänglicher Daten aus dem Internet. Es ermöglicht, Informationen aus Websites systematisch zu extrahieren und für verschiedene Zwecke aufzubereiten. Dazu zählen beispielsweise Marktanalysen, die Erstellung von Wissenskarten oder die Unterstützung von zivilgesellschaftlichen Projekten.

Um die Funktionsweise besser zu verstehen, lohnt sich ein differenzierter Blick auf ähnliche Begriffe:

  • Web-Scraping: Zielt auf die Extraktion bestimmter Daten aus spezifischen Quellen.
  • Web Crawling: Durchsucht systematisch größere Bereiche des Internets und bereitet die Ergebnisse für weiterführende Analysen vor.
  • DOM (Document Object Model): Die Datenstruktur von HTML-Dokumenten, die beim Scraping analysiert wird, um relevante Inhalte zu identifizieren.

Warum ist Scraping so nützlich?

Benjamin verdeutlichte, bei welchen Anwendungsfällen Scraping sinnvoll sein kann. Es hilft, große Datenmengen zugänglich zu machen, strukturiert aufzubereiten und für die Erkenntnisgewinnung zu nutzen. Drei zentrale Anwendungsbereiche wurden hierbei hervorgehoben:

  • Wissen strukturieren und erschließen:
    Web-Scraping ermöglicht es, digitale Inhalte wie Notizen, PDFs oder Website-Daten in übersichtliche Formate zu überführen. Diese Daten können genutzt werden, um Lücken in bestehenden Wissensbeständen zu identifizieren oder neue Zusammenhänge zu erkennen.
  • Hintergrundrecherche und Marktanalysen:
    Mithilfe von Web-Scraping lassen sich aktuelle Trends und Entwicklungen analysieren, ohne einzelne Webseiten manuell durchsuchen zu müssen. Das spart Zeit und ermöglicht präzisere Einblicke.
  • Unterstützung für zivilgesellschaftliche Organisationen:
    NGOs oder ehrenamtliche Projekte können mit Web-Scraping größere Datenmengen auswerten, z. B. 400 bis 500 Webseiten, um fundierte Entscheidungen zu treffen oder neue Projekte zu entwickeln.

Technische Hintergründe: Wie funktioniert Web-Scraping?

Der Einstieg ins Web-Scraping erfordert keine umfangreichen Programmierkenntnisse, jedoch ein Verständnis für die Struktur von Websites. Der Prozess lässt sich in drei Schritte unterteilen:

  • Identifikation der Datenquellen:
    Es wird entweder direkt eine Liste von Website-URLs definiert oder über Suchmaschinen nach relevanten Quellen-Website gesucht. Diese können einzelne Seiten oder komplexe Netzwerke sein.
  • Analyse der Datenstruktur:
    Der HTML-Quelltext einer Website wird untersucht, um herauszufinden, wo die gewünschten Informationen im DOM verortet sind. Dies erfordert ein Grundverständnis von HTML und XML.
  • Automatisierung und Extraktion:
    Tools wie Scrapy oder andere Open-Source-Bibliotheken helfen, die definierten Daten automatisiert zu extrahieren. Die Ergebnisse werden in Datensätzen gespeichert, die für die Analyse aufbereitet werden.

Ein besonders umfangreicher Ansatz ist die Nutzung von „Webspinnen“, die mehrere Webseiten systematisch durchlaufen, Daten sammeln und für weiterführende Analysen bereitstellen.

Web-Scraping im Kontext von Big Data

Das Internet bietet eine nahezu unbegrenzte Fülle an Informationen. Mit Web-Scraping können diese Datenmengen gezielt erschlossen werden. Die Technologie ist eng verbunden mit weiteren Disziplinen:

  • Social Media Analyse: Extraktion von Meinungen, Trends und Mustern.
  • Data Mining: Analyse großer Datenmengen zur Identifikation von Zusammenhängen.
  • Crawling: Systematische Suche nach relevanten Inhalten für spezifische Fragestellungen.

Benjamin betont, dass Web-Scraping einen wichtigen Beitrag zur Data Literacy leisten kann – der Fähigkeit, Daten zu verstehen, kritisch zu hinterfragen und sinnvoll einzusetzen.

Fazit und Ausblick

Der Vortrag von Benjamin Senst zeigt, dass Scraping eine wertvolle Technologie ist, die weit über die bloße Datenextraktion hinausgeht. Besonders zivilgesellschaftliche Akteure sollten sich mit den Möglichkeiten dieser Technik auseinandersetzen, um Zugang zu datengetriebenen Prozessen zu erhalten. Gleichzeitig birgt Web-Scraping auch Herausforderungen: Es erfordert technisches Verständnis und die Berücksichtigung rechtlicher Rahmenbedingungen, wie z. B. den Schutz geistigen Eigentums und die Einhaltung von Datenschutzbestimmungen.

Wer mehr erfahren und in die Praxis des Web-Scraping eintauchen möchte, der kann sich zum kostenlosen Workshop des Civic Data Lab am 23. Januar (von 16 bis 18.30 Uhr) mit Benjamin anmelden.

 Logo

Der Abruf externer Inhalte ist nur möglich, wenn Sie das Setzen von Marketing-Cookies akzeptieren.

Marketing-Cookies akzeptieren

Autor*in

Stephanie Agethen (sie/ihr)

Kontakt in HumHub

Mehr aus dem Blog

  • #CDL News
  • #Vernetzen

Espresso-Talk: Künstliche Intelligenz in Nichtregierungsorganisationen

In unserer vergangenen Ausgabe des Espresso-Talks konnten wir Maximilian Schultz und Franziska Hauer als Gast in der Civic Data Lab Community begrüßen. Sie gaben uns spannende Einblicke in ihr Forschungsprojekt „KINiro – Künstliche Intelligenz in NROs“ am Institut für Sozialforschung und Technikfolgenabschätzung (IST) der OTH Regensburg. Gemeinsam mit ihnen ging es über die von ihnen durchgeführte neue Studie zu Bedarf, Akzeptanz und Umsetzungsmöglichkeiten von KI in Nichtregierungsorganisationen (NROs) .
Weiterlesen
  • #CDL News
  • #Vernetzen

Espresso-Talk: “Deine Emotionale Stadt” – Wie fühlt sich Berlin eigentlich an?

In unserem letzten Espresso-Talk widmeten wir uns einem besonderen Citizen-Science-Projekt: Deine Emotionale Stadt. Ziel dieses interdisziplinären Charité-Forschungsprojekts der Research Platform Neurourbanism ist es, das emotionale Wohlbefinden der Berliner*innen in Bezug auf ihre Stadt zu erfassen und zu verstehen. In einer Zeit, in der bis 2050 über 70% der Weltbevölkerung in Städten leben werden, ist es entscheidend, die Auswirkungen der städtischen Umgebung auf die psychische Gesundheit zu untersuchen.
Weiterlesen
  • #CDL News
  • #Machen
  • #Vernetzen

Daten als Hilfsmittel für bessere Migrationsberatung

Ein Workshop-Bericht zu „Gemeinsam Machen 3 – Infos und Beratung fürs Ankommen in Deutschland: Faktenbasiert, Vernetzt, Lösungsorientiert“. Im Fokus des dritten Workshops der Veranstaltungsreihe des Civic Data Lab standen Beratung und andere Informationsangebote für und zum Teil von Menschen, die neu nach Deutschland migrieren. In einer Zeit, in der Migration oft emotional diskutiert wird, war es unser Ziel, mit beteiligten Akteur*innen aus der Zivilgesellschaft herauszuarbeiten, wie wir Daten besser einsetzen können.
Weiterlesen