K(l)ein Geld für Demokratie?! –
Demokratieförderrechner mit dem AWO Bundesverband

Wie viel ist der Bundesregierung die Demokratieförderung wert? Der AWO Bundesverband sammelt Daten, um das mit einer konkreten Zahl zu unterlegen. Zu ermitteln, wie viele Bundesförderprogramme welche Summen für die verschiedenen Aspekte der Demokratieförderung bereitstellen, erfordert viele technische und nicht-technische Schritte. Das Civic Data Lab unterstützt mit Web Scraping und Textklassifizierung.


  • Abgeschlossen
  • Web Scraping
  • Open Data
  • Textklassifizierung

2021 gab es auf Bundeseben die Ankündigung eines Gesetzesvorhabens zur Förderung von Demokratie. Dieses konnte jedoch nicht realisiert werden. Der AWO Bundesverband stellt fest: “Die Probleme, die das neue Gesetz angehen sollte, sind seitdem größer geworden: Die Demokratie und die offene Gesellschaft stehen so stark unter Druck wie lange nicht. Der politische und gesellschaftliche Rechtsruck greift um sich.” Um zu zeigen, dass Demokratieförderung durch zivilgesellschaftliche Initiativen mehr Finanzierungshilfen bedarf, musste zunächst ermittelt werden, wie viele Mittel bisher zur Verfügung stehen. Öffentlich verfügbare Informationen gibt es dazu bisher nicht.

Da die Förderung dieses Zwecks über verschiedene Programme verteilt ist und es keinen öffentlichen Datensatz zu Bundesförderprogrammen gibt, waren dafür eine Reihe von Schritten erforderlich, die das Civic Data Lab unterstützt hat:

  • Web Scraping der Förderdatenbank des Bundes
  • Erstellen eines Codebuchs mit sechs Kategorien für Demokratieförderung
  • Textklassifizierung zur Identifikation der Demokratieförderprojekte 
  • Abgleich der Förderprogramme mit den ihnen zugeordneten Mittelzuflüssen aus dem Bundeshaushalt

Ergebnisse

Insgesamt beträgt die Summe, mit der all diese Vorhaben 2024 gefördert wurden, 540.065.176 Euro. Das sind 0,11 Prozent der Gesamtausgaben des Bundes. Den entstandenen Datensatz, die Dokumentationen und die Analysetools stellen wir offen zur Verfügung. Die Materialien sind größtenteils offen lizenziert. Nähere Informationen dazu sind in den README’s der beiden Repositories zu finden.

Übergangswelle

Technologien

Übergangswelle

Erkenntnisse

Technische Erkenntnisse aus dem Datenvorhaben

Web Scraping der Förderdatenbank

  • Wie bekannt, ist Web Scraping ein Ansatz, der potenziell einen hohen Wartungsbedarf hat. Auch beim Scraper der Förderdatenbank traten nach einigen Monaten bereits Probleme auf, die auf Änderungen an der Website-Struktur zurückzuführen sind. Im Civic Data Lab Team bestanden zu diesem Zeitpunkt keine Kapazitäten mehr, um diese Probleme schnell zu beheben. Web Scraping ist und bleibt eine Notlösung.

Klassifizierung der Förderprogramme

  • Eine validierte Baseline (z.B. regelbasierte Klassifizierung)  ist wichtig, um die Sinnhaftigkeit von komplexen, ressourcenaufwändigen und intransparenteren Methoden (z.B. One Shot oder Few Shot Classification) beurteilen zu können.
  • Es ist entscheidend, die Trade-offs zwischen Recall und Precision im Auge zu behalten: Welche Fehlerart – False Positives oder False Negatives – hat welche Folgen, gerade für die inhaltliche Bewertung der Ergebnisse und ihre Kommunikation?
  • Im Kontext von Machine Learning ist die Anzahl an Förderprogrammen (ca. 2000) ein vergleichsweise kleiner Datensatz. Hinzu kommt, dass nur sehr wenige in die Klasse “Demokratieförderung” fallen, d.h. die Daten sind sehr unbalanciert. Unter solchen Umständen sind Classifier selten besser als Menschen – umso wichtiger ist ein inhaltlich gut durchdachtes und durch menschliche Expertise validiertes Labeling-Konzept. Deshalb sollte früh durch Labeling-Experimente geklärt werden, ob das Labeling-Konzept von Menschen verstanden und konsistent angewendet werden kann, z.B. durch Berechnung von Intercoder-Reliabilität. Wenn beim manuellen Labeln von Daten Unklarheiten auftauchen, sollten diese früh geklärt werden und das Labeling-Konzept nachjustiert werden.
  • Weniger nachvollziehbare Methoden wie Few-Shot Classification sollten nur zum Einsatz kommen, wenn Kapazitäten für das manuelle Labeln von Trainingsdaten sehr eingeschränkt sind oder das Klassifizierungsproblem trivial ist. Die zeitliche Investition in Trainingsdaten wird mit besserer Model Performance und besserer Validierbarkeit der Ergebnisse belohnt.
  • Wenn ein mittel- oder langfristiges Interesse besteht an der Nutzung der klassifizierten Daten, sollte evaluiert werden, ob ein Machine-Learning-Ansatz am sinnvollsten ist oder ob alternativ die Etablierung von Infrastruktur, Pipelines und Prozessen zur fortlaufenden manuellen Kodierung bzw. Labeling zielführender ist. Gerade wenn die Daten selten und nur in geringem Umfang geupdatet werden, ist es voraussichtlich effektiver, die neuen Datenpunkte selbst zu labeln.

Erkenntnisse zur Zusammenarbeit und zur Organisation des Datenvorhabens

  • Lizenzfragen als Herausforderung: Die Daten der Förderdatenbank sind nicht eindeutig lizenziert – als einzige Lizenz auf der Website im Impressum ist die recht restriktive Creative Commons Namensnennung – Keine Bearbeitung 3.0 Deutschland Lizenz genannt, aber ohne spezifischen Bezug zu den Inhalten der Förderdatenbank. Es stellte sich die Frage, wie wir die gescrapten Daten “weiterveröffentlichen” konnten. Urheberrecht ist und bleibt komplex: Trotz Motivation, einem Grundverständnis von offenen Lizenzen und zeitlichem Investment (1-2 Personentage) in die Einarbeitung konnten wir zu keiner richtig fundierten Einschätzung unserer Lage kommen. Die Investition in eine Erstberatung bei einer Kanzlei mit Fokus auf Digitalisierung war sinnvoll, um Fragen abschließend zu klären, Rechtssicherheit zu schaffen und Unsicherheit auszuräumen. Eine gute Vorbereitung dieser Erstberatung mit klar formulierten Fragen und Zielen führte dazu, dass die Zeit effektiv und effizient genutzt werden konnte.
  • Für Datenprojekte, deren Erkenntnisse für die Öffentlichkeitsarbeit genutzt werden, ist es besonders wichtig, dass Datenanalyst*innen und Domain-Expert*innen wie Kommunikationsbeauftragte eng, vertrauensvoll und auf Augenhöhe kommunizieren und offen ihr Expert*innen-Wissen austauschen. Nur so kann immer wieder ein geteiltes Verständnis der Ergebnisse, ihrer inhaltlichen Bedeutung und ihrer Grenzen geschaffen werden und sichergestellt werden, dass Ergebnisse angemessen und korrekt für die Zielgruppe aufbereitet werden.

Beteiligte

AWO Bundesverband

Lorenz, Lukas und ihr Team waren die zivilgesellschaftliche*n Partner*innen. Sie hatten die Idee zum Datenprojekt und haben das CDL als Unterstützung hinzugeholt.

Erfahre mehr
Civic Data Lab

Civic Data Lab Team

Vom CDL Team waren Leo, Jonas und Angela beteiligt.


Aus dem Projektverlauf:

Übergangswelle

Kontakt zum Umsetzungs-Team

Lukas Hochscheidt (er/ihm)

Vorstandsreferent beim AWO Bundesverband Kontakt in HumHub

Dr. Lorenz Grünewald-Schukalla (er/ihm)

Referent für Digitale Technologien und Innovationen beim AWO Bundesverband Kontakt in HumHub

Jonas Stetter (er/ihm)

CDL Team Kontakt in HumHub

Leo Preu (er/ihm)

CDL Team Kontakt in HumHub

Angela Berger (sie/ihr)

CDL Team Kontakt in HumHub