Wir erleben aktuell globale politische Unsicherheiten in der Welt. In einer Demokratie zu leben ist in vielen Ländern nicht selbstverständlich. Auch in Deutschland nehmen die polarisierenden Debatten zu. Umso wichtiger ist die Stärkung der Demokratie durch entsprechende Projekte. Der Förderung dieser Demokratieprojekte kommt dabei eine entscheidende Bedeutung zu. Sie hilft, Bürgerrechte zu stärken, politische Bildung zu fördern und eine aktive Zivilgesellschaft zu unterstützen, die für die Aufrechterhaltung demokratischer Prinzipien unerlässlich ist. Die Transparenz und Zugänglichkeit von Fördermitteln für Demokratieprojekte sind von großer Bedeutung, um eine breite Beteiligung und das Vertrauen in demokratische Prozesse zu gewährleisten.
Daran arbeitet der AWO Bundesverband mit seinem Vorhaben, einen „Demokratieförderrechner“ zu veröffentlichen. Nach einer Unterstützung durch die Civic Coding Projektberatung geht nun das Civic Data Lab geht ein Wegstück mit – mit einem neuen Datenvorhaben. Das Tool soll ermitteln, wie hoch der Anteil öffentlicher Förderungen für Demokratieprojekte ist, wobei es auf Daten aus der Förderdatenbank des Wirtschaftsministeriums (www.förderdatenbank.de) zurückgreift.
Zwischenergebnis Open Data
Ein wichtiger erster Aspekt des Projekts ist das Erfassen der Daten von der Internet-Seite, um einen verwertbaren Datensatz für die Analysen zu erstellen. Hierbei können wir beispielsweise Kategorien wie „Förderart“, „Förderbereich“ etc. jeweils als Spalte im Datensatz ausgeben. Der Code und die Daten sollen veröffentlicht werden. Die Daten sind ein Zwischenergebnis, auf dem andere Projekte aufbauen können, da die Veröffentlichung der Förderprogramme als strukturierter Datensatz den programmatischen Zugriff und somit die Anschlussfähigkeit verbessert. Aktuell werden die Lizenzbedingungen abgestimmt.
Auf Basis dieser Daten definierte das CDL-Team zwei Problemstellungen, die auf dem Weg zum Projektziel Demokratieförderrechner bearbeitet werden: binäre Textklassifizierung und „Named-entity recognition“.
Demokratieförderprojekte identifizieren
Eine der ersten Herausforderungen bei dem Projekt ist es, die Förderprogramme zu identifizieren, die Demokratie fördern, was sich als binäre Textklassifizierung definieren lässt. Dazu müssen wir erst einmal eine Definition von Demokratieförderung so genau wie möglich ausarbeiten. Hierbei geht es sowohl um Nachvollziehbarkeit für Menschen, als auch die Tauglichkeit für automatische Textklassifizierung mit Sprachmodellen. Es geht auch darum, viele Schlagworte möglichst gut zu definieren, damit uns bei einer initialen Suche auch wirklich die demokratiefördernden Projekte ins Netz gehen.
Durch Anwendung von Techniken wie Keyword-Suche und semantische Suche kann der Inhalt nämlich nach vorher festgelegten Begriffen wie beispielsweise „Demokratieförderung“, „Extremismusprävention“ und „Politische Bildung“, aber auch basierend auf einer Ähnlichkeit zu bereits bekannten Demokratieförderungsprogrammen durchsucht werden. Mit diesen Methoden erhält das Team positive Beispiele für Demokratieförderung, die dann später für das Training eines Modells verwendet werden können, jedoch vorher manuell überprüft werden.
Aufgrund eines Mangels an ausreichenden Trainingsdaten und der Tatsache, dass Demokratieförderprojekte vergleichsweise selten im Datensatz vorgekommen sind, werden Few-Shot Learning Techniken angewendet, die für das Problem der „imbalanced classification“ angepasst werden. Hierfür wurde insbesondere die SetFit-Methode ausgewählt, da diese auch bei kleinen Datensätzen effektiv funktioniert. Über kontrastives Lernen ermöglicht uns dieses Methode, Text in Zahlen umzuwandeln und Klassenzuordnungen vorzunehmen, wodurch Projekte entweder als Demokratieförderung oder eben als nicht zutreffend klassifiziert werden können.
Vom Förderprojekt zum Geldbetrag
Um aus dem Projekt einen Rechner zu machen, müssen aus den identifizierten Programmen die Fördersummen extrahiert werden. Dafür gibt es eine breite Spanne an Methoden, die in die Kategorie „Named-Entity Recognition“ fallen. Eine „named entity“ ist eben zum Beispiel ein Geldbetrag, der basierend auf bereits festgelegten sprachlichen Regeln oder mit Sprachmodellen basierend auf dem semantischen Kontext extrahiert werden kann. Hier ist in diesem Projekt noch die meiste Arbeit zu leisten.
Aktueller Stand bei der Umsetzung des Demokratieförderrechners
Neben den Problemen der mangelnden Trainingsdaten und den nicht gleichmäßig verteilten Klassenzuordnungen, müssen wir rechtliche Aspekte wie die Lizenzierung der Website www.förderdatenbank.de und die Aktualität der Daten berücksichtigen. Leider gibt es kein Datumsfeld, das man automatisiert auslesen kann. Wir müssen beachten, wie viele Projekte neu dazu gekommen sind, wie viele wegfallen und ob sich Projekte geändert haben. Das wurde nun in der Pipeline berücksichtigt. Mit der Veröffentlichung des Datensatzes kann man den Verlauf der Änderung der Website dann auch festhalten.
Mit dieser tiefgehenden Analyse und den erarbeiteten Lösungswegen wird der Demokratieförderrechner ein wertvolles Werkzeug werden können, um die Menge, Höhe und zeitliche Dimension der Förderung von Demokratieprojekten transparent und nachvollziehbar zu machen.