Civic Data Lab Datenlabor: Wie gut funktioniert KI-gestützte Session-Dokumentation?

Drei KI-begeisterte Datenanalyst*innen wagten das Experiment: Können Barcamp-Sessions mithilfe von Sprachmodellen automatisch dokumentiert werden, ohne dabei den Datenschutz zu verletzen? Beim Civic Data Lab Barcamp im Mai in Köln testeten sie den kompletten Workflow von der Audioaufnahme bis zur fertigen Zusammenfassung. Civic Data Lab Community-Mitglied Dr. Jenny Meyer hat den Prozess und die Ergebnisse zusammengefasst.

29. 07. 2025

#CDL News
#Gastbeiträge
#Machen
#Vernetzen

Im April dieses Jahres poppte in meinem Feed der Civic Data Lab Community folgende Anfrage von Julius Falk auf:

„Experiment: Können wir Barcamp-Sessions mit Sprachmodellen besser dokumentieren? Ich möchte beim diesjährigen Barcamp ein kleines Experiment starten: Können wir mit einem Konferenzmikrofon und einem lokal laufenden / nicht kommerziellen Sprachmodell eine smarte Möglichkeit schaffen, unsere Sessions zu dokumentieren? Ziel ist es, nicht nur einfache Transkripte zu erzeugen, sondern Zusammenfassungen, die den Kern treffen, Highlights herausstellen und sich vielleicht direkt in unsere Doku-Formate integrieren lassen. Dafür suche ich Mitstreiter*innen, die Lust haben, gemeinsam ein kleines Prototyping-Projekt auf die Beine zu stellen.“

Diese Mitstreiter*innen waren schnell gefunden: Damian Paderta und meine Wenigkeit.

Nach zwei, drei vorbereitenden Planungsmeetings mit anregenden Diskussionen verschiedener Ideen und (technischer) Optionen stand der Plan für unser “Experiment” fest: wir statten einen Session-Raum mit drei unterschiedlichen Mikrofonen aus, um die Vorträge und Diskussionen aufzuzeichnen:

Ein Google Pixel Smartphone
Ein externes Zoom-Mikrofon
Ein Beyerspace Konferenzmikrofon

Die Idee war, die aufgezeichneten Audiospuren durch eine Kette von KI-Werkzeugen zu schicken, um am Ende eine prägnante Zusammenfassung jeder Session zu erhalten. Dabei standen vor allem zwei entscheidende Herausforderungen im Fokus: Datenschutz und Praktikabilität. Wir wollten so viele Schritte wie möglich lokal auf unseren Rechnern durchführen, um die Stimm- und Inhaltsdaten der Teilnehmenden zu schützen.

Am 22. Mai fand dann schließlich das Civic Data Lab Barcamp in Köln statt und somit auch unser Experiment.

Unsere Erkenntnisse aus dem Workflow:

1. Die Aufnahme: Das Smartphone als Überraschungssieger

Die erste Überraschung gab es bei der Audioqualität. Hier hat das Google Pixel Handy die deutlich beste Aufnahmequalität geliefert. Die Tonspur war klarer und störungsfreier als bei den dedizierten Mikrofonen.

Unsere Vermutung ist, dass Google hier bereits massiv mit interner, KI-gestützter Audioverarbeitung nachhilft. Ein kurzer Blick auf die Technologie hinter der „Recorder“-App des Pixels bestätigt dies: Google nutzt maschinelles Lernen, um Hintergrundgeräusche zu filtern und die Stimmen der Sprechenden zu isolieren (https://analyticsindiamag.com/deep-tech/machine-learning-google-recorder-pixel-mobile-ai/). Das Ergebnis ist eine erstaunlich saubere Aufnahme, die für die weitere Verarbeitung ideal ist.

2. Clean-Up: Lokale Werkzeuge für den Feinschliff

Auch wenn die Pixel-Aufnahme bereits sehr gut war, kann eine manuelle Nachbearbeitung die Qualität für die Transkription weiter verbessern. Insbesondere in Räumen mit schwieriger Akustik wie Hall oder Echo – so wie leider auch der Session-Raum in dem unsere Aufzeichnungen stattfanden. Unser Credo blieb auch hier: Kein Upload von Stimm-Daten!

Für den Feinschliff haben wir DaVinci Resolve genutzt. Obwohl es primär eine Videoschnitt-Software ist, enthält es mit „Fairlight“ ein extrem mächtiges Audio-Tool. Mit Effekten wie „De-Reverb“ konnten wir den Hall wirksam entfernen und die Sprachverständlichkeit so weiter optimieren – direkt auf dem eigenen Rechner.

Alternativ zu DaVinci gibt es natürlich auch andere hervorragende Werkzeuge, die rein lokal arbeiten. Dazu gehören spezialisierte Audio-Programme wie das kostenlose Open-Source-Tool Audacity oder der professionelle Standard Adobe Audition. Auch sie sind für einen datenschutzkonformen Workflow bestens geeignet.

3. Die Transkription: Lokal und Leistungsstark

Für die Umwandlung der Audioaufnahmen in Text wollten wir aus Datenschutzgründen unbedingt eine lokale Lösung. Hier haben wir zwei Tools getestet:

NoScribe: Diese Software hat auf ganzer Linie überzeugt. Sie lief stabil auf unseren Rechnern, hat Sprechererkennung und lieferte qualitativ hochwertige Transkripte der ca. 45-minütigen Sessions.
SuperWhisper (kostenfreie Variante): Die kostenlose Version stieß hier an ihre Grenzen. Sie erlaubt nur das Laden von kleineren Modellen, deren Genauigkeit für unsere Zwecke leider nicht ausreichte.

Fazit: Für eine verlässliche und private Transkription ist eine leistungsstarke Offline-Software wie NoScribe ein echter Winner. Allerdings benötigt man dafür schon auch einen einigermaßen leistungsstarken Rechner.

4. Die Zusammenfassung der Sessions

4.1 Technische Hürden bei lokal laufenden Modellen für die Zusammenfassungen

Ein wichtiger Teil unseres Experiments war ursprünglich der Versuch, auch die Zusammenfassungen mit lokalen, auf unseren Laptops laufenden Sprachmodellen zu erstellen. Hier sind wir jedoch auf eine grundlegende technische Hürde gestoßen: Die auf Standard-Rechnern lauffähigen, kleineren Open-Source-LLMs sind für die Verarbeitung langer Texte, wie unserer 45-minütigen Transkripte, oft nicht geeignet. Der Grund dafür ist die sogenannte „Context Window Size“.

Dieses Fenster definiert die maximale Menge an Text (gemessen in „Tokens“), die ein Modell auf einmal verarbeiten kann. Die kleineren Modelle, die mit dem Arbeitsspeicher (VRAM) eines normalen Laptops auskommen, haben oft ein sehr begrenztes Kontextfenster. Ein langes Transkript übersteigt diese Grenze bei Weitem. Das Modell kann also gar nicht den gesamten Text „lesen“, um eine kohärente Zusammenfassung zu erstellen.

Größere Modelle mit größeren Context Window Sizes, wie sie von Google, OpenAI oder Claude in der Cloud angeboten werden, benötigen immense Mengen an Rechenleistung und spezialisierte Hardware, die weit über die Kapazitäten eines Standard-Laptops hinausgehen.

Zwar gibt es technische Ansätze wie das „Chunking“ (den Text in kleinen Häppchen zusammenfassen und diese dann wieder zusammenfassen), aber für einen einfachen und schnellen Workflow erwies sich dies als zu umständlich.

4.2 Cloud-Modelle überzeugen

Aufgrund dieser technischer Hürden, haben wir für den letzten Schritt, die automatische Zusammenfassung, auf zwei der bekanntesten Sprachmodelle (LLMs) zurück gegriffen:

Claude (Anthropic)
ChatGPT (OpenAI)

Da es sich zu diesem Zeitpunkt nur noch um Texte, die keine persönlichen Daten enthalten, handelte, konnten wir dies unserer Einschätzung nach ruhigen Gewissens tun.

Beide Modelle lieferten beeindruckend gute und sehr brauchbare Zusammenfassungen der langen Texte. Die Ergebnisse waren stilistisch etwas unterschiedlich, aber inhaltlich jeweils auf den Punkt. Hier scheint die Wahl des Modells eher eine Frage des persönlichen Geschmacks zu sein.

Fazit unseres Experiments

Kann man mit KI direkt aus Audioaufzeichnungen Zusammenfassungen erstellen lassen? Ja, aber mit Einschränkungen.

Der Workflow funktioniert: Mit der richtigen Kombination aus Hardware (ein gutes Smartphone-Mikro) und Software (NoScribe) lässt sich ein datenschutzfreundlicher Prozess für die Transkription aufsetzen.
Die Qualität stimmt: Cloud-basierte KI-Modelle wie Claude und ChatGPT sind hervorragend in der Lage, aus den Transkripten qualitativ hochwertige Zusammenfassungen zu generieren.
Lokale KI an der Grenze: Der Traum, den gesamten Prozess von Anfang bis Ende auf einem lokalen Rechner laufen zu lassen, scheitert aktuell noch an den Hardware-Anforderungen für die Nutzung der großen, leistungsstarken Sprachmodelle.

Ich denke, wir haben alle auf jeden Fall viel gelernt. Letztlich ist die automatisierte Transkription von Tonaufnahmen und Zusammenfassung dieser bereits in großen Teilen datenschutzkonform möglich und kann bei der Dokumentation von weiteren Bar-Camp Sessions eine Hilfe sein. Aber auch darüber hinaus: zum Beispiel bei Interviews im Rahmen von Evaluierungen, auch wenn hier momentan noch der ein oder andere manuelle Schritt zur notwendigen vollständigen Anonymisierung nötig sein kann, bevor Transkripte in Cloud-Modelle geladen werden.

Ein großer Dank geht an dieser Stelle nochmal an Julius Falk, Damian Paderta und Jonas Stettner von CorrelAid, die uns ihr ParrotPark Modell zum Testen zur Verfügung gestellt haben, sowie Gemini für die Unterstützung beim Feinschliff dieses Artikels.