Zum Inhalt springen

Erstes Datenvorhaben gestartet: Civic Data Lab (CDL) unterstützt all.txt zur Förderung von genderinklusiver Sprache

Wir schaffen offene Daten für genderinklusive Sprache und unterstützen all.txt bei der Bereitstellung ihres Datenprodukts in der Cloud. Ziel ist es, wertvolle Erkenntnisse zu sammeln, wie Datenprodukte in der Zivilgesellschaft nachhaltig in Produktion gehen können.

 


23. 01. 2024

Die Idee – einfach, inklusiv und zielführend

all.txt ist ein Online-Texteditor, der inklusives und genderneutrales Schreiben in deutscher Sprache ermöglichen soll. Bei dieser Software handelt es sich um einen Texteditor und eine Rechtschreibprüfung, die als Plugin heruntergeladen werden kann und der es ermöglicht, geschlechtsneutrale Texte im Browser zu schreiben. Das Ziel von all.txt ist, überholte und nicht-inklusive Sprachpraktiken der Menschen auf zeitgemäße Weise durch Anleitung, Übung und Erklärung zu ändern. Die Software soll als Brücke zwischen Unsicherheit bei der Verwendung von geschlechtergerechter Sprache und dem Verständnis für Gender dienen. Das Programm bietet somit eine einfache Möglichkeit, Unternehmen und Menschen, die im Netz aktiv sind, bei der Verwendung von genderneutraler Sprache im täglichen Gebrauch zu unterstützen.

 

Warum ist das Datenvorhaben von all.txt für die Zivilgesellschaft relevant?

Die deutsche Sprache entwickelt sich ständig weiter und Menschen lernen immer mehr über Geschlecht/Gender und (Neo-)Pronomen. Das Gendern wird oftmals kritisiert, da es für viele eine Umstellung bedeutet und sich als Wissenslücke in der Gesellschaft erweist. Soziologische Forschungen, aber auch andere Forschungsfelder belegen, dass Geschlecht ein soziales Konstrukt ist, das durch Politik, Bildung und Wissenschaft geschaffen, aufrechterhalten und verbreitet wird (Butler, 1993). Im deutschsprachigen Kontext hat sich allerdings eine binäre Trennung der Sprache durchgesetzt. Dabei werden die sechs biologischen Geschlechter sowie Cis-Frauen, inter*, trans* und nicht-binäre Menschen durch das generische Maskulinum sprachlich ausgelöscht [1]. Das macht es nahezu unmöglich, diese Informationen durch Kommunikation zu vermitteln.

Wir begegnen geschlechtsspezifischer Sprache in unserem Alltag. Wenn beispielsweise in einer beruflichen E-Mail Menschen angesprochen werden, verwenden viele den Ausdruck `Sehr geehrte Frau´ oder `Sehr geehrter Herr´ und fügen den Nachnamen hinzu. Anstatt einfach zu sagen `Sehr geehrte*r voller Name´ oder `Guten Tag voller Name´. Stell Dir zum Beispiel vor, Du willst jemandem eine E-Mail schreiben und kennst nur dessen Namen. Das reicht nicht aus, um zu wissen, mit welchem Geschlecht sich die Person identifiziert oder welche Pronomen Du verwenden sollst, um zu vermeiden, dass Du die Person, die Du für eine Zusammenarbeit ansprechen willst, falsch ansprichst und dadurch konsequent diskriminierst. Hier soll Dir all.txt helfen, anhand von Textvorschlägen Deinen Text von geschlechtsspezifischer zu inklusiver deutscher Sprache umzuwandeln. Geschlechtsneutrale Sprache bedeutet nicht nur, ein Sternchen „*“ oder einen Doppelpunkt „:“ als Vielfalt für Geschlechtsidentität zu benutzen, sondern geht noch einen Schritt weiter und verwendet geschlechtsneutrale Wörter.

Unterstützung durch das CDL in zwei Teilvorhaben – worum geht es konkret?

1. Labelling: Offene Daten für genderinklusive Sprache schaffen

Large-Language Models (deutsch: großes Sprachmodell), wie sie auch bei ChatGPT eingesetzt werden, bilden eine solide Basis für all.txt. Allerdings sind bestehende Modelle noch nicht ausreichend in der Lage, gendersensible Sprache im Deutschen umzusetzen. Damit bestehende Modelle dazu befähigt werden können, braucht es Daten, die diese Informationen enthalten, die also zeigen, welche Formulierungen und Wörter gendersensibel verwendet werden können und welche tendenziell nicht gendersensibel sind. Ein solcher Datensatz könnte so aussehen:

  • Mann > maskulin
  • Frau > feminin
  • Personen > neutral
  • Studenten > männlich
  • Studierende > neutral
  • Buch > nicht gelabelt
  • Stuhl > nicht gelabelt

Im Kontext des Maschinellen Lernens und Künstlicher Intelligenz bezeichnet man “maskulin”, “feminin”, “neutral” als Labels (deutsch: “Etiketten”). Labels weisen Datenpunkten – in unserem Beispiel “Mann”, “Frau” usw. – inhaltliche Kategorien zu. Die Labels erfassen in diesem Fall das soziale Geschlecht, was Wörtern und Begriffen gesellschaftlich überwiegend zugeschrieben wird. Das ist unabhängig vom grammatikalischen Geschlecht, das jedes Nomen im Deutschen hat. Zum Beispiel ist “das Mädchen” grammatikalisch neutrum, wird aber als sozial “feminin” zugeschrieben. Auf der anderen Seite können Wörter grammatikalisch maskulin oder feminin sein, ohne dass sie gesellschaftlich geschlechtliche Zuschreibungen erhalten. So ist “der Stuhl” grammatikalisch maskulin, ihm wird aber gesellschaftlich kein soziales Geschlecht zugewiesen.

Derartige gelabelte Daten liegen für den deutschsprachigen Raum noch nicht vor. Eine zentrale Mission von all.txt ist es daher, diese Daten zu schaffen und für andere Initiativen bereitzustellen. Mithilfe der so gelabelten Daten kann das Modell von all.txt genderinklusive Sprache lernen.  Außerdem werden die Daten als Open Data bereitgestellt, sodass andere Initiativen und Projekte diese Daten verwenden können.

 

Das Civic Data Lab unterstützt all.txt beim Labelling von Daten mit:

  • der Evaluation von Tools zum gemeinschaftlichen Labelling der Daten
  • je nach Auswahl: Bereitstellung des Tools für den Projektzeitraum und/oder Unterstützung beim Aufsetzen des Tools auf all.txt-Infrastruktur
  • der Organisation und Durchführung eines Events, bei dem Daten gemeinschaftlich gelabelt werden

 

2) all.txt in der Cloud verfügbar machen

Damit der all.txt-Editor dann auch wirklich verwendet werden kann, muss die entwickelte Software bereitgestellt werden. Hierfür bieten sich Cloud-Anbieter an, die Rechenkapazitäten bereitstellen.

Früher hat man Software häufig lokal – d.h. auf dem eigenen PC – installiert (bspw. Microsoft Word). Seit Jahren geht aber der Trend zu webbasierter Software. Diese wird dann nicht mehr bei sich installiert, sondern durch einen Anbieter “in der Cloud“ bereitgestellt und kann dann im Browser verwendet werden (bspw. Google Docs). Bei all.txt ist es ein Mix: Es wird ein Plugin lokal installiert (wie bspw. eine Firefox-Erweiterung). Die eigentliche Logik der Anwendung (bspw. die Vorschläge für genderinklusive Sprache) ruft das Plugin von einem Server ab, auf dem dieser Teil der Software zur Verfügung gestellt wird.

 

In Zusammenarbeit mit einem Dienstleister unterstützt das Civic Data Lab all.txt bei der Inbetriebnahme des Editors mit:

  • der Evaluation von Cloud-Anbietern, insbesondere mit Fokus auf Ethik und Nachhaltigkeit
  • Entwicklung eines Cloud-Konzepts unter Verwendung von Open Source Technologien wie Docker und Huggingface
  • Umsetzung des Konzepts und Bereitstellung von all.txt in der Cloud

Erkenntnisse aus dem Prozess werden im Nachgang des Datenvorhabens nachbereitet und der Öffentlichkeit bereitgestellt.

 

Weiterführende Ressourcen

ChatGPT – kurz erklärt beim KI-Campus

all-txt.de

Judith Butler, 1993: Bodies That Matter: On the Discursive Limits of “Sex”

[1] Erklärungen der Begriffe nicht-binär, trans*, inter* auf S.5-8 in der Broschüre “trans ganz einfach” . Cis-Frauen sind Frauen, die nicht trans* sind.

Webaufnahme_23-1-2024_95640_www.all-txt.de

Autor*in

T05FSMP3KQS-U05FPQ6U745-7b6646010cb8-512

Frie Preu (dey/er/ihm)

Kontakt in HumHub