Zum Inhalt springen

Clickwork – unsichtbare Arbeit hinter der ‘künstlichen Intelligenz’

Im Datenvorhaben all.txt haben wir nach vielen Wochen Arbeit einen Datensatz zu genderinklusiver Sprache veröffentlicht. In diesem Beitrag wollen wir den Fokus auf die Datenarbeit – auch Clickwork oder Klickarbeit genannt – legen, die es braucht, damit solche Datensätze entstehen und was es bedeutet, wenn große Tech-Firmen diese Arbeit outsourcen.


24. 09. 2024

Im Datenvorhaben mit all.txt – dem bald verfügbaren Texteditor für genderinklusive Sprache – entstand nach vielen Wochen Arbeit im Civic Data Lab ein Datensatz, den wir unter CC BY-NC-SA hier veröffentlicht haben. In diesem Beitrag wollen wir den Fokus auf die Datenarbeit – auch Clickwork oder Klickarbeit genannt – legen, die es braucht, damit solche Datensätze entstehen und was es bedeutet, wenn große Tech-Firmen diese Arbeit outsourcen. Denn auch wenn große Mengen Datenarbeit unabdingbar für jede Anwendung „künstlicher Intelligenz” ist, sind die Menschen hinter dieser Arbeit meist unsichtbar.

Warum braucht es diesen Datensatz? Und wie laufen Large-Language Models ab?

Damit ein Large-Language Model (deutsch: großes Sprachmodell), die Basis für all.txt, lernen kann, für welche Wörter es welche Vorschläge anbieten soll, braucht es „Lernhilfen“ – und eine Menge Arbeit. Im Fall von all.txt entstand dafür ein Basiswörterbuch mit über 2.000 Begriffen und den jeweiligen genderneutralen Alternativen. Damit die spätere Anwendung des Editors auch für ganze Sätze funktioniert, musste das Modell mit Beispielen „gefüttert“ werden. In diesem Fall wurde zu allen Wörtern je ein Beispielsatz erstellt und entgendert. Diese Daten bieten nun die Grundlage für das Labelling, das in den kommenden Wochen erfolgen wird (mehr dazu findet ihr im letzten all.txt-Blog-Beitrag). Der gelabelte Datensatz wird der bisher erste (systematische) Datensatz dieser Art in deutscher Sprache sein. Ebenso wie das Labelling, ist auch die Erstellung solcher Datensätze sehr zeitaufwändig und hat uns viele Wochen Arbeit gekostet.

Klickarbeit – Die Arbeitsbedingungen und Menschen hinter der „künstlichen“ Intelligenz

Auch OpenAI nutzt für die „künstliche“, generative Intelligenz ChatGPT solche Large-Language Models und ist auf Klickarbeiter*innen angewiesen. Seit dem Aufschwung dieser Datenprodukte steigt auch die Zahl der Menschen, die für das Funktionieren und den Erfolg dieser populären Anwendungen benötigt werden. Denn auch wenn der Begriff KI etwas anderes suggeriert und Tech-Firmen gerne davon sprechen, dass mit diesen Anwendungen Neues mit einem Mausklick erschaffen wird: Es braucht Millionen von Menschen, die riesige Datenmengen generieren, sichten, ordnen und labeln, damit diese überhaupt zur Zufriedenheit ihrer menschlichen Benutzenden funktionieren können.

Ihre Arbeit, insbesondere die Arbeitsbedingungen, findet dabei hinter den Kulissen der großen Tech-Unternehmen statt und ist für Anwendende meist unsichtbar. Im Rampenlicht stehen die Gründer*innen oder führenden Köpfe der betreibenden Tech-Firmen und Start-Ups, die für ihre Innovationskraft gefeiert werden. Der große Profit, den ihre Anwendungen abwerfen, ist nur möglich, weil die permanent anfallende Klickarbeit outgesourct wird: In Ländern wie Kenia, Venezuela oder Kolumbien arbeiten sogenannte Klickarbeiter*innen meist unter zwei Dollar pro Tag unter ausbeuterischen Arbeitsverhältnissen, wie Recherchen und Befragungen regelmäßig offenlegen. Häufig werden sie nicht stundenweise, sondern nach Ergebnissen bezahlt und sind der Willkür der Arbeitgeber*innen ausgesetzt. Psychische Probleme und finanzielle Abhängigkeiten sind häufige Folgen.

file-20230329-18-rfyw56

Drawing of the premises of a data annotation company. Erstellt mit MidJourney durch Clément Le Ludec und Maxime Cornet von theconversation.com. CC-BY-4.0, CC BY-NC.

Hinter künstlicher Intelligenz steckt viel menschliche Arbeit – unser Fazit:

Die Erstellung des Datensatzes hat uns im Civic Data Lab wieder vor Augen geführt, wie viel menschliche Arbeit hinter der „künstlichen“ Intelligenz steckt. Und wie viele Aspekte medial und gesellschaftlich seit Jahren unterbeleuchtet sind: Woher kommen die Daten? Wer bearbeitet(e) sie und zu welchen Bedingungen? Wessen Arbeit wird hinter den Kulissen täglich unsichtbar in armen Ländern der Welt geleistet und ist nicht eingepreist? Und auch bei gemeinwohlorientierten Vorhaben: Wer profitiert am Ende des Tages und wer zahlt den Preis? All diese Fragen müssen Teil der Debatte um die Sinnhaftigkeit und Anwendungsmöglichkeiten dieser Produkte werden, damit diese glaubhaft geführt werden kann.


Autor*innen