Hinter den Kulissen der KI: Sprachmodelle beim Espresso-Talk entschlüsselt?
Beim Espresso-Talk gab es von Jonas Stettner aus dem CDL-Teams eine sehr informative Einführung in generative Sprachmodelle und ihre Einsatzmöglichkeiten. Sein Input beleuchtete grundlegende Konzepte der KI-Technologie und deren praktische Anwendungen. Was besonders beeindruckt: Die Darstellung von KI als zielgerichtete Fähigkeit, die menschliche Denkprozesse (lediglich) nachahmt. Neuronale Netzwerke – deren Konzept bereits in den 1940er Jahren entstand – übersetzen biologische Neuronenfunktionen folglich in mathematische Formeln.
DeepLearning: Schichten, Parameter und Selbstoptimierung
Was wir heute als DeepLearning bezeichnen, basiert damit auf mehreren vernetzten Schichten mit Parametern, Gewichtungen und Bias. Das System optimiert sich selbst durch kontinuierliches Lernen: Es vergleicht Ergebnisse mit verschiedenen Zielwerten und korrigiert sich selbst – ein Prozess, der milliardenfach multiperspektiv wiederholt wird.
Funktionsweise neuronaler Sprachmodelle
Sprachmodelle prognostizieren im Kern die Wahrscheinlichkeiten nachfolgender Wörter. In neuronalen Sprachmodellen werden Wörter als Eingabe (Tokens) verwendet und durch Verfahren wie Masked Language Modelling trainiert. Dabei werden die Tokens innerhalb des Inputs kontextualisiert – das Modell wird parallel mit diversen Wörtern, Kontexten und Inhalten trainiert.
Offene vs. proprietäre Modelle in der Praxis
GPT-4 operiert beispielsweise mit etwa 1,8 Billionen Parametern. Jonas differenzierte in seinen Ausführungen zwischen offenen Modellen (die nicht zwangsläufig Open Source sind) und proprietären Lösungen wie ChatGPT. Plattformen wie HuggingFace werden als zentrale Anlaufstelle für offene Modelle vorgestellt.
Die Grenzen des maschinellen Sprachverständnisses
Eine zentrale Erkenntnis von generativen Sprachmodellen war, dass Bedeutung durch Syntax und externe Referenzen entsteht. Large Language Models (LLMs) „verstehen“ Sprache nicht im menschlichen Sinne – vielmehr erkennen sie lediglich statistische Muster. Die eigentliche Bedeutung wird erst durch menschliche Interpretation hinzugefügt. Dies wirft fundamentale Fragen auf, etwa ob Bedeutung eine Referenz außerhalb von Sprache braucht oder nicht? Inwieweit kann ein System, das auf statistischen Mustern basiert, tatsächlich „Verständnis“ entwickeln?