GLOSSAR – Grundbegriffe der Datenwissenschaft und des Datenmanagements


In unserem Glossar findest du ein alphabetisch geordnetes Verzeichnis von (Fach-)Begriffen und speziellen Ausdrücken aus dem Bereich der Datenwissenschaft und des Datenmanagements. Es soll dir als Orientierung dienen und bietet dir weiterführende Erklärungen zu den aufgelisteten Begriffen. Weiterhin werden wir sukzessive informative (Blog-)Artikel oder Angebote aus unserer Academy für dich bei den jeweiligen Begriffen verlinken.

Falls ein Begriff nicht aufgeführt ist, du ihn aber vermisst – zögere nicht, uns zu kontaktieren. Wir ergänzen ihn gern. 🙂

Ein Algorithmus ist eine formal festgelegte Vorgehensweise, die eine Aufgabe gemäß eines bestimmten Schemas löst und einen Eingabewert zu einem Ausgabewert umformt. Ein Beispiel ist der PageRank-Algorithmus, der Websiten auf Grundlage der Linkpopularität, d.h. der Anzahl an Links die auf eine Seite verweisen, nach Relevanz sortiert. Im öffentlichen Diskurs wird der Begriff oft im Zusammenhang mit technischen Anwendungen zu Automatisierung und Optimierung von Prozessen, wie Suchmaschinenalgorithmen, Verschlüsselungstechniken und maschinelles Lernen.

Personenbezogene Daten, die so anonymisiert wurden, dass die Person nicht mehr identifizierbar ist, gelten nicht als personenbezogene Daten. Damit Daten wirklich anonymisiert sind, muss die Anonymisierung unumkehrbar sein.

Übersetzt von: https://commission.europa.eu/law/law-topic/data-protection/data-protection-explained_en

Big Data bezeichnet extrem große und komplexe Datenmengen, die sich durch ihr Volumen, ihre Vielfalt und ihre Geschwindigkeit auszeichnen. Diese Daten sind oft zu umfangreich und vielfältig, um mit traditionellen Datenverarbeitungstools effektiv verarbeitet zu werden. Big Data wird genutzt, um Muster, Trends und Zusammenhänge zu erkennen, die Unternehmen und Organisationen dabei unterstützen, fundierte Entscheidungen zu treffen.

Business Intelligence (BI) umfasst Technologien, Prozesse und Tools, die Daten in nützliche Informationen und Erkenntnisse umwandeln. BI hilft Unternehmen dabei, datenbasierte Entscheidungen zu treffen, indem sie vergangene, gegenwärtige und zukünftige Geschäftsdaten analysiert. Typische BI-Tools beinhalten Dashboards, Datenvisualisierungen und Berichterstattungssysteme.

Ein Chatbot ist eine Software, die textbasierte oder gesprochene Kommunikation über ein Eingabe- und Ausgabefeld ermöglicht.. Es handelt sich um ein Teilgebiet der Künstlichen Intelligenz, in dem Methoden entwickelt werden, um automatisierte Dialogsysteme zu erstellen. Im öffentlichen Diskurs steht der Begriff meist für Anwendungen in Kommunikationskanälen wie Webseiten und sozialen Medien, um Kundensupport zu bieten und Anfragen zu beantworten. Ein Beispiel ist die Möglichkeit der Stornierung von Online-Bestellungen über einen Chatbot.

Cloud Computing ist ein Modell, das den Zugriff auf IT-Ressourcen wie Server, Speicher, Datenbanken, Netzwerke, Software und Analysen über das Internet ermöglicht. Anstatt physische Hardware vor Ort zu besitzen und zu verwalten, mieten Unternehmen diese Ressourcen bei Cloud-Anbietern. Cloud Computing bietet Flexibilität, Skalierbarkeit und Kosteneffizienz und wird in verschiedenen Modellen wie Infrastructure as a Service (IaaS), Platform as a Service (PaaS) und Software as a Service (SaaS) bereitgestellt.

In der Academy des Civic Data Labs findest du Lernangebote rund um Daten. Sie bündelt bestehende Lernangebote, entwickelt neue Formate – speziell für die Zivilgesellschaft – und macht sie für alle zugänglich: online, offline, bedarfsgerecht und individuell. Stelle dir deine persönliche Lernreise in die Welt der Daten zusammen und stärke deine Datenkompetenzen.

Ein Dashboard dient dem Informationsmanagement und stellt Daten übersichtlich und grafisch auf einer Benutzeroberfläche dar. Es ähnelt den Steuerungselementen eines Flugzeug-Cockpits und verwendet verschiedenste Visualisierungsmöglichkeiten wie Tachometer, Balken- oder Säulendiagramme oder auch Karten um Daten auf einen Blick zugänglich zu machen und kritisch hervorzuheben (z.B. Tachometer, Balken-, Säulen- und Kuchendiagramme).

Data Governance bezeichnet ein Teilgebiet des Datenmanagements, das Richtlinien, Standards und Verfahren entwickelt, um den Umgang mit Daten zu steuern. Es umfasst die systematische Verwaltung von Datenressourcen, um deren Nutzen zu maximieren und rechtliche Anforderungen zu erfüllen. Dies betrifft Aspekte wie Datenspeicherung, Datenschutz und Datenethik.

Die so genannte Datenwissenschaft generiert Informationen aus großen Datenmengen, um daraus Handlungsempfehlungen für das Management abzuleiten. Ziel dieser Handlungsempfehlungen ist die Verbesserung der Qualität von Entscheidungen und der Effizienz von Abläufen. Data Science ist ein interdisziplinärer Ansatz und die Schnittmenge aus Mathematik, Informatik und spezifischem Fachwissen.

Ein Data Steward ist verantwortlich für die Verwaltung und Überwachung von Daten innerhalb einer Organisation. Diese Rolle umfasst Aufgaben wie die Festlegung von Datenstandards, die Sicherstellung der Datenkonsistenz und -genauigkeit sowie die Verwaltung des Datenzugriffs und die Einhaltung von Datenschutzvorschriften. Data Stewards arbeiten eng mit anderen Abteilungen zusammen, um eine effektive Datennutzung zu gewährleisten.

Der Begriff beschreibt die Fähigkeit, Daten auf kritische Art und Weise zu sammeln, zu managen, zu bewerten und anzuwenden. Da Digitalisierung immer mehr Raum im gesellschaftlichen Leben einnimmt, gehört es zur zivilgesellschaftlichen Aufgabe für jeden Menschen, grundlegende Aspekte der Datenerfassung, -speicherung, -verarbeitung und -analyse sowie dem Verständnis der entsprechenden Ergebnisse in allen Lebensbereichen zu entsprechen und allen Menschen zu ermöglichen. Damit wird Data Literacy immer mehr zur Notwendigkeit eines Lernens und Lehrens von Datenkompetenzen.

Data Mining beschreibt den Prozess, bei dem große Datenmengen analysiert werden, um Muster und wertvolle Informationen zu entdecken. Es umfasst Methoden wie Clusteranalyse, Klassifikation und Regressionsanalyse, die in Bereichen wie Marketing, Finanzanalyse und Gesundheitswesen eingesetzt werden. Data Mining unterstützt datengetriebene Entscheidungsprozesse und die Automatisierung von Analyseaufgaben.

Data Stewardship ist die verantwortungsvolle Verwaltung von Daten innerhalb einer Organisation. Es umfasst die Festlegung und Durchsetzung von Datenstandards, die Sicherstellung der Datenkonsistenz und -qualität sowie die Einhaltung von Datenschutzvorschriften. Data Stewardship fördert eine Kultur des datenbewussten Handelns und unterstützt die strategischen Ziele der Organisation.

Data Storytelling ist die Kunst, Daten verständlich und ansprechend zu präsentieren. Es kombiniert visuelle und narrative Methoden, um Erkenntnisse aus Daten zu vermitteln und Entscheidungsprozesse zu unterstützen. Techniken umfassen Diagramme, Infografiken und interaktive Visualisierungen, die das Verständnis komplexer Zusammenhänge erleichtern. Dabei soll eine überzeugende Geschichte, die durch ansprechende Infografiken und Visualisierungen untermauert wird, das Verständnis für komplexe Zusammenhänge erleichtern.

Daten sind nicht per se Information. Daten können analysiert und interpretiert werden und dadurch Information generiert werden. Sie liegen in strukturierter, semistrukturierter oder unstrukturierter Form vor, die zur Verarbeitung und Analyse genutzt werden können. Ein gutes Beispiel für diese verschiedene Formen ist eine Word-Datei – diese liegt meist in unstrukturierte Form vor und lässt sich nur schwer verarbeiten. Werden Word-Dateien jedoch mit einem Meta-Tag gekennzeichnet, lassen sie sich einfacher finden und ordnen – sie sind dann semistrukturiert. Eine Excel-Tabelle oder eine Datenbank hingegen stellen eine strukturierte Datenform dar, mit der sich unkompliziert Analysen tätigen lassen. Daten sind u.a. ein grundlegender Baustein der Informationstechnologie und der Wissenschaft und ermöglichen es, neues Wissen zu generieren und Entscheidungen zu treffen.

  • Variablen werden nach anderen Variablen (Gruppierungsvariable) aggregiert und es werden nur Statistiken (z.B. Anzahl, Mittelwert, Varianz) auf aggregierter Ebene (weiter-)verwendet.
  • Beispiele für Datenaggregation: Kreuztabellen, Pivot-Tabellen

Aggregation ist auch nicht sicher vor Attacken (z.B. durch die Kombination mit externen Daten)

Datenanalyse ist der Prozess der (systematischen) Untersuchung von Daten, um Erkenntnisse zu gewinnen. Sie umfasst Techniken wie deskriptive, explorative und inferentielle Analysen und unterstützt datenbasierte Entscheidungen. Datenanalyse findet Anwendung in Bereichen wie Wirtschaft, Gesundheitswesen, Marketing und Wissenschaft. Deskriptiv:

Die beschreibende Statistik hat zum Ziel einen Überblick über die Daten zu bekommen. Dabei wird vor allem mit (Häufigkeits-)Tabellen gearbeitet oder Kennwerten wie Mittelwert, Median, Standardabweichung und Varianz berechnet.

  • Deskriptives Vorgehen: Die beschreibende Statistik hat zum Ziel einen Überblick über die Daten zu bekommen. Dabei wird vor allem mit (Häufigkeits-)Tabellen gearbeitet oder Kennwerten wie Mittelwert, Median, Standardabweichung und Varianz berechnet.
  • Exploratives Vorgehen: Bei der als auch erforschenden Statistik bezeichneten Methode, steht die Sammlung von Information im Vordergrund zudem es bisher kein oder wenig Wissen gibt. Es werden zum Beispiel noch keine Hypothesen aufgestellt.
  • Inferentielle Statistik: Auch als schließende Statistik bezeichnet, beschreibt den statistischen Prozess, von den Ergebnissen einer Stichprobe auf die Grundgesamtheit zu schließen.

Datenarchitektur ist die strukturierte Organisation und Verwaltung von Daten in einer Organisation. Sie umfasst die Definition von Datenmodellen, Datenflüssen, Speicherlösungen und Sicherheitsmaßnahmen. Datenarchitektur ist entscheidend für die Effizienz und Integrität der Datenverarbeitung in einer Organisation.

Eine Datenbank ist ein System zur Speicherung und Verwaltung von Daten. Es handelt sich um eine Softwareanwendung, die strukturierte Daten in Tabellen (Spalten und Zeilen) organisiert und effiziente Abfragen und Transaktionen ermöglicht. Datenbanken werden in zahlreichen Bereichen eingesetzt, um große Mengen an Informationen sicher und zugänglich zu halten.

Datenbereinigung ist der Prozess, bei dem fehlerhafte, unvollständige oder redundante Daten identifiziert und korrigiert werden. Diese Praxis zielt darauf ab, die Qualität und Genauigkeit von Datensätzen zu verbessern. Datenbereinigung ist entscheidend für die Zuverlässigkeit und Interpretation der Datenanalyse. Überall wo mit Daten gearbeitet wird, muss eine Datenbereinigung stattfinden und wird u.a. in Bereichen wie Marketing, Gesundheitswesen und Forschung angewendet.

Datenerhebung beschreibt den Prozess der systematischen Sammlung von Daten. Dies ist eine zentrale Praxis in der Forschung und Datenverarbeitung, um verlässliche und relevante Daten für Analysen und Entscheidungen zu gewinnen. Methoden umfassen Umfragen, Beobachtungen, Sensoren und Datenbanken.

Datenethik beschreibt das Studium und die Anwendung ethischer Prinzipien im Umgang mit Daten. Sie umfasst Themen wie Datenschutz, Datenhoheit, algorithmische Fairness und die Vermeidung von Diskriminierung. Datenethik ist entscheidend, um und eine sichere und gerechte Anwendung sicherzustellen.

Datenintegrität bezieht sich auf die Genauigkeit, Konsistenz und Zuverlässigkeit von Daten über ihren gesamten Lebenszyklus hinweg. Es stellt sicher, dass Daten vollständig, korrekt und unversehrt bleiben, unabhängig davon, wie oft sie bearbeitet oder übertragen werden. Datenintegrität ist entscheidend für die Glaubwürdigkeit und Verlässlichkeit von Daten in jeder Art von System.

Datenqualität beschreibt den Zustand von Daten in Bezug auf verschiedene Faktoren wie Genauigkeit, Vollständigkeit, Konsistenz, Aktualität und Relevanz. Hochwertige Daten sind entscheidend, um verlässliche Analysen durchzuführen und fundierte Geschäftsentscheidungen zu treffen. Schlechte Datenqualität kann zu falschen Schlussfolgerungen und ineffizienten Prozessen führen.

Datenkompetenz ist die Fähigkeit, Daten effektiv zu verstehen, zu analysieren und zu nutzen. Sie umfasst Kenntnisse in Statistik, Datenanalyse, Datenvisualisierung, Datenmanagement und Datenethik und fördert datenbasierte Entscheidungen. Datenkompetenz ist in zahlreichen Bereichen wichtig und hilft, aus Daten wertvolle Erkenntnisse zu gewinnen.

Eine Datenkultur beschreibt die Art und Weise, wie Daten innerhalb einer Organisation oder Gesellschaft wahrgenommen und genutzt werden. Sie fördert eine Umgebung, in der Daten als strategische Ressource betrachtet werden, um Innovationen zu fördern und Entscheidungsprozesse zu optimieren. Datenkultur beinhaltet die Förderung von Datenkompetenz und die Einhaltung ethischer Standards.

Der Daten Lebenszyklus beschreibt den gesamten Lebensweg von Daten, von ihrer Erfassung bis zur Archivierung oder Löschung. Er umfasst Phasen wie Datenerfassung, -speicherung, -verarbeitung, -analyse und -archivierung. Ein gutes Management des Daten Lebenszyklus hilft Organisationen, ihre Daten effizient zu nutzen und Datenschutzrichtlinien einzuhalten.

Datenmanagement ist der systematische Prozess der Verwaltung, Organisation und Sicherung von Daten. Es umfasst die Planung und Implementierung von Strategien und Verfahren zur Verwaltung des gesamten Daten Lebenszyklus. Datenmanagement ist entscheidend für Effizienz, Sicherheit, Qualität und Transparenz der Datennutzung..

Datenmodellierung ist der Prozess der Konzeption, Definition und Visualisierung von Datenstrukturen und deren Beziehungen in einer Datenbank oder einem Informationssystem. Sie umfasst die Erstellung von Entitäts-Beziehungs-Diagrammen, logischen und physikalischen Datenmodellen sowie die Festlegung von Datenattributen und Schlüsseln. Datenmodellierung ist entscheidend für die Entwicklung von Datenbanken und Informationssystemen.

Ein Datenökosystem ist eine Sammlung von Infrastrukturen, Anwendungen und Analysen. Es erfasst und analysiert Daten. Ökosystem wird anstelle von ‘Umgebung` verwendet, weil Datenökosysteme, wie reale Ökosysteme, darauf ausgelegt sind, sich im Laufe der Zeit weiterzuentwickeln.

Der Begriff Datenpipeline bezeichnet eine Reihe von Prozessen, durch die Daten von mindestens einer Quelle zu mindestens einem Ziel übertragen werden. Die Daten durchlaufen dabei eine Abfolge von Verarbeitungsschritten. Sie dient der Automatisierung und Orchestrierung von Datenflüssen und ermöglicht sowohl die Echtzeit- als auch die Batch-Verarbeitung. Typische Schritte in einer Datenpipeline umfassen die Sammlung, Bereinigung, Transformation und schließlich das Laden der Daten in das Zielsystem. Datenpipelines sind essenziell für die effiziente und konsistente Verarbeitung großer Datenmengen in modernen Datenarchitekturen

Datenschutz beschreibt Maßnahmen zum Schutz personenbezogener Daten vor Missbrauch, unbefugtem Zugriff und Verlust. Er umfasst Gesetze, Richtlinien und Techniken, die Organisationen verpflichten, personenbezogene Daten sicher zu verwalten. Datenschutz ist entscheidend, um das Vertrauen der Öffentlichkeit zu wahren und die Rechte Einzelner zu schützen.

Datensicherheit bezeichnet Maßnahmen und Technologien zum Schutz digitaler Informationen und zur damit verbundenen Vertraulichkeit, Integrität und Verfügbarkeit dieser. Sie umfasst Sicherheitsmaßnahmen wie Verschlüsselung, Zugangskontrollen und regelmäßige Audits, um sensible Informationen vor Bedrohungen wie Cyberangriffen zu schützen. Datensicherheit ist entscheidend für den Schutz der Privatsphäre und die Einhaltung von Datenschutzbestimmungen.

Eine Datenstrategie ist ein umfassender Plan, der festlegt, wie ein Unternehmen seine Daten als strategische Ressource nutzen kann. Sie umfasst Richtlinien und Verfahren zur Erfassung, Speicherung, Analyse und Nutzung von Daten, um geschäftliche Ziele zu erreichen. Eine gut definierte Datenstrategie hilft Unternehmen, den maximalen Nutzen aus ihren Daten zu ziehen und Wettbewerbsvorteile zu erlangen.

Datenvisualisierung beschreibt die grafische Darstellung von Daten und Informationen. Sie umfasst Methoden und Techniken zur Erstellung von Diagrammen, Grafiken und interaktiven Visualisierungen, um Muster und Trends in Daten schnell erkennen zu können. Datenvisualisierung unterstützt Entscheidungsprozesse und fördert das leicht zugängliche Verständnis komplexer Zusammenhänge.

Der Begriff Datenvorhaben beschreibt ein geplantes Projekt oder eine Initiative, bei dem bzw. der Daten eine zentrale Rolle spielen. Er umfasst die Sammlung, Analyse und Nutzung von Daten, um Entscheidungsprozesse zu verbessern und Innovationen voranzutreiben. Datenvorhaben sind entscheidend, um Wettbewerbsvorteile zu erlangen und zukünftige Herausforderungen zu bewältigen.

Differential Privacy ist ein Konzept des Datenschutzes, das die Freigabe von Daten oder Ergebnissen von Datenanalysen mit einer mathematischen Garantie des Datenschutzes ermöglicht. Im Mittelpunkt stehen Algorithmen zur Datenfreigabe (z. B. zur Berechnung des Mittelwerts, der Summe, der Anzahl usw. eines Datensatzes), die analytische Abfragen entgegennehmen und Ergebnisse produzieren, die auf kontrollierte, zufällige Weise verändert wurden. 

Übersetzt von hier: https://medium.com/dsaid-govtech/protecting-your-data-privacy-with-differential-privacy-an-introduction-abee1d7fcb63 

Den Daten wird sogenanntes Rauschen zugefügt. Dahinter stecken verschiedene Verfahren, um eine Art kontrollierten Zufall bei der Beantwortung von Abfragen einzuführen. (https://cispa.de/differential-privacy

Wann/wo wird Rauschen hinzugefügt?

  • Rauschen/Noise wird bei der Berechnung der Aggregierten Kennzahlen hinzugefügt (“Global mode”)
  • Rauschen/Noise wird den einzelnen Datenpunkten vor der Aggregation hinzugefügt (“local mode”)

Weitere Quellen: https://desfontain.es/blog/friendly-intro-to-differential-privacy.html

In der Informatik sind Dummy-Daten harmlose Informationen, die keine nützlichen Daten enthalten, sondern als Platzhalter für echte Daten dienen, z.B. 

  • Alter durch zufällige Werte ersetzen. 
  • Postleitzahlen durch 5-stellige zufällige Zahlenfolgen ersetzen (oder durch zufällige PLZ)

Vorteil:

  • Generelles Datenschema wird beibehalten -> gut, wenn “Inhalt” der Daten nicht wichtig ist. 

Nachteil: 

  • Ursprünglicher Informationsgehalt der Daten geht verloren 

Few-Shot-Learning (FSL) bezeichnet Fähigkeiten und Kompetenzen, die KI-Modelle mit nur wenigen Trainingsdaten entwickeln. Diese Methode erlaubt einem KI-Modell, neue Daten zu erkennen und zu klassifizieren, nachdem es nur einer geringen Zahl von Trainingsbeispielen ausgesetzt wurde. FSL reduziert die benötigte Datenmenge für das Training und wird häufig in der Computer Vision eingesetzt.

Generative KI-Modelle (GenAI) sind Modelle, die neue Inhalte wie Texte, Bilder oder Videos erzeugen. Sie findet Anwendung in Bereichen wie Kunst, Unterhaltung und E-Commerce. Generative KI nutzt Machine Learning und Deep Learning, um Inhalte basierend auf einfachen Textbeschreibungen zu erstellen. Bekannte Beispiele sind Modelle wie ChatGPT oder Gemini (Google).

Eine Graphendatenbank überführt die Informationen aus Daten in Knoten und Kanten. Diese Struktur ermöglicht es, komplexe Beziehungen zwischen Daten effizient abzubilden und zu analysieren. Graphendatenbanken sind besonders nützlich für Anwendungsbereiche wie soziale Netzwerke, Empfehlungsmaschinen und Netzwerküberwachung.

Hyperscaler sind Unternehmen, die große Mengen an Rechenleistung und Speicherressourcen anbieten. Sie ermöglichen es Unternehmen, flexibel und skalierbar IT-Dienstleistungen zu nutzen. Hyperscaler wie Amazon Web Services (AWS) bieten Dienste wie Cloud-Computing, Big Data und Maschinelles Lernen an, um die Digitalisierung im jeweiligen Kontext zu fördern.

Identifizierbar: als identifizierbar wird eine natürliche Person angesehen, die direkt oder indirekt, insbesondere mittels Zuordnung zu einer Kennung wie einem Namen, zu einer Kennnummer, zu Standortdaten, zu einer Online-Kennung oder zu einem oder mehreren besonderen Merkmalen, die Ausdruck der physischen, physiologischen, genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität dieser natürlichen Person sind, identifiziert werden kann.

  • Ein Datensatz wird als k-anonym bezeichnet, wenn jede Kombination von Werten für demografische Spalten im Datensatz bei mindestens k verschiedenen Datensätzen auftritt. 
  • Informationen für jede in den Daten enthaltene Person kann nicht von mindestens k – 1 Personen unterschieden werden, deren Informationen ebenfalls in den Daten erscheinen.

Übersetzt von: https://desfontain.es/blog/k-anonymity.html

 

  • z.B. nur die ersten 2 Stellen der Postleitzahl, Alterskategorien anstelle von genauem Geburtsdatum
  • Je höher k, desto besser, da es schwieriger wird, Personen zu identifizieren
  • Beispieldatensatz hat k-Anonymität von 1

KI-gestützte Datenanalyse beschreibt die Anwendung von Künstlicher Intelligenz zur Untersuchung und Interpretation von Daten. Sie nutzt Techniken wie Maschinelles Lernen und Neuronale Netzwerke, um Muster und Anomalien in großen Datensätzen zu erkennen. KI-gestützte Datenanalyse verbessert die Effizienz und Genauigkeit von Analyseprozessen und unterstützt datenbasierte Entscheidungen.

Künstliche Intelligenz (KI) ist die Fähigkeit von Maschinen, Aufgaben auf menschenähnliche Weise auszuführen. Sie umfasst Technologien und Methoden, die es Computern ermöglichen, Probleme zu lösen, zu lernen und Entscheidungen zu treffen. KI wird in verschiedenen Bereichen wie Automatisierung, Bild- und Spracherkennung sowie im Gesundheitswesen eingesetzt, um komplexe Aufgaben zu bewältigen.

Large Language Models (LLM) sind große maschinelle Lernmodelle, die natürliche Sprache verstehen und generieren können. Sie basieren auf Deep-Learning-Algorithmen und sind darauf trainiert, Texte zu erstellen, diese zu übersetzen und Fragen zu beantworten. LLMs finden Anwendung in Bereichen wie Textgenerierung, Sprachverarbeitung und Chatbots.

Machine Learning ist ein Teilbereich der künstlichen Intelligenz, der sich darauf konzentriert, Systeme zu entwickeln, die aus Daten lernen und Vorhersagen oder Entscheidungen treffen können, ohne explizit dafür programmiert zu sein. Machine Learning-Algorithmen erkennen Muster in großen Datenmengen und verbessern ihre Leistung durch Erfahrung. Diese Technologie wird in vielen Anwendungen eingesetzt, von Spracherkennung bis hin zu personalisierten Empfehlungen.

Metadaten sind Daten, die Informationen über andere Daten bereitstellen. Sie beschreiben Merkmale wie das Erstellungsdatum, den Autor, das Format und die Dateigröße und sind entscheidend für die Verwaltung, Suche und Nutzung von Informationen. Metadaten helfen, die Organisation von und den Zugriff auf Daten zu verbessern und deren Kontext zu verstehen.

Neural Architecture Search (NAS) ist ein maschinelles Lernverfahren zur automatisierten Entwicklung optimaler neuronaler Netzwerke. NAS-Algorithmen durchsuchen den Raum möglicher Netzwerkarchitekturen, um die beste Leistung für eine bestimmte Aufgabe zu finden. NAS verbessert die Effizienz und Genauigkeit von KI-Modellen und erleichtert deren Entwicklung.

Eine NoSQL-Datenbank ist ein nicht-relationales Datenbankmanagementsystem, das Daten in flexiblen Formaten speichert. Es eignet sich für unstrukturierte und semi-strukturierte Daten und bietet eine hohe Skalierbarkeit und Leistung. NoSQL-Datenbanken wie MongoDB und Cassandra werden in Anwendungen verwendet, die große Datenmengen verarbeiten müssen.

Personalisierung beschreibt die Anpassung von Inhalten und Dienstleistungen an die individuellen Bedürfnisse und Vorlieben von Nutzer*innen. Dies geschieht durch die Analyse und Nutzung von Daten über Nutzerverhalten, -präferenzen und -interaktionen. Personalisierung verbessert die Nutzererfahrung und fördert Kundenbindung und -zufriedenheit in Bereichen wie E-Commerce, Marketing und Medien.

Predictive Analytics ist die Anwendung statistischer und maschineller Lerntechniken zur Vorhersage zukünftiger Ereignisse und Trends. Dabei werden historische Daten genutzt, um Muster zu erkennen und Modelle zu erstellen, die wahrscheinliche zukünftige Entwicklungen prognostizieren. Predictive Analytics findet Anwendung in Bereichen wie dem Finanzwesen, Marketing, dem Gesundheitswesen und Logistik, um proaktiv Entscheidungen zu treffen.

Präskriptive Analysen sind ein fortschrittlicher Ansatz, der Empfehlungen für zukünftige Maßnahmen auf Basis von Datenanalysen und Simulationen gibt. Sie gehen über deskriptive und prädiktive Analysen hinaus, indem sie Handlungsanweisungen vorschlagen, um optimale Ergebnisse zu erzielen. Präskriptive Analysen nutzen Algorithmen und Modelle, um Entscheidungsträgern zu helfen, die besten Maßnahmen zu ergreifen.

Pseudonymisierung die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen, die gewährleisten, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugewiesen werden.

(Artikel 4, 5 DSGVO, eigene Hervorhebungen)

Eine relationale Datenbank speichert Daten in Tabellen, die miteinander in Beziehung stehen. Sie verwendet das relationale Modell, um Daten strukturiert und organisiert zu speichern, und ermöglicht komplexe Abfragen und Transaktionen. Relationale Datenbanken wie MySQL und Oracle sind weit verbreitet und werden in zahlreichen Anwendungen eingesetzt, um Daten effizient zu verwalten.

Synthetische Daten sind künstliche Daten, die aus Originaldaten und einem Modell erzeugt werden, das so trainiert ist, dass es die Merkmale und die Struktur der Originaldaten reproduziert. Das bedeutet, dass synthetische Daten und Originaldaten sehr ähnliche Ergebnisse liefern sollten, wenn sie der gleichen statistischen Analyse unterzogen werden.

Übersetzt von: https://www.edps.europa.eu/press-publications/publications/techsonar/synthetic-data_de

Während Hardware die physischen Bestandteile eines Computers beschreibt, wie zum Beispiel eine Festplatte, wird der Begriff Software für die Programme eines Computers verwendet, die ihn funktionsfähig machen, wie zum Beispiel das Betriebssystem.

SQL ist eine Programmiersprache zur Verwaltung und Abfrage von Daten in relationalen Datenbanken. Sie ermöglicht es, Daten zu erstellen, zu lesen, zu aktualisieren und zu löschen. SQL ist ein Standard bei der Interaktion mit Datenbanken und wird in zahlreichen Anwendungen und Datenbanksystemen verwendet.

Unstrukturierte Daten sind Informationen, die in keinem vordefinierten Format oder Modell organisiert sind, wie z. B. Texte, Bilder, Videos, E-Mails und soziale Medien. Im Gegensatz zu strukturierten Daten, die in Datenbanken gespeichert und leicht analysiert werden können, erfordern unstrukturierte Daten spezielle Technologien und Methoden zur Verarbeitung und Analyse, um wertvolle Erkenntnisse zu gewinnen.

Verantwortliche KI beschreibt den ethischen und transparenten Einsatz von Künstlicher Intelligenz. Sie umfasst Prinzipien wie Fairness, Transparenz, Datenschutz und Rechenschaftspflicht, um sicherzustellen, dass KI-Systeme zum Wohle der Gesellschaft eingesetzt werden. Verantwortliche KI fördert das Vertrauen in KI-Technologien und schützt vor negativen Auswirkungen.

Ein virtueller Assistent ist eine KI-basierte Software, die Aufgaben und Anfragen von Nutzern ausführen kann. Sie nutzt Technologien wie natürliche Sprachverarbeitung und Maschinelles Lernen, um menschenähnliche Interaktionen zu ermöglichen. Virtuelle Assistenten finden Anwendung in Bereichen wie dem Kundenservice, der Terminverwaltung und in persönlichen Assistenzdiensten.