Zum Inhalt springen Zur Navigation springen
HmbBfDI: Large Language Models und Personenbezug

HmbBfDI: Large Language Models und Personenbezug

Die Diskussion um den Einsatz von Large Language Models (LLMs) und deren Umgang mit personenbezogenen Daten nimmt angesichts der fortschreitenden technologischen Entwicklung und den damit verbundenen datenschutzrechtlichen Herausforderungen stetig zu. Der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit (HmbBfDI) hat hierzu ein Diskussionspapier veröffentlicht, das den aktuellen Wissensstand und die rechtlichen Implikationen der Verwendung von LLMs im Kontext der DSGVO beleuchtet. Das Papier soll als Orientierungshilfe für Unternehmen und Behörden dienen.

Speicherung personenbezogener Daten in LLMs

Der HmbBfDI stellt im Diskussionspapier fest, dass ein LLM als Teil eines KI-Systems personenbezogene Daten im Output enthalten kann, wenn Nutzereingaben („Prompts“) gezielt danach fragen. Zur Klärung, ob LLMs personenbezogene Daten speichern, ist es wichtig, zwischen einem KI-System und dem darin enthaltenen LLM zu unterscheiden. Ein KI-System besteht aus mehreren Komponenten wie der Benutzerschnittstelle, Eingangs- und Ausgangsfiltern sowie dem LLM. Die Analyse des HmbBfDI konzentriert sich darauf, ob LLMs selbst personenbezogene Daten speichern, nicht auf die Verarbeitung im gesamten KI-System.

Datenschutzrechtliche Implikationen

Nach Auffassung des HmbBfDI ist die bloße Speicherung von Daten wie „Mia Müller“ in einem LLM keine Verarbeitung personenbezogener Daten im Sinne von Art. 4 Nr. 1, 2 DSGVO, da keine personenbezogenen Daten direkt im Modell gespeichert werden. Dennoch müssen Verarbeitungsvorgänge, die im Zusammenhang mit LLMs stehen, wie das Training und die Ausgabe von Daten, den Anforderungen der DSGVO entsprechen. Dies betrifft insbesondere die Rechte der betroffenen Personen auf Auskunft, Löschung und Berichtigung, die sich jedoch auf die Eingabe- und Ausgabedaten eines KI-Systems beziehen und nicht auf das Modell selbst.

Funktionsweise und Speicherung

LLMs verarbeiten Sprache, indem sie zunächst große Mengen an Textdaten in kleine, vordefinierte Einheiten, sogenannte Tokens, zerlegen. So könnte das obige Beispiel wie folgt gespeichert werden: „M“, „ia“, „Mü“ und „ller“. Diese Tokens werden in numerische Werte umgewandelt.

Während des Trainingsprozesses lernen die Modelle die Beziehungen dieser Tokens zueinander, was es ihnen ermöglicht, sinnvolle sprachliche Ausgaben zu generieren. Wichtig ist, dass die Texte nicht in ihrer ursprünglichen Form gespeichert werden, sondern als abstrakte mathematische Repräsentationen, die keinen direkten Bezug mehr zu den Originaldaten haben.

Tokenisierung und Abstraktion

Die Tokenisierung ist ein zentraler Prozess bei der Verarbeitung von Daten in LLMs. Texte werden, wie gerade beschrieben, in kleinere Einheiten zerlegt, die dann in numerische Werte umgewandelt und im Trainingsprozess miteinander verknüpft werden.

Diese Transformation führt laut HmbBfDI dazu, dass personenbezogene Daten ihre spezifischen Merkmale verlieren und als allgemeine Muster und Zusammenhänge erfasst werden. Dadurch geht der direkte Bezug zu individuellen Personen verloren, und die neu erzeugten Ausgaben basieren auf wahrscheinlichkeitsbasierten Prozessen, die keine direkte Wiedergabe von gespeicherten personenbezogenen Daten darstellen.

Rechtliche Bewertung

Der EuGH hat bisher keine spezifischen Entscheidungen zur Speicherung personenbezogener Daten in LLMs getroffen. Der HmbBfDI argumentiert jedoch, dass ein LLM keine personenbezogenen Daten speichert. Selbst wenn einzelne Angriffe auf LLMs zeigen, dass Trainingsdaten reproduziert werden können, reicht dies nicht aus, um zu behaupten, dass LLMs personenbezogene Daten speichern. Diese Sichtweise wird auch von der dänischen Datenschutzbehörde (Leitfaden der dänischen Datenschutzaufsichtsbehörde zum Einsatz künstlicher Intelligenz, S.7) geteilt, die LLMs als Ergebnis der Verarbeitung personenbezogener Daten, aber nicht als deren direkte Speicherung betrachten.

Umgang mit KI-Systemen und LLMs

Das Diskussionspapier des HmbBfDI bietet eine lesenswerte, technische und rechtliche Bewertung von LLMs im Kontext des Datenschutzes. Es wird deutlich, dass LLMs selbst keine personenbezogenen Daten im Sinne der DSGVO speichern, die Verarbeitungsvorgänge in KI-Systemen jedoch den datenschutzrechtlichen Anforderungen entsprechen müssen. Unternehmen und Behörden sind aufgefordert, die Rechte der betroffenen Personen zu wahren und sicherzustellen, dass sowohl das Training als auch die Nutzung von LLMs datenschutzkonform erfolgen.

Informieren Sie sich über unsere praxisnahen Webinare
  • »DSGVO und Künstliche Intelligenz«
  • »Microsoft 365 sicher gestalten«
  • »Bewerber- und Beschäftigtendatenschutz«
  • »Auftragsverarbeitung in der Praxis«
  • »IT-Notfall Ransomware«
  • »DSGVO-konformes Löschen«
  • »ISMS: Informationssicherheit mit System«
Webinare entdecken
Mit dem Code „Webinar2025B“ erhalten Sie 10% Rabatt, gültig bis zum 30.06.2025.
Beitrag kommentieren
Fehler entdeckt oder Themenvorschlag? Kontaktieren Sie uns anonym hier.
Die von Ihnen verfassten Kommentare erscheinen nicht sofort, sondern erst nach Prüfung und Freigabe durch unseren Administrator. Bitte beachten Sie auch unsere Nutzungsbedingungen und unsere Datenschutzerklärung.