Künstliche Intelligenz beschäftigt nicht nur Unternehmen, die Aufsichtsbehörden im Datenschutz wollen ebenfalls mitreden und produzieren FAQs, Leitlinien und Handreichungen am laufenden Band. Dieser Beitrag verschafft Durchblick im Dokumentendschungel: Wann liegt Personenbezug bei der Nutzung von KI vor? Wie sind die Datenschutzgrundsätze bei KI-Anwendungen einzuhalten? Und was gilt bei Betroffenenanfragen?
Der Inhalt im Überblick
Ab wann hat man es mit personenbezogenen Daten zu tun?
Zwei Juristen, drei Meinungen, heißt es und bei Datenschutzaufsichtsbehörden ist das kaum anders. Auch diese sind sich manchmal uneins, wie hier: Die Frage, wann und an welcher Stelle des Verarbeitungsprozesses von KI-Anwendungen personenbezogene Daten vorliegen, wird in den Dokumenten der Behörden angeregt diskutiert.
Personenbezug in den Phasen der KI
Der Europäische Datenschutzbeauftragte betont in seinen Leitlinien zur Nutzung generativer KI (S. 7) dass personenbezogene Daten in verschiedenen Phasen eines KI-Systems auftauchen können, und zwar bei der Erstellung der Trainingsdatensätze, beim Trainieren selbst, bei späterem Nachtrainieren bzw. Nachjustieren des KI-Modells, bei Anfragen an die KI (Prompts) und beim Output, den die KI generiert. Auf die Aussagen von KI-Anbietern dürfe man sich übrigens nicht verlassen! Wird behauptet, dass das System nicht mit personenbezogenen Daten in Berührung kam, so bedarf es hierzu näherer Erläuterung, wie dies gewährleistet und kontrolliert worden sein soll.
KI-Modell als personenbezogenes Datum
Die baden-württembergische Aufsichtsbehörde geht systematisch vor. Ein weites Verständnis personenbezogener Daten zu Grunde gelegt, lasse sich eine Identifizierbarkeit einer natürlichen Person auch herstellen, wenn Zahlen zur Kodierung und Darstellung von Daten verwendet würden, sofern potentiell auf Zusatzinformationen zugegriffen werden könne, um diese Zahlen mit einem Betroffenen zu verknüpfen. Das kennt man beispielsweise bereits von (pseudonymen) Kunden- oder Personalnummern. Nach Ansicht der Behörde käme insbesondere aber auch in folgenden Fällen ein Personenbezug in Betracht:
- wenn im KI-Modell die personenbezogenen Daten selbst enthalten sind
- wenn sich mittels eines Angriffs auf das KI-System Informationen über die verwendeten (personenbezogenen) Trainingsdaten gewinnen lassen. Dann sei das Modell an sich ein personenbezogenes Datum.
Entscheidend sei dabei die Wahrscheinlichkeit der (Re-)Identifizierbarkeit natürlicher Personen. Ist es nach einer regelmäßigen Risikobewertung trotz Präventionsmaßnahmen nach allgemeinem Ermessen wahrscheinlich, dass Angriffe auf das KI-System zu Rückschlüssen auf die personenbezogenen Trainingsdaten führen, sei der Personenbezug des Modells zu bejahen.
Für Aufsehen in der Datenschutzwelt sorgte vor kurzem das Diskussionspapier der Hamburger Datenschutzaufsicht zu Large Language Models (LLMs). Die Behörde ist der Ansicht, in LLMs würden keine personenbezogenen Daten gespeichert. Dies steht im Kontrast zur Äußerung der baden-württembergischen Aufsicht und hätte zur Folge, dass sich Betroffenenrechte auf den In- und Output eines KI-Systems beschränken, aber nicht das Modell selbst zum Gegenstand haben könnten.
Der Begriff des personenbezogenen Datums ist also noch nicht vollends geklärt, das zeigen auch die thematisch anders gelagerten, noch offenen Entscheidungen zu C-413/23 P und C-21/23.
Einhaltung der Datenschutzgrundsätze bei KI-Anwendungen
Unabhängig von der Frage nach dem Personenbezug beim KI-Modell besteht Einigkeit darin, dass KI-Anwendungen datenschutzkonform ausgestaltet sein müssen. Hierzu gehören die Datenschutzgrundsätze des Art. 5 DSGVO, wovon im Folgenden drei herausgegriffen werden:
Grundsatz der Datenminimierung
Nach Art. 5 Abs. 1 lit. c DSGVO müssen personenbezogene Daten
„dem Zweck angemessen und erheblich sowie auf das für die Zwecke der Verarbeitung notwendige Maß beschränkt sein („Datenminimierung“)“
Für den Einsatz von KI gelten keine Ausnahmen. Bereits 2019 forderte die Datenschutzkonferenz auf Seite 17 ihres Positionspapiers zu empfohlenen technischen und organisatorischen Maßnahmen bei der Entwicklung und dem Betrieb von KI-Systemen, dass das KI-System bei Verarbeitung von für den Output erkennbar irrelevanten oder nicht (mehr) erforderlichen Daten mit entsprechend reduzierten Trainingsdaten erneut trainiert werden müsse. Spucke das KI-System mehr Daten aus als notwendig, seien die nicht benötigten personenbezogenen Daten für die weitere Verarbeitung zu verwerfen. Dabei dürfe es aber nicht bleiben, das System sei auch dahingehend anzupassen, dass kein derartiger Output mehr entstünde. Auch an eine Anonymisierung sei zu denken.
Laut Europäischem Datenschutzbeauftragten müsse eine wahllose Verarbeitung personenbezogener Daten vermieden werden. Auf Seite 14 seiner Leitlinien zur Nutzung generativer KI führt der EDSB aus, dass der Datenminimierungsgrundsatz während des gesamten Lebenszyklus des Systems zu beachten sei, also auch in der Entwicklung. Beim Training gehe Qualität vor Quantität, regelmäßig überprüfte, strukturierte und dokumentierte Datensätze seien vorzugswürdig.
Nützlichen Input in Form von Fragen bei der Gestaltung eines KI-Systems liefert die französische Datenschutzaufsichtsbehörde CNIL:
- Welches Ziel soll das KI-System verfolgen?
- Welche Vorgehensweise ist die datensparsamste?
- Kann ich den Einsatz von Deep Learning einschränken?
- Wie wähle ich die Trainingsdaten aus?
- Welche Daten sind unter Berücksichtigung der Rechte und Freiheiten betroffener Personen unbedingt erforderlich zur Erfüllung meines Zwecks?
- Was ist überhaupt der von mir verfolgte Zweck?
- Welche Maßnahmen ergreife ich zur Überprüfung der Einhaltung der Datenschutzgrundsätze (zum Beispiel Tests)?
Grundsatz der Datenrichtigkeit
Auch zum Thema Richtigkeit hat Art. 5 Abs. 1 lit. d DSGVO was zu sagen: Personenbezogene Daten müssen demnach
„sachlich richtig und erforderlichenfalls auf dem neuesten Stand sein; es sind alle angemessenen Maßnahmen zu treffen, damit personenbezogene Daten, die im Hinblick auf die Zwecke ihrer Verarbeitung unrichtig sind, unverzüglich gelöscht oder berichtigt werden („Richtigkeit“)“
Künstliche Intelligenz ist nicht fehlerfrei. KI-Halluzinationen lassen uns den Kopf schütteln, sie verursachen aber auch Gänsehaut. Ein KI-generierter Output mag zwar statistisch am wahrscheinlichsten, könnte jedoch sachlich unrichtig sein. Die österreichische Datenschutzbehörde schlägt daher vor, betroffene Personen darüber zu informieren, dass die von KI-Systemen erzeugten Ergebnisse irreführend und falsch sein können.
Der Europäische Datenschutzbeauftragte hält das laut ChatGPT Taskforce Report (Rn. 31) nicht für ausreichend, zusätzlich zum Hinweis auf die begrenzte Zuverlässigkeit der ChatGPT-Outputs und der Tatsache, dass der generierte Text zwar syntaktisch korrekt, aber gegebenenfalls verzerrt oder erfunden sei, müsse der Verantwortliche auch über die wahrscheinlichkeitsbasierte Vorgehensweise von ChatGPT informieren. Zwar helfe das dabei Fehlinterpretationen vorzubeugen, der Grundsatz der Datenrichtigkeit werde dadurch aber nicht erfüllt. Das lässt sich durchaus vertreten – die Daten sind ja immer noch falsch.
Anstatt nur den Output zu betrachten, sei es wichtig, die Richtigkeit der Daten in allen Phasen der Entwicklung und der Nutzung des KI-Systems zu gewährleisten. Dazu gehöre gemäß der Leitlinien des EDSB zu generativer KI (S. 15) die Prüfung der Trainingsdatensätze, einschließlich derjenigen, die von Drittanbietern bezogen werden, die Verwendung von separaten Datensätzen für das Trainieren, Testen und Validieren, aber auch die Überwachung des KI-Outputs (inklusive menschlicher Aufsicht). Bei drittbezogenen Datensätzen sind vertragliche Zusicherungen über die Verfahren einzuholen, mit denen die Datenrichtigkeit sichergestellt wird, wie beispielsweise die Datenbereinigung oder -anreicherung. Von großer Bedeutung sind die technische Dokumentation und das Benutzerhandbuch des KI-Systems, damit der Verantwortliche Kontrollen durchführen kann. Damit stehen datenschutzrechtlich Verantwortliche, insbesondere, wenn sie die KI von am längeren Hebel sitzenden Dritten beziehen, vor einer Mammutaufgabe.
Gebot der Transparenz
Art. 5 Abs. 1 lit. a DSGVO belässt es bei allgemeinen Ausführungen zum Transparenzgebot: Personenbezogene Daten müssen
„auf rechtmäßige Weise, nach Treu und Glauben und in einer für die betroffene Person nachvollziehbaren Weise verarbeitet werden („Rechtmäßigkeit, Verarbeitung nach Treu und Glauben, Transparenz“)“
Dies korrespondiert mit den datenschutzrechtlichen Informationspflichten, denn transparent ist, wer ausreichend und verständlich informiert.
Blackbox KI
Spannend wird es, wenn transparent darzustellen ist, was naturgemäß eher chaotisch erscheint: Bei Verwendung künstlicher neuronaler Netze wird KI zu einer Blackbox. Die wie zu einer Suppe hinzufügten Trainingsdaten werden so lange mithilfe sich selbst fortentwickelnder Algorithmen wild vermischt und umgerührt, bis sich nicht mehr nachvollziehen lässt, wie der Output entstanden ist. Auch wenn es Ansätze zur erklärbaren KI gibt, stehen Unternehmen vor Problemen. Die Anforderungen der KI-Orientierungshilfe der Datenschutzkonferenz an die für den KI-Einsatz Verantwortlichen sind hoch:
Informations- und Transparenzpflichten treffen den Verantwortlichen auch, wenn er die KI-Anwendung nicht selbst entwickelt hat. Augen auf bei der Anbieterwahl! Zwar sind die KI-Hersteller, sofern es sich um Auftragsverarbeiter handelt, zur Unterstützung des Verantwortlichen verpflichtet, im Zweifel könnten sich diese aber verdeckt halten oder Kauderwelsch liefern.
Transparenz beginnt übrigens nicht erst beim Einsatz von KI, sondern laut Seite 8 des oben erwähnten Positionspapiers der DSK von 2019 bereits beim Training und der Beschaffung der Rohdaten. Dies passt zum Lebenszyklus-Gedanken des Europäischen Datenschutzbeauftragen.
Automatisierte Entscheidungsfindung
Wird die KI zur automatisierten Entscheidungsfindung einschließlich Profiling gemäß Art. 22 Abs. 1 DSGVO genutzt, ist über die involvierte Logik sowie die Tragweite und die möglichen Auswirkungen auf die betroffene Person zu informieren. Das Vorliegen einer automatisierten Entscheidung lässt sich bereits dann bejahen, wenn die KI lediglich entscheidungsvorbereitend tätig wird und das KI-Ergebnis bei der endgültigen Entscheidung eine maßgebliche Rolle spielt. Die Frage, was denn unter „Logik“ zu verstehen und worüber genau zu informieren ist, stellt sich damit nicht nur bei Unternehmen, deren KI direkt selbst entscheidet, sondern auch denjenigen, die die KI nur entscheidungsunterstützend einsetzen – sofern die Maßgeblichkeit vorliegt.
Beachtung von Betroffenenrechten beim Einsatz von KI-Anwendungen
Die KI-Blackbox gibt Rätsel auf: Wie können Verantwortliche die Rechte betroffener Personen wahren? Die Rechte auf Auskunft, Berichtigung, Löschung und Co. sind nämlich auch bei der Nutzung von KI-Anwendungen zu beachten.
Berichtigung und Löschung
In ihrer KI-Orientierungshilfe verweist die Datenschutzkonferenz allgemein auf organisatorische und technische Verfahren, die konzipiert werden müssten, damit die Rechte auf Berichtigung und Löschung wirksam ausgeübt werden könnten. Hierzu gehöre im Falle der Berichtigung die (manuelle) Korrektur von Daten oder ein Nachtraining, also ein Fine Tuning der Trainingsdaten. Wer die KI wahl- und planlos mit Trainingsdaten füttert, der dürfte an dieser Stelle auf Probleme stoßen. Lösche man personenbezogene Daten, müsse die Wiederherstellung des Personenbezugs laut DSK dauerhaft unmöglich sein. Wie genau diese Anforderung umgesetzt werden soll, dazu schweigt sich die Datenschutzkonferenz aus. Ein Unterdrücken unerwünschter Outputs durch nachgeschaltete Filter sei zwar hilfreich für die Betroffenenrechte, die Verpflichtung zur Löschung erfülle man damit aber nicht.
Strings erschweren die Suche
Wer sich in LLMs auf die Suche nach personenbezogenen Daten macht, um sie beispielsweise beauskunften zu können, der wird schnell enttäuscht: Einzelne Wörter wie z. B. Namen werden nicht als Strings – sprich, als Zeichenfolge – gespeichert, sondern als numerische Vektoren im Rahmen eines Word Embeddings. Der Europäische Datenschutzbeauftragte erkennt dieses Problem auf Seite 22 seiner Leitlinien zur Nutzung generativer KI und betont die Schwierigkeiten, die sich in diesem Zusammenhang bei unüberwachtem Lernen mit öffentlich zugänglichen Quellen ergeben. Wenn Daten infolge einer Betroffenenanfrage gelöscht würden, könnte das LLM zudem weniger wirksam sein.
Was ist laut EDSB nun zu tun?
Um Betroffenenrechte zu wahren, sei mithilfe technischer und organisatorischer Maßnahmen für eine detaillierte Aufzeichnung, Nachvollziehbarkeit und Rückverfolgbarkeit von Datensätzen zu sorgen. Auch die Datenminimierung könne zu einer Lösung der Probleme beitragen. Logisch, denn mit weniger personenbezogenem Daten-Input hat man auch weniger Datenschutz-To Dos. Aber wirklich aussagekräftig sind diese Hinweise in den Leitlinien des EDSB nicht. Letztlich müssen sich Verantwortliche schon frühzeitig Gedanken zur Umsetzung der Betroffenenrechte machen – das ist insbesondere dann spannend, wenn sie das KI-Modell gar nicht selbst füttern, sondern von einem Dienstleister beziehen.
Klare Ansagen, aber unklar in der Umsetzung
Verantwortliche, die zunächst zu klären haben, wann bei Ihrer KI-Nutzung personenbezogene Daten verarbeitet werden und wann nicht, stehen zusätzlich vor dem Problem, die Grundsätze der Datenminimierung, der Datenrichtigkeit und des Transparenzgebots bei Einsatz Künstlicher Intelligenz gewährleisten zu müssen. Die Wahrung der Betroffenenrechte führt ebenso zu Kopfzerbrechen.
Auch wenn Datenschutzaufsichtsbehörden durchaus klipp und klar (aber nicht unbedingt übereinstimmend) festlegen, welche Anforderungen im Hinblick auf KI zu erfüllen sind, verlieren sie nur selten ein konkretes Wort dazu, wie das Ganze umgesetzt werden soll. Die Sichtung verschiedener Behördendokumente verschafft somit Durchblick, WAS gefordert wird, aber nicht WIE damit umzugehen ist. So lässt der Dokumentendschungel Unternehmen, die KI zudem häufig nur von Dritten beziehen, im Regen stehen. Ohne Schirm nützt auch ein Haufen Papier nicht viel.