Obschon Künstliche Intelligenz (KI) graduierlich Einzug in das Alltagsleben findet, sind viele Aspekte nach wie vor ungeklärt. Dass etwa teilweise längst nicht klar ist, wie die datenschutzrechtlichen Betroffenenrechte bei Large Language Models (LLMs) und auf solchen basierenden KI-Anwendungen gewährleistet werden können, zeigt nicht zuletzt eine aktuelle Beschwerde des österreichischen Vereins noyb gegen den ChatGPT Entwickler OpenAI. Wir schauen uns an, was es mit der Beschwerde auf sich hat und welche Ansätze zur Gewährleistung von Betroffenenrechten bei KI, insbesondere bei LLMs und auf solchen basierenden KI-Anwendungen, derzeit im Umlauf sind.
Der Inhalt im Überblick
noybs Beschwerde gegen OpenAI
Am 29. April 2024 gab der von Max Schrems initiierte Verein NOYB – Europäisches Zentrum für digitale Rechte (im Folgenden: noyb) in einem Onlinebeitrag auf dessen Website bekannt, dass er bei der österreichischen Datenschutzaufsichtsbehörde eine Datenschutzbeschwerde gegen OpenAI OpCo, LLC (im Folgenden: OpenAI) eingereicht habe. Wie sich aus den Umständen sowie unmittelbar aus der Datenschutzbeschwerde selbst ergibt, handelt noyb insofern in Vertretung des betreffenden Beschwerdeführers nach Art. 80 Abs. 1 DSGVO.
Inhaltlich, so ist es der Datenschutzbeschwerde entnehmbar, geht es dem Beschwerdeführer und entsprechend noyb darum, die österreichische Datenschutzaufsichtsbehörde zu einem Tätigwerden gegen OpenAI wegen dessen Datenverarbeitung im Zusammenhang ChatGPTs zu veranlassen. In der Datenschutzbeschwerde heißt es zu dieser KI-Anwendung:
„(…) [Bei ChatGPT] handelt es sich um eine Anwendung für künstliche Intelligenz (KI), die mit dem Nutzer interagiert, indem sie Antworten auf Aufforderungen (sogenannte Prompts) gibt, die als Fragen in einer beliebigen Sprache formuliert sind. ChatGPT verwendet sogenannte Large Language Models, um Antworten zu geben, die korrekt und aktuell sein sollen. Diese Large Language Models berechnen die statistische Wahrscheinlichkeit, dass eine bestimmte Wortkombination in einem bestimmten Kontext vorkommt und zeigen entsprechend die wahrscheinlichsten Ergebnisse an. Ermöglicht wird dies durch die Verwendung großer Datensätze, die (…) [OpenAI] zum Trainieren und „Füttern“ des Algorithmus verwendet. In diesen Datensätzen werden auch personenbezogene Daten verwendet.“
Der Beschwerdeführer und entsprechend noyb werfen OpenAI im Rahmen vorgenannter Datenschutzbeschwerde vor, gegen Art. 12 Abs. 3 DSGVO und Art. 15 DSGVO sowie den Grundsatz der Richtigkeit nach Art. 5 Abs. 1 lit. d) DSGVO verstoßen zu haben. Ausweislich der Datenschutzbeschwerde ging diesem Schluss Folgendes voraus:
Nachdem der Beschwerdeführer ChatGPT nach seinem Geburtsdatum gefragt habe, welches – trotz der öffentlichen Bekanntheit des Beschwerdeführers und anders als weitere Informationen zu diesem – nicht online verfügbar sei, habe ChatGPT ihm ein falsches Datum genannt. Den entsprechenden Prompt daraufhin mehrfach wiederholt, habe ChatGPT zwar stets geantwortet, dem Beschwerdeführer allerdings jedes Mal ein neues falsches Datum als dessen Geburtsdatum präsentiert. Der Beschwerdeführer habe hieraufhin seine datenschutzrechtlichen Betroffenenrechte auf Auskunft nach Art. 15 DSGVO und auf Löschung nach Art. 17 DSGVO – insbesondere bezüglich des fälschlichen Geburtsdatums des Beschwerdeführers – gegenüber OpenAI geltend gemacht, woraufhin das Unternehmen unzureichend reagiert habe.
So habe Open AI das Auskunftsersuchen des Beschwerdeführers – jedenfalls bis zum Ablauf der hierfür geltenden Frist nach Art. 12 Abs. 3 DSGVO sowie darüber hinaus bis zur Einreichung der Datenschutzbeschwerde – nur unvollständig, das heißt ohne auf diejenigen personenbezogenen Daten des Beschwerdeführers einzugehen, welche durch das ChatGPT zugrundeliegende LLM verarbeitet würden bzw. im Rahmen dessen Trainings verarbeitet worden seien, beantwortet und das Löschungsersuchen im Ergebnis gar zurückgewiesen.
Während OpenAI sich zu den Gründen der Unvollständigkeit der Auskunftserteilung in Schweigen gehüllt habe, habe es die Zurückweisung des Löschungsersuchens in den folgenden drei Schritten begründet:
- Könne OpenAI ChatGPT nicht von der Nennung falscher Daten als Geburtsdatum des Beschwerdeführers abhalten, so die KI-Anwendung hiernach gefragt werde.
- Sei OpenAI nicht dazu imstande, speziell und einzig die Ausgabe einer Information über das Geburtsdatum des Beschwerdeführers durch Setzung eines entsprechenden granularen Filters zu unterbinden, in anderen Worten zu sperren.
- Könne OpenAI zwar insofern eine Filterung bzw. Sperrung bewirken, als nach entsprechender Filtersetzung keinerlei Informationen mehr zu dem Beschwerdeführer ausgegeben würden; wobei es sich zudem um die einzige Möglichkeit handele, ChatGPT an der Ausgabe falscher Geburtsdaten des Beschwerdeführers zu hindern. Allerdings verletzte eine derartige Filtersetzung im konkreten Fall die Meinungsfreiheit OpenAIs und verstoße gegen die Informationsfreiheit der Öffentlichkeit, da es sich bei dem Beschwerdeführer um eine Person des öffentlichen Lebens handele.
Ausweislich der Datenschutzbeschwerde schließen der Beschwerdeführer und noyb aus den vorgenannten Aussagen OpenAIs, dass dieses Unternehmen außerstande sei, falsche Informationen ChatGPTs zu berichtigen; ferner, dass bei einer – einzig möglichen – vollumfänglichen Filtersetzung bezüglich einer bestimmten betroffenen Person zwar gegenüber einem Endnutzer ChatGPTs keine entsprechende Ausgabe mehr erfolge, dies jedoch nichts daran ändere, dass ChatGPT selbst nach wie vor sämtliche Informationen zu ebendieser betroffenen Person vorlägen.
Wie sich der Datenschutzbeschwerde schließlich entnehmen lässt, geht es dem Beschwerdeführer und noyb – neben einer Untersuchung des Sachverhaltes durch die österreichische Datenschutzaufsichtsbehörde (Art. 58 Abs. 1 DSGVO) – darum, zu erwirken, dass diese
- die nach Ansicht des Beschwerdeführers und noyb vorliegenden Datenschutzverstöße OpenAIs feststellt,
- OpenAI gem. Art. 58 Abs. 2 lit. c) und d) DSGVO anweist, dem Auskunftsersuchen des Beschwerdeführers nachzukommen und die Einhaltung des Grundsatzes der Richtigkeit (Art. 5 Abs. 1 lit. d) DSGVO), insbesondere durch Berichtigung oder Löschung des Geburtsdatums jenes, herbeizuführen sowie
- gem. Art. 58 Abs. 2 lit. i) DSGVO in Verbindung mit Art. 83 DSGVO ein Bußgeld gegen OpenAI verhängt.
How to – LLMs und die Gewährleistung von Betroffenenrechten
Während noyb im Ergebnis feststellt, dass OpenAI nach eigener Aussage zwar nicht dazu in der Lage sei, die Ausgabe speziell eines inkorrekten Geburtsdatums des Beschwerdeführers durch ChatGPT – etwa mittels Berichtigung oder Löschung – zu unterbinden, gleichsam und der Sache nach völlig zurecht jedoch weiterhin genau hierauf pocht, nennt der Verein selbst leider keine Ansätze dazu, wie die datenschutzrechtlichen Betroffenenrechte auf Berichtigung und Löschung speziell in Bezug auf ChatGPT bzw. generell bezüglich LLMs und auf LLMs basierenden KI-Anwendungen gewährleistet werden könnten.
Zu dem „Wie“ einer vollumfänglichen bzw. vollumfänglicheren Erfüllung von Auskunftsersuchen nach Art. 15 DSGVO hingegen, wird in dem, die Bekanntgabe noybs Datenschutzbeschwerde gegen OpenAI enthaltenden, Onlinebeitrag des österreichischen Vereins dessen Datenschutzjuristin Maartje de Graf wie folgt zitiert:
„(…). Es ist selbstverständlich möglich, die verwendeten Trainingsdaten zu protokollieren, um zumindest eine Vorstellung von den Informationsquellen zu erhalten. (…).“
Während zunächst einmal ausdrücklich hervorzuheben ist, dass das Festhalten an der Wahrung des Datenschutzrechtes ohne Zweifel elementar ist, scheinen wir als Gesellschaft insofern mit Blick auf die Gewährleistung datenschutzrechtlicher Betroffenenrechte bei LLMs und LLM basiereten KI-Anwendungen aktuell (noch) vor Problemen zu stehen. Diese gilt es entsprechend umgehend zu lösen. Angesichts der jüngsten Entwicklungen rund um KI, hierunter etwa auch die KI Verordnung, wird diese Lösung wohl nicht in dem Entschluss eines gesamtgesellschaftlichen Verzichtes auf einen Einsatz von KI liegen; vielmehr scheint diese – frei nach einem Songtitel der Band „Wir sind Helden“ – „[g]ekommen [zu sein,] um zu bleiben“.
Daher ist es von immenser Bedeutung, augenblicklich Wege zu finden, die datenschutzrechtlichen Betroffenenrechte auch auf diesem Feld flächendeckend gewährleisten zu können und wäre es höchst interessant zu erfahren, welche Ansätze die Datenschützer noybs hierzu haben.
Nicht minder interessant und bereits veröffentlicht sind Gedanken der deutschen Datenschutzaufsichtsbehörden zu dieser Thematik. Wir schauen uns an, wie die Konferenz der unabhängigen Datenschutzaufsichtsbehörden des Bundes und der Länder (Datenschutzkonferenz [DSK]) sich hierzu positioniert und welche Ideen das Bayerische Landesamt für Datenschutzaufsicht (BayLDA) zum Diskurs beiträgt.
KI und Betroffenenrechte – Das sagt die DSK
Die DSK veröffentlichte am 06. Mai 2024 Version 1.0 ihrer Orientierungshilfe „Künstliche Intelligenz und Datenschutz“, die sich – ihrer eigenen Einleitung nach – zwar nicht ausschließlich, jedoch im Schwerpunkt mit auf LLMs basierenden KI-Anwendungen beschäftige.
Während vorgenannte Orientierungshilfe zu den Betroffenenrechten auf Einschränkung der Verarbeitung nach Art. 18 DSGVO, auf Datenübertragbarkeit nach Art. 20 DSGVO und auf Widerspruch nach Art. 21 – wohl – Abs. 1 S. 1 DSGVO lediglich angibt, sie müssten
„(…) bei der Gestaltung der KI‐Anwendung berücksichtigt werden.“
geht das Papier auf die weiteren Betroffenenrechte etwas näher ein.
Informations- und Transparenzpflichten nach Art. 12 ff. DSGVO
Hinsichtlich der Pflicht des Verantwortlichen nach Art. 12 DSGVO in Verbindung mit Art. 13 DSGVO und/oder sowie hier wohl primär Art. 14 DSGVO, betroffene Personen über die durch ihn erfolgende Datenverarbeitung zu informieren und dessen Pflicht auf Auskunftserteilung nach Art. 15 DSGVO, fokussiert sich die DSK auf die Situation, in welcher es sich bei dem Verantwortlichen nicht um den Entwickler der jeweiligen KI-Anwendung handelt. Hier müsse sich der Verantwortliche durch entsprechende Informationserlangung von dem KI-Entwickler in die Lage versetzen, seine Pflichten gegenüber betroffenen Personen zu erfüllen. Hilfreich ist insofern das folgende Durchsetzungsargument, welches die DSK Verantwortlichen für bestimmte Konstellationen mit an die Hand gibt: Werde die betreffende KI-Anwendung in einer Cloud-Lösung eingesetzt und mit dem KI-Entwickler ein Auftragsverarbeitungsvertrag geschlossen, so sei dieser nach Art. 28 Abs. 3 S. 2 lit. e) DSGVO gegenüber dem Verantwortlichen zu entsprechender Unterstützung verpflichtet.
Recht auf Berichtigung (Art. 16 DSGVO) und Löschung (Art. 17 DSGVO)
Zu den Betroffenenrechten auf Berichtigung nach Art. 16 DSGVO und Löschung nach Art. 17 DSGVO führt die DSK zunächst lediglich klarstellend aus, dass diese gewährleistet und hierzu entsprechende Vorkehrungen – unter anderem nach Art. 25 Abs. 1 DSGVO – getroffen werden müssten.
Sodann geht die DSK explizit auf das Problem der so genannten Halluzination durch LLMs bzw. LLM basierte KI-Anwendungen ein und adressiert mithin gerade Fälle, wie den der aktuellen Datenschutzbeschwerde noybs gegen OpenAI zugrundeliegenden. So heißt es in der Orientierungshilfe „Künstliche Intelligenz und Datenschutz“:
„Beim Einsatz von KI‐Anwendungen kann es aus unterschiedlichen Gründen dazu kommen, dass unrichtige personenbezogene Daten verarbeitet werden. Viele Anbieter:innen von KI‐Anwendungen (insbesondere LLM‐Chatbots) weisen sogar ausdrücklich darauf hin, dass Anwendende sich nicht auf die Richtigkeit der Ergebnisse verlassen können, sondern diese überprüfen müssen.“
Zu dem möglichen „Wie“ der Gewährleistung des Rechts auf Berichtigung gibt die DSK an, eine solche könne etwa durch Nachtraining oder Fine Tuning realisiert werden; ferner mittels einer
„Korrektur von Daten“.
Angesichts der Formulierung letzterens ist insofern wohl eine Berichtignung nicht, bzw. nicht nur, der falschen personenbezogenen Daten selbst, sondern vermutlich auch solcher Daten, die die betreffende KI-Anwendung zu der jeweiligen falschen Ausgabe veranlassten, gemeint.
Hinsichtlich von Löschungen sensibilisiert die DSK zunächst dafür, dass es unter Umständen nicht allein mit der Löschung des betreffenden personenbezogenen Datums selbst getan sei. Vielmehr könnten KI-Anwendungen mitunter, ggf. aus dem Zusammenfügen verschiedener Daten, einen Personenbezug (wieder-)herstellen. Dies gelte es zu unterbinden.
Während die DSK keinen Vorschlag zum „Wie“ der Umsetzung des Rechts auf Löschung parat hält, geht sie abschließend auf die Möglichkeit der Filtersetzung ein. Weil hierdurch – wie auch noyb in dessen Datenschutzbeschwerde gegen OpenAI ausführt – lediglich die Ausgabe gegenüber dem jeweiligen KI-Endnutzer unterbunden werde, während der jeweiligen KI-Anwendung die betreffenden personenbezogenen Daten weiterhin vorlägen, stelle dies zwar der Sache nach keine Löschung nach Art. 17 DSGVO dar. Allerdings, so die DSK, könnten
„Filtertechnologien (…) einen Beitrag dazu leisten, bestimmte Ausgaben zu vermeiden und damit den Rechten und Freiheiten der von einer bestimmten Ausgabe betroffenen Personen dienen.“
KI und Betroffenenrechte – Das sagt das BayLDA
Bereits vor der Veröffentlichung der DSK Orientierungshilfe „Künstliche Intelligenz und Datenschutz“ (06. Mai 2024) und nach derjenigen der „Checkliste zum Einsatz LLM basierter Chatbots“ des Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit (13. November 2023) – welche sich jedoch, mit Ausnahme des Art. 22 DSGVO, nicht zu den Betroffenenrechten verhält – veröffentlichte das BayLDA die Version „Konsultationsstand v0.9“ des Papieres „Datenschutzkonforme Künstliche Intelligenz Checkliste mit Prüfkriterien nach DS-GVO“ (Stand: 24. Januar 2024). Innerhalb des die Veröffentlichung begleitenden Onlinebeitrages des BayLDA weist dieses ausdrücklich darauf hin, dass es sich bei vorgenannter Checkliste um ein lebendes Dokument handele, welches
„(…) fortgeschrieben (…) als auch in spezifischen Prüfszenarien einer Praxistauglichkeit unterzogen (…) [werden werde].“
Ein entsprechender Disclaimer findet sich auch in dem Papier selbst. Das BayLDA bittet zudem explizit darum, ihm etwaige
„(…) Anmerkungen oder Verbesserungsvorschläge (…)“
zur aktuellen Version via E-Mail mitzuteilen.
Unterscheidung zwischen KI-Modell und KI-Anwendung
Aussagen zu den datenschutzrechtlichen Betroffenenrechten lassen sich sowohl den Prüfungspunkten zum „Training von KI-Modellen“ als auch den – insofern nahezu identischen – Prüfungspunkten zum „Einsatz einer KI-Anwendung“ entnehmen.
Dass nach Ansicht des BayLDA eine Unterscheidung in das KI-Modell einerseits und die KI-Anwendung andererseits auch mit Blick auf die Gewährleistung der datenschutzrechtlichen Betroffenenrechte im Stadium des Einsatzes einer KI-Anwendung von hoher Relevanz sein kann, zeigt dessen folgender, die Prüfungspunkte zu diesem Stadium einleitende Hinweis:
„(…) [Bei der Sicherstellung der Betroffenenrechte ist] für Verantwortliche, die als KI-Nutzer KI-Anwendungen von großen Cloud-Anbietern verwenden, die Frage der datenschutzrechtlichen Verantwortlichkeit bedeutsam. Es sollte vor Einsatz einer KI geklärt werden, ob die Sicherstellung der Betroffenenrechte das KI-Modell betreffend bei einem KI-as-a-Service Szenario in den Verantwortungsbereich des KI-Anbieters fallen, der möglicherweise ein KI-Modell selbst erstellt und nur die Nutzung desselben als Dienstleistung anbietet und dieser sich dann selbst um die Betroffenenrechte kümmern muss oder beim Auftraggeber verortet wird.“
Zur Gewährleistung von Betroffenenrechten verpflichtet ist der für die jeweilige Datenverarbeitung Verantwortliche im Sinne des Art. 4 Nr. 7 DSGVO. Da das BayLDA innerhalb des vorzitierten Hinweises,
- einerseits von dem KI-Nutzer als Verantwortlichen spricht,
- andererseits den KI-Anbieter, so er ein KI-Modell selbst erstellt habe und nur dessen Nutzung als Dienstleistung anbiete, zur Gewährleistung der Betroffenenrechte betreffend dieses KI-Modelles in der Pflicht sieht,
scheint das BayLDA auch im Stadium des Einsatzes der jeweiligen KI-Anwendung und hierauf bezogen von zwei Verantwortlichen auszugehen, von denen
- der KI-Ersteller und -Anbieter zur Gewährleistung der Betroffenenrechte betreffend das KI-Modell sowie
- der KI-Nutzer zur Gewährleistung der Betroffenenrechte bezüglich der KI-Anwendung
verpflichtet ist.
Fragt sich bloß, ob es sich nach Ansicht des BayLDA insofern um gemeinsam oder eigenständige Verantwortliche handelt sowie wo, im Hinblick auf konkrete Betroffenenanfragen, die Trennlinie verlaufen soll.
Die einzelnen Betroffenenrechte – überwiegend rein klarstellende Aussagen
Während die Prüfungspunkte im Hinblick auf das Gros der Betroffenenrechte lediglich rein klarstellend die Aussage enthalten, diese seien umzusetzen (Informationspflichten nach Art. 12 ff. DSVO) beziehungsweise
„(…) im Datenschutzmanagement [zu berücksichtigen] (…)“
(Art. 15; 16; 17; 18; 20; 21 (wohl) Abs. 1 DSGVO) und mithin insofern schlicht das Pflichtenprogramm der DSGVO ohne jegliche Ansätze zum „Wie“ der Erfüllung der jeweiligen Pflicht wiedergegeben wird. Geht die hier in Rede stehende Checkliste des BayLDA auf das Verfahren bei konkreten Auskunfts- oder Löschungsersuchen näher ein.
Verfahren bei konkreten Auskunfts- oder Löschungsersuchen
Sowohl bei Auskunfts- als auch bei Löschungsersuchen, die sich auf ein personenbezogenes KI-Modell bezögen, hinge das „Wie“ der Erfüllung des jeweiligen Ersuchens davon ab, ob
- personenbezogene Daten im KI-Modell selbst ermittelbar seien oder aber
- nur mittels ergänzender Informationen – bei auf LLMs basierten KI-Anwendungen etwa durch Eingabe konkreter Prompts – aus dem betreffenden KI-Modell abgeleitet werden könnten.
So personenbezogene Daten im KI-Modell selbst ermittelt werden könnten, seien im Falle eines Auskunftsersuchens die personenbezogenen Daten des anfragenden Betroffenen entsprechend zu beauskunften.
Im Falle eines Löschungsersuchen seien die jeweils betreffenden personenbezogenen Daten bei direkt im KI-Modell ermittelbaren personenbezogenen Daten zu löschen, so dies
„(…) technisch ohne Beeinträchtigung des Gesamtmodells möglich (…) [sei].“
Für den Fall hingegen, dass personenbezogene Daten nur mittels ergänzender Informationen aus dem KI-Modell abgeleitet werden könnten, seien diese zur Beantwortung eines Auskunftsersuchens gegebenenfalls bei der betroffenen Person zu erfragen und
„(…) [bestehe] eine Möglichkeit des technischen Löschens darin, mittels Nachtraining die spezifisch zu löschende personenbezogene KI-Ausgabe mittels Anpassung der internen (Wahrscheinlichkeits-)Parameter umzusetzen.“
Allgemein gelte für eine Auskunftserteilung nach Art. 15 DSGVO betreffend den Einsatz von KI-Anwendungen, dass
„[d]abei insbesondere (…) [der] Einsatz von konkreten KI-Nutzungsszenarien bei personenbezogenen Daten, die anfragende Person betreffend, [zu] berücksichtigen (…)“.
seien.
Ein guter Tag, um Lösungen zur Gewährleistung der Betroffenenrechte zu finden
So weit so… gut? Während die Situation eines bereits munter erfolgenden Trainings und Einsatzes von KI, scheinbar ohne sich vorher Gedanken über die Gewährleistung datenschutzrechtlicher Betroffenenrechte gemacht zu haben, zweifelsohne – euphemistisch ausgedrückt – misslich ist, so ist es doch erfreulich, dass das Thema nun infolge der entsprechenden öffentlichen Diskussion in den Fokus rückt. Insbesondere auch wegen der aktuellen, medienwirksamen Datenschutzbeschwerde noybs gegen OpenAI werden sich nun wohl aller Voraussicht nach auch die Entwickler, Anbieter und Anwender von LLMs bzw. LLM basierten KI-Anwendungen – sei es zur Erfüllung ihrer datenschutzrechtlichen Verpflichtungen als Verantwortlicher oder sei es um ihrer Unterstützungspflicht nach Art. 28 Abs. 3 S. 2 lit. e) DSGVO nachkommen zu können – vertieft mit der Frage nach dem „Wie“ der Gewährleistung datenschutzrechtlicher Betroffenenrechte auseinandersetzen und alsbald Lösungen oder zumindest entsprechende Ansätze präsentieren. It’s about time.