Der datenschutzkonforme Einsatz von generativer KI ist nicht nur ein Thema für die Privatwirtschaft, sondern auch für den öffentlichen Sektor. Für die europäischen Institutionen hat der Europäische Datenschutzbeauftragte (EDSB) am 03. Juni 2024 Leitlinien veröffentlicht, was diese bei der Einführung von generativer KI beachten sollten. Der Beitrag gibt einen Überblick über die Inhalte der Leitlinien.
Der Inhalt im Überblick
Was ist generative KI?
Generative KI ist ein Teilgebiet der KI, das maschinelle Lernverfahren einsetzt, um eine breite Palette von Ergebnissen zu erzielen, z.B. die Generierung von Texten, Bildern oder Videos. Der Archetyp einer (text-)generativen KI ist Chat GPT. Der Lebenszyklus einer KI umfasst holzschnittartig verschiedene Phasen, beginnend mit der Definition des Einsatzbereichs, über das Training der KI mit passenden Datensätzen, die iterative Feinabstimmung zur Erhöhung der Genauigkeit bis zur finalen Anwendung.
Generative KI und Datenschutz – wo sieht der EDSB Probleme?
Aus Sicht des EDSB ist besonders das Training von generativer KI datenschutzrechtlich bedenklich, da die zum Training verwendeten Datensätze häufig (auch) einen Personenbezug aufweisen (können). Aber auch die Endversionen generativer KI sind in der Anwendung insoweit nicht frei von Untiefen.
Personenbezogen sind alle
„Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person (…) beziehen; als identifizierbar wird eine natürliche Person angesehen, die direkt oder indirekt, insbesondere mittels Zuordnung zu einer Kennung (…), identifiziert werden kann (Art. 4 Nr. 1 DSGVO).“
Auch primär sachbezogene Informationen wie die Fahrzeugidentifikationsnummer können einen Personenbezug erhalten, wenn sie mit anderen persönlichen Informationen verknüpft oder verknüpfbar sind. Insofern können auch reine Sachdaten datenschutzrelevanz haben oder erlangen.
Einen Rückschluss, wie viele Daten bzw. wie viel Aufwand ein effektives KI-Training benötigen kann, bietet die KI-Verordnung.
Dort heißt es zu Allzweck-KI-Modellen:
„Bei einem Allzweck-KI-Modell wird davon ausgegangen, dass es über eine hohe Leistungsfähigkeit (…) verfügt, wenn der kumulative Rechenaufwand für sein Training, gemessen in Gleitkommaoperationen, mehr als 10(^25) beträgt (Art. 51 Abs. 2 KI-Verordnung).“
Das sind 10 000 000 000 000 000 000 000 000 – in Worten zehn Quadrillionen – Berechnungen.
Um auf diese Anzahl von Operationen zu kommen und eine gute Feinabstimmung zu gewährleisten, ist davon auszugehen, dass auch die für die Berechnung erhobenen Datensätze immens groß sein müssen. Dies gilt umso mehr, wenn eine KI universell einsetzbar sein soll. Ein höherer Grad an Allzwecktauglichkeit wird in der Regel auch mit einer höheren Menge an dafür benötigten Datensätzen einhergehen.
Ein (generatives) KI-Modell wird als allzwecktauglich verstanden, wenn es
„eine erhebliche allgemeine Verwendbarkeit aufweist und in der Lage ist, unabhängig von der Art und Weise seines Inverkehrbringens ein breites Spektrum unterschiedlicher Aufgaben kompetent zu erfüllen, und das in eine Vielzahl nachgelagerter Systeme oder Anwendungen integriert werden kann (Art. 3 Nr. 63 KI-Verordnung).“
Angesichts des Umfangs der Datensätze und der Verarbeitungsschritte überrascht es nicht, dass der EDSB das Training von KI als potenzielles Risiko für die Privatsphäre und den Datenschutz ansieht.
Diese Risiken könnten verringert werden, wenn die Datensätze vor dem Training einzeln oder in Kohorten auf ihren Personenbezug hin überprüft würden. Angesichts der oben beschriebenen enormen Datenmengen, die für das KI-Training erforderlich sind, ist die Durchführbarkeit jedoch eher fraglich.
kursorische Kurzdarstellung der Leitlinienthemen
Die Grundaussage des EDSB in den Leitlinien ist auf den ersten Blick wenig überraschend. EU-Institutionen können generative KI einsetzen, wenn alle rechtlichen Anforderungen erfüllt sind. Eine einfache Aussage, die aber nach den Leitlinien viel Vor- und Detailarbeit erfordern dürfte.
Datenminimierung und generative KI
An mehreren Stellen der Leitlinien weist der EDSB darauf hin, dass der Umfang der Verarbeitung personenbezogener Daten bei der Entwicklung und Nutzung generativer KI gering gehalten werden sollte (Art. 5 Abs. 1 lit. c) DSGVO). Insbesondere durch eine regelmäßige Überwachung und eine strenge Kontrolle in allen Phasen des Lebenszyklus der KI solle verhindert werden, dass personenbezogene Daten generell oder über das vorgesehene Maß hinaus verarbeitet werden.
Ebenso weist er darauf hin, dass größere Datenmengen nicht zwangsläufig mit höherer Effizienz oder besseren Ergebnissen einhergehen (müssen). Vielmehr komme es auf die Qualität der Datensätze an.
Datengenauigkeit und generative KI
Der Grundsatz der Datenrichtigkeit verlangt, dass personenbezogene Daten sachlich richtig und auf dem neuesten Stand sein müssen (Art. 5 Abs. 1 lit. d DSGVO). Dies gilt nicht nur für die Trainingsdaten. Auch die von der KI generierten Ausgaben müssen sich an diesem Grundsatz messen lassen.
In diesem Zusammenhang hält der EDSB eine gründliche und strenge Validierung der Leistungsfähigkeit der KI in allen Phasen von der Entwicklung bis zur Freigabe als Voraussetzung für erforderlich. Eine umfassende Dokumentation durch die Entwickler soll die Nutzer in die Lage versetzen, die Qualität und Genauigkeit der KI im Betrieb zu überprüfen und gegebenenfalls einzugreifen,
Transparenzpflichten beim Einsatz generativer KI
In diesem Zusammenhang fordert der EDSB, dass die Betroffenen auch angemessen informiert werden, welche Personendaten die KI wie verarbeitet. Soweit es darum geht, welche Daten wie verarbeitet werden bietet sich eine Orientierung an den Maßstäben der DSGVO an (Art. 50 Abs. 6 KI-Verordnung).
Im Übrigen stellt die KI-Verordnung noch eigene Transparenzanforderungen für generative KI auf,
„(…) dass die Ausgaben des KI-Systems in einem maschinenlesbaren Format gekennzeichnet sind und als künstlich erzeugt oder manipuliert erkannt werden können (Art. 50 Abs. 2 KI-Verordnung)“
Wer ein KI-System einsetzt, das Bild-, Audio- oder Videoinhalte erzeugt oder manipuliert, die einen Deep Fake darstellen, muss nach Art. 50 Abs. 4 KI-Verordnung ferner offenlegen,
„(…) dass die Inhalte künstlich erzeugt oder manipuliert wurden. (…) Ist der Inhalt Teil eines offensichtlich künstlerischen, kreativen, satirischen, fiktionalen oder analogen Werks oder Programms, so beschränken sich die (…) Transparenzverpflichtungen auf die Offenlegung des Vorhandenseins eines solchen künstlich erzeugten oder manipierten Inhalts in einer angemessenen Weise, die die Darstellung oder den Genuss des Werks nicht beeinträchtigt.“
Ähnliches gilt für Nutzer textgenerierender KI:
„Wer ein KI-System einsetzt, das Text generiert oder manipuliert, der zu dem Zweck veröffentlicht wird, die Öffentlichkeit über Angelegenheiten von öffentlichem Interesse zu informieren, muss offenlegen, dass der Text künstlich generiert oder manipuliert wurde. Diese Verpflichtung gilt nicht, wenn (…) der KI-generierte Inhalt einer menschlichen Überprüfung oder redaktionellen Kontrolle unterzogen wurde und eine (…) Person die redaktionelle Verantwortung für die Veröffentlichung des Inhalts trägt (Art. 50 Abs. 4 KI-Verordnung)“
Ganzheitliche Beteiligung der Fachabteilungen
Organisatorisch sieht der EDSB die Einführung und Nutzung generativer KI als Gemeinschaftsaufgabe an. Besonders zwischen dem Datenschutzbeauftragten, der Rechtsabteilung und der IT-Abteilung sei ein kontinuierlicher Dialog während des KI-Lebenszyklus zur engmaschigen Kontrolle nötig. Ergänzend hierzu sieht der EDSB auch die Entwicklung von Schulungen und Leitlinien als sinnvoll an.
Ebenso empfiehlt der EDSB, die Entscheidungen und Maßnahmen während des Lebenszyklus der generativen KI genau und umfassend zu dokumentieren. Als Anreiz das schon bei der Einführung generativer KI umzusetzen stellt er eine Vorlage und Liste von Verarbeitungstätigkeiten zur Selbsteinschätzung bereit, ob es einer Datenschutz-Folgenabschätzung (Art. 35 DSGVO) bedarf.
Einsatz nur auf Basis einer Rechtsgrundlage
Hiernach wendet sich der EDSB den Rechtsgrundlagen für die Verarbeitung personenbezogener Daten im Rahmen generativer KI zu. Nicht überraschend meint er, dass jede Verarbeitung solcher Daten einer Rechtsgrundlage bedarf. Um zu konkretisieren, was alles eine Verarbeitung sein kann, verweisen die Leitlinien auf die Resolution der 45. Sitzung der General Privacy Assemby. Hiernach bedarf es
- bei der Erhebung von Daten, die für die Entwicklung generativer KI-Systeme verwendet werden,
- bei der Erhebung und Nutzung von Trainings-, Validierungs- und Testdatensätzen
- gegebenenfalls bei der Interaktion von Menschen mit generativen KI-Systemen
- und bei den von generativen KI-Systemen erzeugten Inhalten
jeweils einer Rechtsgrundlage.
Erfreulich ist, dass der EDSB nicht ausschließt, dass Anbieter generativer KI zur Weiterentwicklung ihrer KI-Systeme personenbezogene Daten aufgrund ihres überwiegenden berechtigten Interesses erheben dürfen (Art. 6 Abs. 1 lit. f DSGVO). Er spricht sich jedoch dafür aus, dass die EU-Organe, die solche Anbieter beauftragen, gesondert prüfen sollen, ob das berechtigte Interesse tatsächlich überwiegt.
Generative KI und Betroffenenrechte
Zuletzt seien EU-Institutionen laut EDSB verpflichtet, geeignete TOM vorzuhalten, um die wirksame Ausübung der Betroffenenrechte (Kapitel III der DSGVO) zu gewährleisten. Diese sollten in den frühen Phasen des Lebenszyklus der KI umgesetzt werden. Inhaltlich fordert der EDSB, dass die TOM eine detaillierte Aufzeichnung und Rückverfolgbarkeit von Datensätzen ermöglichen. Wie solche TOM technisch umgesetzt werden können, insbesondere bei größeren Datensätzen, lässt er aber offen.
Die Leitlinien des EDSB – was sollte man mitnehmen?
Die Leitlinien des EDSB beleuchten viele datenschutzrechtliche Fragen, die sich im Zusammenhang mit dem Einsatz von generativer KI stellen, und geizen nicht mit auch konkreteren Ideen zu deren Lösung.
Insoweit ergänzen die Leitlinien die auch erst unlängst vom EDSB publizierte Checkliste zur Evaluierung der DSGVO-Konformität von KI. Weder die Leitlinien noch die Checklisten entbinden aber von der projektiven Evaluierung, welcher Compliance-Vorschlag wie umsetzbar ist, sie sind aber eine gute Grundlage um das Risiko aufsichtlicher Beanstandung zu minimieren. In diesem Sinne können die Leitlinien des EDSB zusammen mit der Checkliste nicht nur den EU-Institutionen, sondern auch der Privatwirtschaft bei der datenschutzkonformen Entwicklung und Einführung von generativer KI dienen.