Spätestens seit ChatGPT müssen sich Datenschützer und Arbeitgeber vermehrt mit dem Thema Künstliche Intelligenz (KI) auseinandersetzen. Insbesondere wenn Mitarbeitende KI-Tools im Arbeitsalltag einsetzen möchten, müssen Arbeitgeber den datenschutzrechtlichen Rahmen hierfür schaffen. Nunmehr hat auch das Bayerische Landesamt für Datenschutz (BayLDA) einen Flyer und eine Checkliste zu diesem Thema à la „Good-Practice-Ansatz“ veröffentlicht.
Der Inhalt im Überblick
Einordnung des Begriffs Künstlicher Intelligenz
Das BayLDA erläutert in der Checkliste zunächst kurz, welche Arten von KI betrachtet werden. Bei ChatGPT handelt es sich beispielsweise um ein großes Sprachmodell, welches via Machine Learning mit Daten trainiert wurde. Im Übrigen ist bislang jeder Versuch gescheitert, eine allgemein gültige Definition zum Begriff KI zu liefern. Je nach Blickwinkel (z.B. Wirtschaft, Ethik, Forschung) trifft man unterschiedliche Erklärungsansätze an. Daher wird man auch beim Flyer vom BayLDA keine Definition hierzu finden. Wer nochmal sein Wissen rund zum Thema Geschichte und Arten von KI für den nächsten Smalltalk auffrischen möchte, wird übrigens hier fündig.
Da Juristen aber klare Abgrenzungen benötigen, erläutert das BayLDA dennoch zunächst, für welche Art von KI-Systemen die Checkliste anzuwenden sei. Genauer gesagt sind es zwei Checklisten: Eine für das Trainieren von KI-Modells und eine für die Anwendung eines (fertigen) KI-Modells.
Aber auch für Gesetze sind klare Abgrenzungen wichtig, da ohne sie die Anwendbarkeit von Gesetzen in Frage stehen würde. In der vorab geleakten Version der jüngst verabschiedeten KI-Verordnung findet sich in Art. 2 Absatz 5 g (1) folgende Definition für ein KI-System:
An AI system is a machine-based system designed to operate with varying levels of autonomy and that may exhibit adaptiveness after deployment and that, for explicit or implicit objectives, infers, from the input it receives, how to generate outputs such as predictions, content, recommendations, or decisions that can influence physical or virtual environments.
Es liest sich erstmal so, dass damit viele verschiedene Arten von KI-Systeme abgedeckt werden. Die Zukunft wird uns aber noch zeigen, was noch so im Bereich KI möglich sein kann und ob die geplante KI-Verordnung diese dann auch erfasst oder nicht.
Allgemeine Datenschutzaspekte gelten auch bei KI
Wenn man beide Listen des BayLDA betrachtet, so lässt sich erkennen, dass die allgemeinen Datenschutzgrundsätze im Umgang mit KI-Systemen gleichermaßen Anwendung finden, sobald ein Personenbezug besteht. Dieser ist beim Training einer KI dann gegeben, wenn nicht mit anonymen oder reinen sachbezogenen Datensätzen trainiert wird, sondern die Trainingsdaten direkt oder indirekt personenbeziehbar sind. Entsprechendes gilt bei der Anwendung eines (fertigen) KI-Modells: Wenn die Eingabedaten personenbezogen sind oder die KI auch das Benutzerverhalten in irgendeiner Weise auswertet, dann sind die Bestimmungen der DSGVO zu beachten.
Gemeinsame Prüfpunkte sowohl beim Training als auch bei der Einführung eines KI-Modells
Wie bei jeder Einführung eines neuen Datenverarbeitungsprozesses muss ein Datenverantwortlicher also unter anderem folgende Aspekte prüfen:
- Aufnahme der Verarbeitungen in das Verarbeitungsverzeichnis nach Art. 30 DSGVO und hierbei insbesondere prüfen, welche Art von KI-Anwendung oder KI-Training erfolgt, welche Arten von personenbezogenen Daten zu welchen Zwecken verarbeitet werden.
- Ermitteln der Rechtsgrundlagen für die Datenverarbeitungen.
- Festlegung, ob ein eigenes KI-System oder das eines Drittanbieters genutzt wird; bei Letzterem müssen ggf. Verträge nach Art. 26 oder 28 DSGVO geschlossen werden sowie Gewährleistungen dahingehend abgegeben werden, dass dieser Dritte die Trainings-, Ein- und/oder Ausgabedaten nicht in rechtswidriger Weise zweckentfremdet.
- Beachten der Art. 44 ff. DSGVO, falls ein Drittlandsbezug besteht (z.B. durch Abschluss der EU-Standardvertragsklauseln).
- Erfüllen der Informationspflichten nach Art. 12 ff. DSGVO.
- Umsetzen der Betroffenenrechten, insbesondere mit Blick auf Erfüllung ordnungsgemäßer Auskunfts- und Löschbegehren.
- Prüfen, ob eine Datenschutz-Folgenabschätzung (DSFA) nach Art. 35 DSGVO erforderlich ist und ggf. durchführen.
Beim letzten Punkt weist das BayLDA nochmal explizit darauf hin, dass der Datenschutzbeauftragte bei der Durchführung einer DSFA einzubinden ist, und empfiehlt auch die Konsultation der Datenschutz-Aufsichtsbehörde nach Art. 36 DSGVO.
Wie bei jedem anderen Datenverarbeitungsvorgang auch sind die vorgenannten Punkte regelmäßig auf ihre Richtigkeit und Aktualität hin zu evaluieren. Falls sich beispielsweise ein Jahr nach Einführung des KI-Tools im Unternehmen herausstellt, dass die Mitarbeitenden das Tool auch mit anderen Arten von personenbezogenen Daten (z.B. sensiblen Gesundheitsdaten) verwenden, dann muss die anwendbare Rechtsgrundlage für diesen neuen Verarbeitungsvorgang erneut ermittelt werden und das Verarbeitungsverzeichnis sowie die Datenschutzhinweise entsprechend angepasst werden. Falls eine DSFA in der Vergangenheit durchgeführt wurde, muss untersucht werden, ob sich durch die anderweitige Nutzung neue Risiken für die Rechte und Freiheiten der betroffenen Personen ergeben und wie man diesen begegnen kann bzw. sollte.
Besonderheiten beim Training von KI-Modellen
Damit eine KI zur KI wird, bedarf es zunächst eines Lernverfahrens. Hierfür werden Trainingsdaten benötigt. Es stellt sich die Frage, welche Art von Trainingsdaten für ein erfolgreiches Lernverfahren genutzt werden. Da zum erfolgreichen Trainieren einer KI große Datenmengen benötigt werden und nichts besser ist, als das wahre Leben, können Datenverantwortliche geneigt sein, einfach die vorhandenen Produktivdaten aus einer bereits bestehenden Datenbank zu nutzen. Soweit diese in direkter oder indirekter Weise personenbeziehbar sind, ist der Anwendungsbereich der DSGVO eröffnet sein. Dies gilt also auch für pseudonymisierte Daten. Nur wenn der Personenbezug vollständig und unwiderruflich entfernt wurde, die Daten also anonymisiert wurden, wären die Bestimmungen der DSGVO nicht mehr von Relevanz. Dies wäre dann zu bevorzugen, soweit die KI auch mit solchen Daten trainiert werden kann.
Oder aber es werden nur synthetische Trainingsdaten verwendet, d.h. die Daten stammen nicht aus einem Produktivsystem, sondern wurden künstlich durch einen Algorithmus erzeugt. Da bei diesem Vorgang versucht wird, die Realität nachzuahmen, ist darauf zu achten, dass der angewandte Algorithmus tatsächlich nur anonyme Daten ausgibt.
Falls das KI-Training der Forschung dient, kann das Forschungsprivileg der DSGVO greifen. Das BayLDA steht dem aber skeptisch gegenüber, wenn das KI-Training auch einem „kommerziellen Unternehmen zu Produktzwecken“ dient.
Zur Erfüllung der Rechenschaftspflichten aus Art. 5 Abs. 2 DSGVO müssen neben der Trainingsdaten auch deren Quellen dokumentiert werden.
Besonderheiten bei Einführung von KI-Tools
Wenn eine fertige KI-Anwendung eingeführt werden soll, liegt der Fokus nicht mehr in den Trainingsdaten, sondern in den sog. Ein- und Ausgabedaten. Bei den Eingabedaten handelt es sich um die Informationen, die vom Anwender der KI zur Verfügung gestellt werden. Die KI verwendet diese, um ihren „Arbeitsvorgang“ zu tätigen (z.B. Suchen einer Antwort) und „spuckt dann ein Ergebnis aus“, die Ausgabedaten. Sowohl die Ein- als auch Ausgabedaten können dabei einen Personenbezug aufweisen. Auch kann es sein, dass die KI-Anwendung das Benutzerverhalten (z.B. hinsichtlich der Art der Fragenstellung oder Verwendung von Begrifflichkeiten) analysiert, um sich für zukünftige Antworten zu optimieren.
Das BayLDA regt an, dass vor Einführung einer KI-Anwendung ein dokumentierter Freigabetest erfolgt. Durch den Testlauf kann nicht nur gesehen, wie die KI-Anwendung funktioniert und ob sie tatsächlich tauglich sind. Mögliche Risiken können so leichter identifiziert und so für das anzufertigende Risikomodell im Rahmen einer DSFA genutzt werden.
Schließlich muss insbesondere bei Nutzung von KI-as-a-service sichergestellt werden, dass der Grundsatz der Zweckbindung gewahrt wird. Soweit der Anbieter des KI-Modells die Ein- und/oder Ausgabedaten für eigene Zwecke (z. B. Nachtraining, Produktverbesserungen, Marketing) weiternutzen will, dann muss dies für die Benutzer transparent dargestellt werden und von Rechtsgrundlagen gedeckt sein.
Risikomodell für KI-Systeme
Nachdem BayLDA sollten im Rahmen eines Risikomodells folgende Beispiel-Schutzziele festgelegt und dokumentiert werden:
- „„Fairness“ im Sinne, dass keine unvertretbaren Risiken in Bezug auf Diskriminierung oder Ungleichbehandlung vorhanden sind.
- „Autonomie und Kontrolle“ im Sinne, dass Eingriffsmöglichkeiten in den Betrieb einer KI-Anwendung existieren bzw. Entscheidungen mit Rechtswirkung nicht ohne menschliche Kontrolle erfolgen.
- „Transparenz“ im Sinne, dass zum einen die Betroffenen über deren Verwendung personenbezogener Daten beim Training von KI-Modellen informiert werden als auch derart, dass KI-Modelle und KI-Anwendungen prüfbar im Sinne der Rechenschaftspflicht sein müssen. Ebenfalls auch, dass KI-Anwendungen für Betroffene in der Interaktion als solche erkannt werden müssen (z. B. ChatBots oder Anpassung von Audiosignalen zur Imitation eines Sprechers).
- „Verlässlichkeit“ im Sinne, dass ein KI-Modell bzw. eine KI-Anwendung zum einen seinen beabsichtigten Zweck innerhalb tolerierbaren Fehlergrenzen erfüllt als auch, dass diese vor absichtlichen Manipulationen (sog. Adversial Angriffe bspw. mittels Prompt-Injection bei Großen Sprachmodellen oder Störung bei der Erkennung von Verkehrsschilderung durch spezielle „Aufkleber“) geschützt sind. (…)
- „Sicherheit“ in dem Sinne, dass ungewollte technische Störungen („Safety“ wie Hardwarefehler aufgrund ungenügendem Arbeitsspeicher), aber vor allem unbefugte Zugriffe/Änderungen („Security“ wie die Manipulation von Trainingsdaten bei der KI-Modellerzeugung oder Manipulation von „Filtern“, die als Zensurmechanismus missbraucht werden können) wirksam verhindert werden können.
- „Datenschutz“ im Sinne, dass neben einer Rechtsgrundlage für das Erzeugen von KI-Modellen und dem Betrieb/dem Einsatz von KI-Anwendungen auch die Betroffenenrechte sowie weiteren Compliance-Anforderungen der DS-GVO umgesetzt werden müssen. (…)“
Falls eines der genannten Schutzziele nicht relevant sei, dann sollte auch dies intern ausführlich begründet und dokumentiert werden. Und auch hier gilt selbstredend, dass die Risikobewertung regelmäßig auf Aktualität und Vollständigkeit überprüft werden muss.
Bei der Liste an Schutzzielen – die nicht abschließend zu verstehen ist – hat sich das BayLDA nach eigenen Angaben an der „Ethik-Richtlinien für vertrauenswürdige KI“ der Europäischen Kommission orientiert. Danach zeichnet sich eine vertrauenswürdige KI durch Legalität, Ethik und Robustheit („lawful, ethical and robust“) aus. Die KI soll also alle anwendbaren Gesetze und Regeln sowie ethische Prinzipien und Werte beachten. Zudem muss sie in technischer Hinsicht als sicher und widerstandsfähig gelten, wobei auch ihre soziale Umgebung (also Risikofaktor Mensch bzw. Anwender) nicht außer Acht zu lassen sind.
Fehlende Verlässlichkeit und Ausreißer
Im Umgang mit KI-Modellen muss bei den Risiken u.a. untersucht werden, wie mit deren fehlerhaften Verlässlichkeit umgegangen wird. Dass Maschinen fehlerfrei agieren, wurde in der Vergangenheit bereits widerlegt. So kann es beispielsweise zu einer sog. KI-Halluzination kommen, wonach das KI-Modell fehlerhafte Ergebnisse als wahr darstellt, obwohl diese auf keinen realen Daten oder Informationen beruhen – hierunter leidet auch die gern genutzte KI ChatGPT. Es stellt sich dann insbesondere die Frage, wie Mitarbeitende diesen Fehler erkennen können. Ein weiteres Negativbeispiel für die Verlässlichkeit von KI-Modellen ist der Unfall eines selbstfahrenden Busses mit einer Radfahrerin in der Schweiz.
Betroffenenrechte weiterhin problematisch
Das BayLDA erblickt in der erfolgreichen Umsetzung der Betroffenenrechte ebenfalls Hindernisse. Der Datenverantwortliche muss sich nicht nur typische Szenarien hierzu überlegen, sondern auch prüfen, ob personenbezogene Daten im KI-Modell direkt ermittelbar sind oder ob vom Betroffenen Zusatzinformationen erfragt werden müssen, weil nur mit diesen die personenbezogenen Informationen aus einem KI-Modell abgeleitet werden können. Für ein erfolgreiches Löschen der personenbezogenen Daten kann ein Nachtraining des KI-Modells erforderlich sein, um die spezifisch zu löschende personenbezogene KI-Ausgabe mittels Anpassung der internen (Wahrscheinlichkeits-)Parameter zu löschen.
Nicht zu vergessen: TOM
In der Checkliste vom BayLDA wird sich nicht eingehender mit der Frage nach den technischen und organisatorischen Maßnahmen (TOM) beschäftigt. Hier kann aber aber das „Positionspapier der DSK zu empfohlenen technischen und organisatorischen Maßnahmen bei der Entwicklung und dem Betrieb von KI-Systemen“ herangezogen werden. Zu den einzelnen Gewährleistungszielen Transparenz, Datenminimierung, Nichtverkettbarkeit, Intervenierbarkeit, Verfügbarkeit, Integrität und Vertraulichkeit werden dabei jeweils Maßnahmen empfohlen.
Typische DSGVO-Themen im neuen Gewand
Das BayLDA weist explizit darauf hin, dass es sich hier um einen „Konsultationsstand“ handelt und dass die Checkliste einen „Good-Practice-Ansatz [verfolge]“. Anmerkungen und Verbesserungsvorschläge seien willkommen. Es ist aber auch ein gutes Beispiel dafür, dass die Technologieoffenheit der DSGVO allgemein funktioniert. Denn letztlich werden all die bekannten DSGVO-Themen abgearbeitet, die man auch bei der Entwicklung oder Einführung einer IT-Software oder sonstigen Datenverarbeitungsvorgang bedenken muss.
Auch wenn wir noch weit von einer SciFi-Welt wie von „I, Robot“ oder „Detroit: Become Human“ entfernt sind, ist das Thema KI in technischer als auch rechtlicher Hinsicht spannend. Wenn sich Organisationen unsicher im Umgang fühlen, müssen sie nicht allein da durch. Datenschutzberater helfen gerne weiter und auch Aufsichtsbehörden – wie das BayLDA zeigt – stehen für einen kooperativen Wissensaustausch gerne bereit.