Data Science: Faire KI/ML unter der Sonne des Datenschutzes

Artikel von Nima Oshnooei·18. August 2022

Philosophen, Politiker, exponierte Schriftsteller und die Gerichtshöfe der Moral fordern oftmals eine sogenannte „faire“ Künstliche Intelligenz. Wenngleich ethische Überlegungen und etliche KI-Guidelines im Vordergrund der Diskussion stehen, bleibt immer noch unklar, welche Kriterien eine „faire“ künstliche Intelligenz unter der Sonne des Datenschutzes ausmachen.

Der Inhalt im Überblick

Was sind die Datenschutzgrundsätze?
Fairness, Loyauté und „Treu und Glauben“
- Sozialethische Korrekturmöglichkeit?
Vertrauenstatbestand
- Rechtsmissbräuchliches Verhalten
- Vernünftige Erwartungen des Betroffenen
Bedeutung für Ihr Data Science-Projekt?
„Machine bias“ und Diskriminierung
- Tatbestand der Diskriminierung
- Diskriminierungen technisch vermeiden?
Stellungnahme des EDSA zu unfairen Algorithmen
Management von KI/ML mit dem SDM?

Was sind die Datenschutzgrundsätze?

Als schutzzielorientiertes Fundament des Datenschutzes regelt der Art. 5 DSGVO die allgemeinen Grundsätze für die Verarbeitung von personenbezogenen Daten. Die Grundsätze dienen dabei als wegweisender Ordnungsrahmen für die übrigen Vorschriften der DSGVO und müssen bei deren Umsetzung befolgt werden. Sie haben unmittelbare Wirkung und sind für alle Beteiligten rechtlich verbindlich. Wird gegen die Grundsätze verstoßen, so ist die Datenverarbeitung rechtswidrig.

Allerdings bleiben die Datenschutzgrundsätze aus Art. 5 DSGVO – was Grundsätze naturgemäß so an sich haben – im vagen und allgemein gehalten. Die Feststellung eines Verstoßes bedarf daher der Konkretisierung durch die Rechtsprechung, den Aufsichtsbehörden und des EDSA (Europäische Datenschutzausschuss).

Unter den zahlreichen Grundsätzen fällt auch der Grundsatz auf „Treu und Glauben“ oder „Fairness“ oder „Loyauté“ oder „Rimelighed“.

Fairness, Loyauté und „Treu und Glauben“

Art. 5 DSGVO Grundsätze für die Verarbeitung personenbezogener Daten:

(Deutsch)

Personenbezogene Daten müssen:
1. auf rechtmäßige Weise nach Treu und Glauben und in einer für die betroffene Person nachvollziehbaren Weise verarbeitet werden („Rechtmäßigkeit, Verarbeitung nach Treu und Glauben, Transparenz“);

(Englisch)

Personal data shall be:
1. processed lawfully, fairly and in a transparent manner in relation to the data subject (‘lawfulness, fairness and transparency’);

(Französisch)

Les données à caractère personnel doivent être:
1. a) | traitées de manière licite, loyale et transparente au regard de la personne concernée (licéité, loyauté, transparence);

Die verschiedenen Begrifflichkeiten Fairness, Loyauté und „Treu und Glauben“ – wenngleich phonetisch so klingend – haben nichts zu tun mit dem aus der Zeit der Aufklärung stammenden Leitspruch „Liberté, Egalité, Fraternité“, sondern stellen die unterschiedlichen Übersetzungen der DSGVO in die jeweilige Landessprache dar. Mit dem Grundsatz auf „Fairness“ aus Art. 5 Abs. 1 lit. a Alt. 2 DSGVO ist daher im Prinzip das Gleiche gemeint wie mit dem Grundsatz auf „Treu und Glauben“. Der Begriff „Fairness“ wurde lediglich aus dem Englischen in den althergebrachten deutschen Fachterminus „Treu und Glauben“ übersetzt.

Im Französischen spricht man im Übrigen von „loyale“ und „loyauté“, was der staatszentrierte Franzose wohl wortgetreu mit Loyalität oder Treue übersetzen würde.

Im schwedischen Rechtstext spricht man von „korrekthet“, was übersetzt Korrektheit oder Richtigkeit bedeutet. Die Dänen sprechen wiederum von „rimelighed“, was mit Angemessenheit übersetzt werden könnte und (interessanterweise) eine deutlich liberalere Konnotation vermuten lässt.

Sozialethische Korrekturmöglichkeit?

In Folge dieser multilingualen Beobachtung kann man davon ausgehen, dass der Verordnungsgeber dem Umstand des Vertrauens sowie dem Umstand „struktureller Machtimbalancen“ (Dr. Jörg Pohle) zwischen Betroffenen und Verantwortlichen eine wesentliche Bedeutung beimisst. Als Maßstab eines Vertrauenstatbestandes könnte dabei die vernünftige Erwartungshaltung (ErwG 47 Satz 1) des Betroffenen dienen.

Der Grundsatz auf Treu und Glauben liest sich daher wie eine sozialethische Korrekturmöglichkeit für nicht vorhersehbare Konstellationen bzw. unerwünschte oder „sozialschädliche“ (Adalbert Podlech) Folgen einer Datenverarbeitung. Hierfür spricht zumindest die offene Formulierung des Grundsatzes sowie der historische Hintergrund des Datenschutzes im Gesetzgebungsverfahren (Wilhelm Steinmüller – BT-Drs. VI/3826 – Gutachten „Grundfragen des Datenschutzes“). Diese weite Auslegung bleibt in der juristischen Literatur allerdings nicht unumstritten.

Exkurs: Datenschutzrecht und Privatrecht, § 242 BGB

Die deutsche Begrifflichkeit „Treu und Glauben“ wird man aber rückblickend wohl als eine unglückliche Übersetzung einordnen müssen. Grund hierfür ist der Umstand, dass dieser Fachterminus im deutschen Recht mit der privatrechtlichen Generalklausel § 242 BGB assoziiert wird. Im § 242 BGB heißt es: „Der Schuldner ist verpflichtet, die Leistung so zu bewirken, wie Treu und Glauben mit Rücksicht auf die Verkehrssitte es erfordern“.

Die Ausgangslage im Privatrecht – zwischen zwei Vertragspartnern (Schuldner, Gläubiger) – ist aber in der Regel eine auf Augenhöhe. Die Ausgangslage im Datenschutzrecht ist geprägt von Machtgefällen (Staat – Bürger). Der aus dem Privatrecht kommende Fachterminus „Treu und Glauben“ bildet diesen Zustand daher nicht ausreichend ab und suggeriert sogar durch seine privatrechtlich aufgeladene Tradition eine Schein-Augenhöhe zwischen Betroffenen und Verantwortlichen. In den Erwägungsgründen 39 Satz 4, 60 Satz 1 spricht der Verordnungsgeber überraschenderweise wieder von Fairness.

Für die weiterführende Betrachtung des Grundsatzes auf Fairness hat diese juristische Wortlaut-Akrobatik allerdings keine ernsthafte Relevanz. Der Übersetzer hatte an diesem Tag wohl etwas Pech beim Übersetzen.

Vertrauenstatbestand

Im weitesten Sinne kann der Grundsatz von Treu und Glauben, ähnlich (aber nicht vergleichbar, da der Begriff originär europarechtlich ist) zum privatrechtlichen Grundsatz aus § 242 BGB als Rücksichtnahme auf die Interessen der betroffenen Person verstanden werden.

Rechtsmissbräuchliches Verhalten

Demgemäß ist die verantwortliche Stelle dazu angehalten, die Wahrnehmung der informationellen Selbstbestimmung durch den Betroffenen nicht zu erschweren. Hierunter fallen üblicherweise auch rechtsmissbräuchliche Praktiken wie die Nutzung von „Dark Pattern“ bei Cookie-Bannern, bei denen, durch farbliche Kontraste der Buttons, der Nutzer dazu bewogen wird, alle Cookies zu akzeptieren (BeckOK DatenschutzR/Schantz, 40. Ed. 1.11.2021, DS-GVO Art. 5 Rn. 8a).

Das bedeutet aber auch, dass das Vertrauen der betroffenen Person in keiner Weise missbraucht werden darf. Unter dieser Kategorie fällt demzufolge auch die Erzeugung von Fehlvorstellungen bei der betroffenen Person.

Exemplarisch für den Vertrauenstatbestand führt der Europäische Datenschutzausschuss (kurz: EDPB für European Data Protection Board) einen Beispielsfall an, indem der Verantwortliche den Eindruck erweckt, dass die Daten auf der Grundlage einer Einwilligung verarbeitet werden, während tatsächlich eine andere Rechtsgrundlage herangezogen wird (EDPB – Guidelines 5/2020 on consent under Regulation, Rdn. 122).

Vernünftige Erwartungen des Betroffenen

Dieser für den Verordnungsgeber wesentliche Vertrauenstatbestand aus Art. 5 Abs. 1 lit. a Alt. 2 DSGVO manifestiert sich insbesondere durch weitere zahlreiche Erwähnungen im Gesetzestext der DSGVO (Art. 40 Abs. 2 lit. a DSGVO, Art. 13 Abs. 2 DSGVO) und in den Erwägungsgründen (ErwG 47 Satz 1, ErwG 50 Satz 6 etc.).

Der Erwägungsgrund 47 Satz 1 weist bspw. im Kontext des berechtigten Interesses darauf hin, dass zwischen dem Betroffenen und dem Verantwortlichen die vernünftigen Erwartungen des Betroffenen zu berücksichtigen sind.

Bedeutung für Ihr Data Science-Projekt?

Ein KI/ML-System, welches zur Vorhersage einer Kreditrückzahlungsrate (auch im Supervised-Verfahren) herangezogen wird, verstößt aller Voraussicht nach gegen den Grundsatz der Fairness, wenn personenbezogene Daten auf eine Weise verarbeitet werden, die der Betroffene vernünftigerweise nicht erwarten würde.

Von großer Bedeutung dürfte in diesem Kontext daher auch die Ausgestaltung von Informationspflichten (Art. 13 Abs. 2 DSGVO, Art. 14 Abs. 2 DSGVO) und Einwilligungstexten sein. Pauschale und wachsweiche Hinweise wie: „Wir nutzen Ihre Daten, um unsere Dienste zu verbessern“, dürften rechtlich nicht ausreichen, um die erhobenen Trainingsdaten für ein KI/ML-Systeme zu nutzen. Das rührt in der Sonderheit daher, weil hierin nicht nur ein Verstoß gegen den Grundsatz der Zweckbindung vorliegt, sondern im Sinne des Grundsatzes auf Fairness / Treu und Glauben der Betroffene bei der Einwilligung in die Datenverarbeitung mit dieser Nutzung nicht gerechnet hat (vernünftige Erwartungen).

Das Gleiche gilt auch bei Datenverarbeitungen im Zusammenhang mit gut gemeinten Mitarbeiterbefragungen zur allgemeinen Zufriedenheit im Unternehmen, die im Anschluss zur Bewertung der Mitarbeiter genutzt werden.

„Machine bias“ und Diskriminierung

Unter dem Grundsatz auf Fairness / Treu und Glauben sind aber nicht nur die vernünftigen Erwartungen (Vertrauenstatbestand) des Betroffenen zu berücksichtigen, sondern auch die Vermeidung von Diskriminierungen.

Denn KI/ML-Systeme können diskriminierende Ergebnisse aufgrund von Geschlecht, Rasse, Alter, Gesundheit, Religion, Behinderung, sexueller Orientierung oder anderen Merkmalen liefern, wenn sie aus unausgewogenen oder diskriminierenden Daten lernen. Das sogenannte „machine bias“ („maschinelle Verzerrung“) ist daher ein häufiges Problem, dass sich im Bereich des maschinellen Lernens stellt.

Der Praxis sind auch inzwischen mehrere Situationen bekannt, in denen die Ergebnisse eines maschinellen Lernalgorithmus unbeabsichtigt bestimmte Personen in einer rechtswidrigen Weise diskriminieren. So stellte im Jahre 2015 das Unternehmen Amazon fest, dass der Algorithmus, mit dem es neue Mitarbeiter einstellte, weibliche Bewerberinnen benachteiligt.

Grund hierfür sind im Wesentlichen drei Punkte – etwaige Vorurteile des Data Scientist mal ausgenommen:

Unterrepräsentierte Gruppen
Die Methoden des maschinellen Lernens, die zur Entwicklung von KI/ML-Systemen verwendet werden, sind für die Trainings- und Testdaten optimiert. Wenn Männer in den Trainingsdaten überrepräsentiert sind, wird sich das Modell auf statistische Abhängigkeiten konzentrieren, die den Erfolg im Bewerberpool von Männern vorhersagen, und weniger auf die von Frauen.
So auch im Falle Amazon: Da die Mehrheit der Bewerber in den letzten zehn Jahren männlich war, wurde der Algorithmus so programmiert, dass er Männer gegenüber Frauen bevorzugt, weil ihm dies auf der Grundlage der Anzahl der in den letzten zehn Jahren eingereichten Lebensläufe beigebracht worden war.
Kurzum: Wer „statistisch“ wichtiger ist, ist es auch für das KI/ML-System.
Fortschreibung und Affirmation vergangener Vorurteile
Ein weiterer Grund dafür ist, dass die Trainingsdaten möglicherweise „Spuren“ von Vorurteilen enthalten, die in der Vergangenheit bereits aufgetreten sind und weitergeführt werden.
Modelle und multivariate Analyse
Neben der Datenauswahl ist auch die Kategorisierung, Prioritätensetzung und ebenso die Modellierung maßgeblich für die Beurteilung etwaiger Diskriminierungen.

Tatbestand der Diskriminierung

Der Tatbestand der Diskriminierung wird im Art. 20 und 21 GRCh (Charta der Grundrechte der Europäischen Union) klar umrissen.

Demnach sind alle Personen vor dem Gesetz gleich (Art. 20 GRCh) und Diskriminierungen insbesondere wegen des Geschlechts, der Rasse, der Hautfarbe, der ethnischen oder sozialen Herkunft, der genetischen Merkmale, der Sprache, der Religion oder der Weltanschauung, der politischen oder sonstigen Anschauung, der Zugehörigkeit zu einer nationalen Minderheit, des Vermögens, der Geburt, einer Behinderung, des Alters oder der sexuellen Ausrichtung sind verboten (Art. 21 GRCh).

Da die DSGVO nach Art. 1 Abs. 2 DSGVO alle Rechte und Freiheiten des Betroffenen schützt, wird infolgedessen das Konzept der Gleichbehandlung als ein Recht berücksichtigt, das auch durch die DSGVO geschützt wird.

Diesem Umstand widmet sich die DSGVO insbesondere im Kontext des Profilings (Art. 22 Abs. 2 DSGVO) über den Erwägungsgrund 71 Satz 6. Dieser fordert die Gewährleistung einer fairen und transparenten Verarbeitung sowie technische und organisatorische Maßnahmen, die sicherstellen, dass Faktoren, die zu unzutreffenden personenbezogenen Daten oder Entscheidungen führen, welche den Betroffenen diskriminieren, korrigiert werden.

Diskriminierungen technisch vermeiden?

Vorab ist wichtig festzuhalten, dass vorhandene Diskriminierungen jedweder Art allein technisch nicht behoben werden können. Es gibt lediglich technische Ansätze und Möglichkeiten, Diskriminierungen abzumildern und einzudämmen. Erwägungsgrund 71 Satz 6 weist deshalb explizit daraufhin, dass zu den technischen Maßnahmen auch organisatorische Vorkehrungen gehören. Die Vermeidung von Diskriminierungen sind daher nicht nur ein technisches Problem, sondern primär eines des Datenschutz-Managements.

Grundsätzlich besteht immer die Möglichkeit, etwaige Diskriminierungen bei Trainingsdaten durch Veränderungen an den multivariaten Analysemethoden (Verfahren, Lernprozesse) oder durch die Modifikation der Daten selbst abzumildern. In diesem Zusammenhang besteht auch immer die Möglichkeit der Ergänzung (Addition oder Entfernung) von Daten bei unterrepräsentierten Gruppen. Demgemäß könnte man bspw. Daten zum Bewerberverfahren oder zur Beurteilung von Kreditzahlungsraten mit mehr Datensätzen zu Frauen ergänzen.

Eine weitere Möglichkeit zur Eindämmung von Diskriminierungen innerhalb von KI/ML-Systemen ist die Entwicklung von Meta-Algorithmen für die Klassifizierung, welche eine große Klasse von Fairness-Einschränkungen ermöglicht. Für diejenigen, die mehr darüber erfahren möchten, bietet die Publikation von Celis et al. (2019): Classification with Fairness Constraints: A Meta-Algorithm with Provable Guarantees einen detaillierten Überblick.

Die DSGVO hindert den Data Scientist zumindest nicht daran, Daten zu verarbeiten, um diesen Verpflichtungen nachzukommen.

Beachte: Vom Standpunkt des Einzelfalls bleiben – unabhängig vom Datenschutz – weiterhin zusätzliche sektorspezifische gesetzliche Anforderungen an bspw. die statistische Genauigkeit oder Diskriminierung zu erfüllen.

Stellungnahme des EDSA zu unfairen Algorithmen

Auf eine Anfrage der niederländischen Europaabgeordneten Sophie in ‘t Veld zur Regulierungsbedürftigkeit von „unfairen Algorithmen“ durch die DSGVO antwortet das EDSA, dass die DSGVO hierfür bereits einen soliden Rechtsrahmen bietet.

In der Antwort auf die Anfrage verweist das EDSA auf den datenschutzorientierten Ansatz aus Art. 25 DSGVO, den die Entwickler bei ihrer Technologie in allen Schritten (Entwicklung, Auswahl und Verwendung) zu beachten haben.

Auf die Frage der Abgeordneten Veld, ob die Durchsetzung der DSGVO im Zusammenhang mit Algorithmen ausreichend sei, antwortete der EDSA darauf, dass es den Rechtsrahmen der DSGVO für umfassend genug hält und zusätzliche Rechtsvorschriften zu bestimmten Technologien für verfrüht erachtet. Vielmehr besteht ein Interesse daran, bestehende Normen in Leitlinien zu konkretisieren.

Darüber hinaus ist der derzeitige Rechtsrahmen geeignet für eine wirksame Überwachung und Durchsetzung hinsichtlich der Fairness und der Transparenz. Mit diesem Statement hat der EDSA den Umfang der Datenschutzgrundsätze aus Art. 5 DSGVO noch einen Spalt weit offengelassen.

Management von KI/ML mit dem SDM?

Um nicht in die Versuchung von „Ethics Washing“ zu kommen, bedarf es klarer Vorgaben, die auch prüffähig sind.

Neben der Flut an KI-Guidelines bietet das sogenannte Standard-Datenschutzmodell (SDM) eine gangbare Alternative zur Operationalisierung des Datenschutzes, insbesondere bei der Nutzung von KI/ML-Systemen. Als Standard-Datenschutzmodell bezeichnen die deutschen Datenschutzaufsichtsbehörden eine Methode, mit der für den Bereich des operativen Datenschutzes sichergestellt ist, dass eine einheitliche Datenschutz-Beratungs- und Prüfpraxis in Bezug insbesondere zur Bestimmung von technisch-organisatorischen Maßnahmen der DSGVO erreicht werden kann.

Kurzum: Unter der Sonne des Datenschutzes kann das SDM dabei helfen, datenschutzrechtliche Vorgaben aus Art. 5 DSGVO messbar und methodisch umzusetzen oder zumindest die Möglichkeit eines datenschutzrechtlichen Monitorings von KI/ML-Systemen zu gewährleisten. Sinn und Zweck des SDM ist es, Recht in zweckmäßige und rechtskonforme Technik umzusetzen und dabei eine gemeinsame Sprache zwischen Juristen und Technikern zu finden.

Um den Rahmen des Artikels nicht zu sprengen, verweisen wir gerne auch auf die zahlreichen Publikationen zum Standard-Datenschutzmodell. Das SDM beinhaltet ausformulierte Bausteine, welche man vereinzelt nachschlagen kann. Möglich ist auch die Verschränkung mit einem modernen IT-Service-Management wie ITIL4.