Die menschliche Entscheidungsfindung wird in vielen Lebensbereichen zunehmend von algorithmischen Systemen unterstützt oder zunehmend an diese ausgelagert. Die Logik dieser automatisierten Entscheidungsfindungssysteme ist häufig undurchsichtig. Die Überwindung der mangelnden Transparenz in modernen KI/ML-Systemen wird daher häufig als eine der größten Herausforderungen für viele potenzielle Anwendungsfälle angeführt. Auf diesem Gebiet wird viel geforscht, insbesondere unter dem Begriff „erklärbare KI“. Was es damit rechtlich sowie technisch auf sich hat, erfahren Sie in diesem Artikel.
Der Inhalt im Überblick
Die rechtlichen Anforderungen: Vertrauen ist gut, Kontrolle ist besser?
Mangels fehlender Nachvollziehbarkeit einiger Aspekte des maschinellen Lernens (im Folgenden pauschal KI/ML) ist es den Data Scientists oft nicht möglich, umfassende Informationen über die Datenverarbeitung und die einzelnen Programminstanzen zu geben.
Zeitgleich legt aber der Grundsatz der Transparenz nach Art. 5 Abs. 1 lit. a) Alt. 3 DSGVO fest, dass eine Datenverarbeitung „in einer für die betroffene Person nachvollziehbaren Weise“ erfolgen muss. Übergeordneter Zweck dieses Grundsatzes ist die effektive und informierte Überprüfung der Datenverarbeitung auf ihre Rechtmäßigkeit sowie die damit verbundene Möglichkeit der Wahrnehmung der Betroffenenrechte.
„Echte“ Transparenz als Prämisse?
Die DSGVO kennt das Konzept einer „erklärbaren KI“ nicht. Ein allgemeines Recht auf hundertprozentige Transparenz und eine umfassende Erläuterung der Datenverarbeitung wird in der DSGVO daher auch nicht ausdrücklich normiert, sodass umstritten bleibt, wie weit der allgemeine Transparenzgrundsatz eigentlich reichen sollte.
Fraglich bleibt auch, ob die Transparenzanforderung in der DSGVO eine Erklärung dafür bieten muss,
- wie eine bestimmte Ausgabe, eine Schlussfolgerung oder ein Ergebnis erzeugt wurde (also funktionale Informationen) oder
- sich lediglich auf generelle Informationen beziehen, wie das eingesetzte KI/ML-System entwickelt wurde und wie die allgemeinen technischen Parameter dessen aussehen.
Im letzteren Fall besteht die Sorge, dass die Informationen des Verantwortlichen so allgemein werden, dass sie ihre Durchschlagskraft verlieren und ebenso nutzlos sind, wenn es darum geht zu erklären, warum eine Entscheidung in einer bestimmten Situation getroffen wurde.
Auf der anderen Seite sind automatisierte Entscheidungssysteme häufig komplizierte Zusammensetzungen aus miteinander verknüpften Ursachen, während eindeutige Erklärungen zu den Entscheidungssystemen ohnehin immer nur Vereinfachungen und Nachbildungen darstellen können.
Weite Auslegung der Transparenz (Telos)
Für eine sehr weite Auslegung der Transparenzanforderung streitet in erster Linie der Sinn und übergeordneter Zweck des Grundsatzes, nämlich die effektive Verwirklichung der Betroffenenrechte.
Wie soll sich aber eine betroffene Person gegen eine Entscheidung des Verantwortlichen zur Wehr setzen, einwilligen, selbstbestimmt entscheiden, wenn selbst der Data Scientist die zufälligen Korrelationen aus seinem Datensatz nicht im Ansatz nachvollziehen kann?
Das Bundesverfassungsgericht greift diesen Gedanken erstmals in seinem bekannten Volkszählungsurteil 1983 auf und zieht eine immer noch gültige Prämisse der informationellen Selbstbestimmung hervor:
“Wer nicht mit hinreichender Sicherheit überschauen kann, welche ihn betreffenden Informationen in bestimmten Bereichen seiner sozialen Umwelt bekannt sind und wer das Wissen möglicher Kommunikationspartner nicht einigermaßen abzuschätzen vermag, kann in seiner Freiheit wesentlich gehemmt werden, aus eigener Selbstbestimmung zu planen oder zu entscheiden.“
– BVerfGE 65, 1 (43) –
Für ein weites und umfassendes Verständnis spricht ebenfalls der Erwägungsgrund 39, der den Transparenzgrundsatz in Satz 4 wie folgt spezifiziert:
„Dieser Grundsatz betrifft insbesondere die Informationen über die Identität des Verantwortlichen und die Zwecke der Verarbeitung und sonstige Informationen, die eine faire und transparente Verarbeitung im Hinblick auf die betroffenen natürlichen Personen gewährleisten, sowie deren Recht, eine Bestätigung und Auskunft darüber zu erhalten, welche sie betreffende personenbezogene Daten verarbeitet werden.“
Mit dem erweiterten Hinweis in Satz 4 des Erwägungsgrundes auf „sonstige Informationen“ könnten solche Informationen gemeint sein, die eine weitreichende Erklärbarkeit eines KI/ML-Systems mitumfassen. Ob es sich hier um weitreichende Informationen zur Funktion eines KI-ML-Systems (wie eine bestimmte Ausgabe, Schlussfolgerung oder ein Ergebnis erzeugt wurde) handelt oder lediglich, um generelle Informationen zum Aufbau des Systems sowie technische Parameter und Informationen zur Validierung handeln, bleibt ungeklärt. Man wird wohl auch aus rechtshistorischen Gründen davon ausgehen müssen, dass der Verordnungsgeber der DSGVO an die rasante Entwicklung derartiger Entscheidungssysteme nicht gedacht hat. Zumindest eröffnet der Erwägungsgrund 39 Satz 4 dahingehend einen gewissen Interpretationsspielraum.
Abschließend verweist der Erwägungsgrund 78 Satz 3 ebenfalls auf die Transparenz technischer Funktionen, womit auch hier von einer Tendenz des Verordnungsgebers zu mehr Erklärbarkeit von KI/ML-Systemen und damit verknüpft zu einer vollumfänglichen Informationspflicht besteht.
Enge Auslegung der Transparenz (Art. 12-15 DSGVO)
Gegen eine weite Auslegung und die damit einhergehenden umfassenden Informationspflichten sprechen die konkreten Wortlaute der Auskunfts- und Informationspflichten nach Art. 12 ff. DSGVO, welche als Konkretisierung des Transparenzgrundsatzes gelten.
Art. 13 Abs. 2 lit. f DSGVO normiert hierzu – exemplarisch:
„das Bestehen einer automatisierten Entscheidungsfindung einschließlich Profiling gemäß Artikel 22 Absätze 1 und 4 und – zumindest in diesen Fällen – aussagekräftige Informationen über die involvierte Logik sowie die Tragweite und die angestrebten Auswirkungen einer derartigen Verarbeitung für die betroffene Person.“
Als konkrete Ausprägung der Transparenz hat der Verantwortliche gemäß den Art. 13 Abs. 2 lit. f, Art. 14 Abs. 2 lit. g und Art. 15 Abs. 1 lit. h DSGVO zunächst den Betroffenen über das Bestehen einer automatisierten Entscheidungsfindung (Art. 22 DSGVO) zu informieren.
Im Kontext der automatisierten Entscheidungsfindungen muss (nach dem Wortlaut „zumindest in diesen Fällen“) der Verantwortliche dem Betroffenen aussagekräftige Informationen über die involvierte Logik sowie die Tragweite und die angestrebten Auswirkungen einer derartigen Verarbeitung für die betroffene Person liefern.
Die DSGVO legt mit seiner Wortwahl nicht fest, für welche konkreten Datenverarbeitungsschritte diese Informationen über das „zumindest“ hinaus erforderlich sind. Das Wort „zumindest“ impliziert damit, dass eine solche Informationspflicht nur in den Fällen besteht, die von Art. 22 DSGVO, also bei automatisierten Entscheidungsfindungen, erfasst sind.
Automatisierte Entscheidungsfindungen in der DSGVO
Automatisierte Entscheidungsfindungen nach Art. 22 DSGVO richten sich aber nur an KI/ML-Systemen, die ausschließlich automatisierte Entscheidungen treffen. Nach dem Erwägungsgrund 71 ist das der Fall, wenn die Entscheidungen „ohne jegliches menschliche Eingreifen“ erfolgt. Welche Tragweite dieses Merkmal haben soll, definiert die DSGVO ebenfalls nicht konkret. Genügt den Anforderungen des Erwägungsgrundes ein Sachbearbeiter, der alle Fälle umstandslos durchreicht oder erfordert der Erwägungsgrund einen gewissenhaften Spezialisten aus dem Fachbereich eines Unternehmens, der vor jeder Anwendung eine erneute Prüfung vornimmt und über ein Ermessen verfügt? Vermutlich tendiert die DSGVO zu einem hybriden und interaktiven Ansatz. In einem aktuell gegen die Schufa anhängigen Verfahren vor dem EuGH könnte sich dieser demnächst ausführlicher zu Art. 22 DSGVO äußern.
Bis dahin bleibt festzuhalten, dass Systeme, die lediglich ein „Ja und Amen“ des Mitarbeiters erfordern, nicht unter das Merkmal „menschliches Eingreifen“ fallen. KI/ML-Systeme, die eine Interaktion verunmöglichen demgemäß ebenso.
Code ist nicht Law! Auch für den Data Scientist nicht!
Dieser rechtlich herrschenden Argumentationslinie zufolge bleiben entscheidungserleichternde- und unterstützende Systeme außerhalb der erhöhten Regulierungsanforderung, sodass die Informationspflichten bei vielen Data-Science-Anwendungen kein erhebliches Hindernis darstellen.
Denn das übliche Vorgehen eines Data-Science-Projekts vollzieht sich nicht immer voll automatisiert, sondern ist durchsetzt mit weiteren kleinteiligen Interaktionen, abwägenden Betrachtungen und weiterführenden Erwägungen des Data Scientists und der jeweiligen Fachbereiche. Nicht jede Korrelation und nicht jede Vorhersage wird vom Data Scientist konsumiert, als objektive Wahrheit erachtet und in die sofortige interaktionsfreie Anwendung überführt. Insbesondere nicht bei Anwendungsfällen, in denen KI/ML für wichtige Entscheidungen eingesetzt werden.
Entweder der Verordnungsgeber kannte die Tätigkeit eines Data Scientists nicht – und hat diese daher nicht mitbedacht – oder er beabsichtigte tatsächlich nur die Regulierung voll automatisierter Entscheidungsfindungen.
Konkrete Bestimmungen wären möglich gewesen
Damit werden dem Data Scientist – zumindest de lege lata – auch hier keine Knüppel zwischen die Beine geschmissen. Denn hätte der Verordnungsgeber eine vollumfängliche Transparenz erzielen wollen, wäre es ihm auch möglich gewesen, dies konkret festzulegen. Zum Vergleich lassen sich hier die Offenlegungsvorschriften der Marktmissbrauchsverordnung (Art. 17 – 21 MAR) heranziehen, die – auch angesichts der besonderen Gefahren im Finanzsektor – eine wesentlich konsequentere Wortwahl gebrauchen.
Transparenz ist dennoch geboten!
Dem Grundsatz der Transparenz bleibt dennoch Beachtung zu schenken. Denn neben den zahlreichen technischen und organisatorischen Pflichten (ErwG 78) spielen die Transparenzanforderungen im Rahmen der Interessenabwägung nach Art. 6 Abs. 1 lit. f DSGVO weiterhin eine gewichtige Rolle. So könnte im Rahmen einer Interessenabwägung bspw. miteinfließen, dass KI/ML-Systeme in Szenarien mit höheren Risiken ein höheres Maß an Transparenz erfordern. Das Gleiche gilt selbstverständlich für die Durchführung einer Datenschutz-Folgenabschätzung.
Ebenso gilt für die Ausgestaltung wirksamer Einwilligungserklärungen, dass diese von Betroffenen in informierter Weise abgegeben werden müssen.
Stand der Technik in der KI/ML-Transparenzforschung
Während sich Juristen über die normativen Anforderungen einer erklärbaren KI/ML und den Umfang des Transparenzgebots streiten, ist die Technik einen Schritt voraus.
Denn die technische Herstellung von erklärbaren KI/ML-Systemen entwickelt sich neuerdings zu einer eigenen Forschungsdisziplin. Dieser Umstand folgt – unabhängig von den Datenschutzregularien – bereits daraus, dass der Data Scientist im Idealfall kein Interesse daran haben sollte, mit undurchsichtigen Modellen zu arbeiten, die irrationale und verzerrte Zusammenhänge erzeugen könnten oder verborgene Diskriminierungen enthalten. Denn je undurchsichtiger die Algorithmen sind, desto schwerer gestaltet sich die Intervenierbarkeit und Kontrolle derartiger Systeme. Insbesondere in temporeichen und entscheidungsrelevanten Kontexten wie in der medizinischen Diagnose darf daher unter keinen Umständen eine semantische Kluft zwischen Mensch und Maschine bestehen.
Für ein „gutes“ Resultat sollte daher die Verwendung von möglichst erklärbaren Modelltypen im originären Interesse des Data Scientist liegen.
Der Data Scientist Matthew McAteer stellt in seinem Blog eine Reihe von Best Practices für die Entwicklung von ML-Systemen vor, indem auch eine Reihe von Tipps für erklärbare KI/ML-Ansätze enthalten sind (Nitpicking Machine Learning Technical Debt).
Wer ein weitergehendes Interesse an diesem Forschungsfeld hat, dem können wir an dieser Stelle folgende weitere Literatur zu erklärbaren Ansätzen von KI/ML-Systemen empfehlen:
- Cai et al. (2019): The effects of example-based explanations in a machine learning interface
- Wang et al. (2019): Designing Theory-Driven User-Centric Explainable AI
- Kaur et al. (2020): Interpreting Interpretability: Understanding Data Scientists’ Use of Interpretability Tools for Machine Learning
- Alqaraawi et al. (2020): Evaluating saliency map explanations for CNNs: a user study
Ein weiter Weg – Vom Debuggen zur Operationalisierung
Die Methodiken innerhalb dieser noch jungen Forschungsdisziplin sind in erster Linie auf den Anwendungsfall der Entscheidungsfindung ausgerichtet. Infolgedessen werden alternative Gründe für die Abgabe von Erklärungen, wie z. B. die Rechtfertigung von Prognosen, wie sie bei der Bonitätseinstufung benötigt werden, selten berücksichtigt.
Zudem konzentriert sich ein Großteil der KI/ML-Transparenzforschung primär auf algorithmische Lösungen für die Erstellung sinnvoller Erklärungen oder aber auf die Gestaltung erfolgreicher Benutzeroberflächen für intelligente Systeme. Es gibt daher weiterhin wenig Forschung darüber, wie Unternehmen und Organisationen Erklärungsstrategien auch in der Praxis anwenden können.
Vom Standpunkt des Privacy-by-Design Grundsatzes bleibt auch problematisch, dass die meisten Erklärbarkeitstechniken lediglich zum Debuggen von Modellen und Verfahren genutzt werden, statt diese Techniken in die KI/ML-Systeme zu integrieren. Auch hier wird das Pferd oft von hinten aufgezäumt.
Risikomanagement und der Anschein von Objektivität
Data Scientists sind sich zwar der Notwendigkeit eines Risikomanagements viel bewusster geworden, aber es muss noch mehr getan werden, um bessere Tools, Prozesse und interdisziplinäre Teams zu schaffen, die beim Management und der Minderung von Risiken im Zusammenhang mit KI/ML unterstützen können.
Letztlich sollte auch dem Data Scientist klar vor Augen stehen, dass die freudige Überzeugung, jedes Problem durch mathematische Gleichungen zu lösen, oft auch einfach nur den Anschein von Objektivität erweckt. KI/ML-Systeme bilden menschliche Entscheidungen ab – JA! Sie stellen aber dadurch keine objektive Wahrheit her.
Die Zukunft digitaler Geopolitik
In den letzten Jahren haben viele Unternehmen, Forschungseinrichtungen und Organisationen des öffentlichen Sektors Grundsätze und Leitlinien für eine „ethische“ KI/ML herausgegeben. Wenngleich diese sehr weit fortgeschritten sind, stammen die meisten dieser Guidelines aus den westlichen Staaten. Nur wenige Anweisungen und Leitlinien kommen aus asiatischen Ländern, keine aus China. Dies könnte ein Grund zur Besorgnis sein, denn China ist – neben den USA – wahrscheinlich das KI/ML-Powerhouse der Welt.
Ein weiter Weg, den es – auch als Datenschützer – künftig zu beobachten gilt.
McAteers Blog kann man wahrlich nur empfehlen. Herzlichen Dank für die zweiseitige (technisch/juristisch) Betrachtung.