Data Science: Datenminimierung in Zeiten von Big Data

Fachbeitrag

Data Scientists benötigen viele Daten und moderne KI/Machine Learning-Ansätze sind in der Regel datenhungrig und enorm rechenintensiv. Es gilt das Motto: Je mehr Daten zum Trainieren, desto besser und zuverlässiger der Algorithmus. Die Datenschutzgrundverordnung hingegen normiert den Grundsatz der Datenminimierung und stellt die Verarbeitung von personenbezogenen Daten unter einen generellen Erlaubnisvorbehalt. Wie passt das eigentlich zusammen und was könnte Abhilfe schaffen?

Datenminimierung oder Datenvermeidung/Datensparsamkeit?

Der – zugegeben etwas missverständliche – Ausdruck der Datenminimierung suggeriert der Semantik nach, dass hierbei ein anlassloser und allumfassender Anspruch auf Nicht-Verarbeitung gemeint sein könnte. Sprich im Idealfall und unabhängig vom Einzelfall so wenig, wie möglich personenbezogene Daten verarbeitet werden sollten.

Dass dem nicht so ist, zeigt bereits der Gesetzeswortlaut von Art. 5 Abs. 1 lit. c DSGVO und ein rechtshistorischer Vergleich mit dem alten Bundesdatenschutzgesetz (im Folgenden: BDSG). Die Grundsätze aus dem BDSG alter Fassung (a.F.) sind daher nicht mit dem Grundsatz der Datenminimierung aus Art. 5 Abs. 1 lit. c DSGVO zu verwechseln. So normierte das alte BDSG noch im § 3a Satz 1 BDSG a.F. das Ziel der sogenannten Datenvermeidung (Abs. 1) und verlangte zudem Datensparsamkeit (Abs. 2).

Hier hieß es im ersten Absatz entsprechend:

„Die Erhebung, Verarbeitung und Nutzung personenbezogener Daten und die Auswahl und Gestaltung von Datenverarbeitungssystemen sind an dem Ziel auszurichten, so wenig personenbezogene Daten wie möglich zu erheben, zu verarbeiten oder zu nutzen.“

Im neuen Art. 5 Abs. 1 lit. c DSGVO heißt es nun:

„Personenbezogene Daten müssen dem Zweck angemessen und erheblich sowie auf das für die Zwecke der Verarbeitung notwendige Maß beschränkt sein.“

Während also das BDSG a.F. noch seinen systemischen Fokus auf das „OB“ der Datenverarbeitung legte, geht es dem neuen Grundsatz der Datenminimierung mehr um das „WIE“ einer Datenverarbeitung. Während der „alte“ Grundsatz der Datensparsamkeit seinen Anspruch noch auf die konkrete Zweckauswahl ausdehnte, stellt der „neue“ Grundsatz der Datenminimierung die konkrete Zweckauswahl dem Data Scientist frei zur Disposition. Daraus folgt im Umkehrschluss, dass die konkrete Zweckauswahl des Data Scientists nicht dem Grundsatz der Datenminimierung unterliegt. Relevant ist nunmehr, ob dem selbst gesetzten Zwecke nach die Datenverarbeitung angemessen, erheblich und auf das notwendige Maß beschränkt wurde. Damit rückt die Datenminimierung „lediglich“ den sakrosankten Zweckbindungsgrundsatz in den Mittelpunkt der datenschutzrechtlichen Analyse.

Die Merkmale der Datenminimierung

Der Grundsatz der Datenminimierung setzt sich aus drei Merkmalen zusammen. Alle drei Merkmale beziehen sich dabei auf den Zweckbindungsgrundsatz.

Dem Zweck erheblich

Im Rahmen der Datenminimierung sollte der Data Scientist prinzipiell nur personenbezogene Daten nutzen, die für die spezifische „Berechnung“ seines Modells auch wirklich benötigt werden. Maßgeblich ist hier, dass diese Daten auch eine gewichtige (erhebliche) Rolle in der Modellierung und anschließenden Anwendung einnehmen.

Dem Zweck angemessen

Das Merkmal der Angemessenheit schränkt die Datenverarbeitung wertend ein. Für die Beurteilung der Kreditwürdigkeit als Zwecksetzung könnte die soziale Herkunft, der Gesundheitszustand, der akademische Grad oder der aktuelle Wohnort und damit das Lohnniveau des Wohnortes sicherlich der Präzision von Prognosen sachdienlich sein. Für den Betroffenen ist eine solche Datenerhebung mit einer hohen Eingriffstiefe verbunden und damit als sozial inadäquat bzw. un-„angemessen“ zu erachten.

Im Wissen darum ist bei der Verarbeitung besonderer Kategorien personenbezogener Daten (Art. 9 DSGVO) wie bspw. Gesundheitsdaten – auch bei einer späteren Anwendung erzielter Data-Science-Resultate – besondere Vorsicht geboten.

Auf das notwendige Maß beschränkt (Erforderlichkeit)

Auch dieses Merkmal suggeriert zumindest semantisch, dass datenintensive Data-Science-Projekte – aufgrund der Datenminimierung – in Gänze verboten wären. Dabei geht es hier lediglich um die Prüfung von gleichrangigen Alternativen, ähnlich wie bei der allseits bekannten Prüfung der Erforderlichkeit einer Datenverarbeitung im Rahmen des Art. 6 Abs. 1 lit. f DSGVO. Demgemäß ist eine Verarbeitung immer dann erforderlich, wenn kein milderes, wirtschaftlich gleich effizientes Mittel zur Verfügung steht, den entsprechenden Zweck mit gleicher Sicherheit zu verwirklichen. Maßgeblich ist also, ob für den Data Scientist eine ebenso effektive Alternative mit geringerer Eingriffsintensität zur Verfügung steht. Die Bewertung hängt dabei von den Umständen des Einzelfalles ab.

Beispiel: Genügen zur Erzielung von Zweck X (X = Effizienzsteigerung am Stationsdurchlauf eines Fließbandes bei der Fertigung eines Automobils) nicht auch regelbasierte Entscheidungsmodelle auf der Basis von Regressionsmodellen statt der Nutzung von künstlich neuronalen Netzen?

Technische und organisatorische Merkmale

Weiterhin ist technisch und organisatorisch der Zugang zu den Daten in allen Phasen zu beschränken und die verarbeiteten Daten so bald wie möglich zu löschen. Datenminimierung bedeutet damit auch, den Zugang zu allen Daten auf die kleinstmögliche Gruppe von Personen zu beschränken, was häufig durch Sicherheitsmechanismen wie durch die Verschlüsselung im Ruhezustand und die Erstellung von Zugangskontrolllisten etc. erreicht wird.

Data-Science-Projekte zwischen Kompensationsmaßnahmen und Rechtsunsicherheit?

Im Supervised-Verfahren bleibt die konkrete Zwecksetzung als auch die Beschränkung auf das notwendige Maß deutlich einfacher zu gestalten. Das Unsupervised-Verfahren und die Nutzung neuronaler Netzwerke bereiten dahingehend aber weiterhin einige datenschutzrechtliche Sorgen.

Anonymisierung und Pseudonymisierung, erneut!

Um jeden Zweifel aus dem Weg zu räumen, besteht natürlich immer die Möglichkeit der Anonymisierung oder die Nutzung von synthetischen Daten. Jedoch gestaltet sich die Anonymisierung immer dann als besonders verzwickt, wenn die angestrebte Inferenz (eine von einem Regelsystem hervorgerufene Schlussfolgerung) oder die konkrete Anwendung eine Identifizierungsmöglichkeit benötigt.

Im Kontext von etwaigen Kompensationsmaßnahmen stellte die Art.-29-Datenschutzgruppe – das Vorgänger-Beratungsgremium der Europäischen Kommission in Datenschutzangelegenheiten – in ihrer Leitlinie für Transparenz gemäß der Verordnung 2016/679 (WP 260 rev. 01) auf Seite 40 auf den hoch umstrittenen Art. 11 DSGVO ab. Hier verwies das ehemalige Gremium noch darauf, dass die Pseudonymisierung eine Möglichkeit zur Durchsetzung des Datenminimierungs-Grundsatzes darstellen könnte. Von einer bedenkenlosen Übertragung dieses Vorschlags auf ihr Data-Science-Projekt ist dennoch Vorsicht geboten. Denn Pseudonymisierungen beseitigen den Personenbezug nicht und gelten daher lediglich als präventive, aber weiterhin wünschenswerte technische Kompensationsmaßnahme.

„Federated Learning“

In Korrespondenz zu diesen Rechtsunsicherheiten entwickeln sich daher neue technische Kompensationsmethoden wie bspw. das sogenannte „Federated Learning“ (zu Deutsch: Förderales Lernen). Diese Methode ist als sog. Privacy-enhancing technologie (PET) darauf ausgerichtet, die Nutzung personenbezogener Daten zu minimieren und gleichzeitig die Datensicherheit zu maximieren.

„Federated Learning“ ist eine Methode des maschinellen Lernens, die es ermöglicht, dass Modelle des maschinellen Lernens Erkenntnisse aus verschiedenen Datensätzen an unterschiedlichen Standorten sammeln können, ohne die Trainingsdaten gemeinsam zu nutzen. Sprich: Die Berechnungen, die für das Training des Algorithmus beim „Federated Learning“ so wichtig sind, werden auf dem Endgerät selbst durchgeführt, d.h. dort, wo die Daten erstellt oder eingegeben werden. Nur die Ergebnisse der Berechnungen bzw. Lernergebnisse werden anschließend übertragen und zusammengeführt. Dadurch können die personenbezogenen Daten am lokalen Standort verbleiben, was die Möglichkeit von Datenschutzverletzungen erheblich verringert.

Zentral vs. dezentral

Adressiert wird insbesondere die Problematik herkömmlicher „Machine Learning“- Modelle, welche unter Verwendung aller verfügbaren Trainingsdaten in einer zentralisierten Umgebung stattfindet. Der Hauptvorteil dieser Methode besteht darin, dass es Data Scientists ermöglicht, gemeinsame statistische Modelle auf dezentralen Geräten oder Servern mit einem lokalen Datensatz zu trainieren. Das bedeutet, dass ein Data Scientist zwar dasselbe Modell zum Trainieren verwenden, aber keine personenbezogenen Daten in die Cloud hochladen oder mit anderen Beteiligten austauschen muss.

Indem es kontinuierliches Lernen auf den Geräten der Endnutzer ermöglicht und gleichzeitig sicherstellt, dass die personenbezogenen Daten der Endnutzer die Geräte der Endnutzer nicht verlassen, stellt das „Federated Learning“ in Hinsicht auf den Datenschutz eine hilfreiche Kompensationsmaßnahme dar. Insgesamt tun sich damit neue Räume für die Data-Science-Community auf. Für diejenigen, die mehr darüber erfahren möchten, bietet die aktuelle Publikation „Advances and Open Problems in Federated Learning“ einen breiten Überblick.

Datenzentrierter Ansatz bei KI/ML – The bigger the better?

Sprachmodelle, die auf riesigen Datensätzen trainiert wurden, haben in den letzten Jahren zweifelsohne den Stand der Technik vorangebracht. Viele KI/ML-Systeme benötigen daher in der Regel eine beträchtliche Menge an Daten. Die Vorstellung, dass mehr Daten unbedingt von Vorteil sind, ist daher auch weit verbreitet.

Unabhängig vom Datenschutz: Was passiert aber, wenn nur eine geringe Datenmenge für das Pre-Training der Modelle zur Verfügung steht?

Viele Data Scientist greifen in so einer Lage neuerdings zum datenzentrierten Ansatz. Dieses Konzept steht in engem Zusammenhang mit einer neuen Denkschule, die sich im Bereich von KI/ML-Systemen immer mehr durchsetzt und dafür plädiert, einen datenzentrierten Ansatz gegenüber einem modellzentrierten Ansatz zu bevorzugen.

Modellorientiert vs. Datenzentriert

Beim traditionellen modellorientierten Ansatz ändert der Data Scientist nach der Standardvorverarbeitung die Daten nicht mehr, sondern konzentriert sich auf die Verbesserung des Codes oder der Modellarchitektur. Es geht also in erster Linie darum, Zeit für die Arbeit am Code oder der Modellarchitektur aufzubringen.

Im Mittelpunkt des datenzentrierten Ansatzes stehen primär die Daten. Die Daten sind in gewisser Weise das goldene Kalb, um das sich alles dreht, weniger der Code oder die mathematische Optimierung des Modells. Dieser Ansatz bezieht sich dabei im Wesentlichen auf die methodische Erweiterung oder Modifikation der vorhandenen Datensätze. Folglich hat in diesem Ansatz die Qualität der Daten Vorrang vor der Quantität der Daten.

Während also traditionelle modellzentrierte KI/ML-Systeme daran arbeiten das Modell zu verbessern, indem sie ihm kontinuierlich neue Informationen geben und mit Hyperparamtern steuern (Ein Hyperparameter ist ein spezifischer Parameter, der zur Steuerung des Lernprozesses verwendet wird), geht der datenzentrierte Ansatz davon aus, dass die Codierung des Modells feststeht und konzentriert sich stattdessen darauf, Wege zu finden, um das Beste aus den verfügbaren Daten zu machen. Das Endergebnis kann auf diese Weise genauer und überprüfbarer (intervenierbarer) sein.

Vorteile und Nachteile

Vorteil am datenzentrierten Ansatz ist, dass KI/ML-Systeme dadurch fast genauso gut mit einem kleineren Datensatz auskommen; zumindest unter der Voraussetzung einer gewissen Datenqualität der Datensätze. Unter dem Prisma des Datenschutzrechts besteht ein weiterer Vorteil darin, dass die Überprüfbarkeit der Rechtsgrundsätze aus Art. 5 DSGVO – sofern eine datenschutzrechtliche Friktion besteht – erleichtert würde.

Nachteilig bleibt wohl der erhöhte Beratungsbedarf bei solch einem datenzentrierten Ansatz, da zur Gewährleistung der Datenqualität ein permanentes und iteratives Monitoring erforderlich wird.

Wichtig ist natürlich, dass der eine Ansatz den anderen nicht ausschließt. Denkbar bleibt daher auch die Anwendung von beiden Ansätzen.

Für diejenigen, die mehr über die Funktionsweise erfahren möchten, bietet die aktuelle Publikation „From model-centric to data-centric“ einen breiten Überblick.

Datenschutz-Folgenabschätzung als Vorsorge

Schlussendlich empfiehlt es sich, im Rahmen einer Datenschutz-Folgenabschätzung einen Überblick über das abstrakte Gefährdungspotenzial seiner Datenverarbeitung zu schaffen. Im Artikel 29 Abs. 6 des neusten KI-Gesetzesentwurfs ist eine solche Risikoabschätzung für Hochrisiko-KI-Systeme bereits verpflichtend normiert. Die Datenschutz-Folgenabschätzung stellt ein Instrument dar, welches es ermöglicht, Risiken zu erkennen und systematisch zu bewerten, die bei der Verarbeitung von personenbezogenen Daten insbesondere durch den Einsatz von neuen Technologien auftreten können. Sie soll es ermöglichen, Strategien und Maßnahmen zu entwickeln, die geeignet sind, diese Risiken zu minimieren. Art. 35 Abs. 3 lit. a-c benennt typische risikogeneigte Verarbeitungstätigkeiten, bei denen ein hohes Risiko unterstellt wird.

Der gewissenlose Data Scientist?

Diese Hürden mögen auf den ersten Blick ärgerlich erscheinen und so manche DSGVO-Stilblüte lässt sich wohl auch nicht vermeiden.

Aber. Eine bedächtige Herangehensweise ist dem Data Scientist auch nicht völlig fremd, sondern seiner Tätigkeit inhärent. Schließlich sammeln Data Scientists Daten nicht zum Selbstzweck. Ein Data Scientist stürzt sich auch nicht wie ein Stier auf seine diversen Datensätze und kombiniert alle Datenpunkte wild miteinander herum. Vielmehr will er gute Resultate und plausible Inferenzen erzeugen. Ebenso kann es ihm/ihr nicht daran gelegen sein, möglichst viele „falsche“ und unbrauchbare Daten zu sammeln. Nicht jede Korrelation und nicht jede Vorhersage wird vom Data Scientist konsumiert, als objektive Wahrheit erachtet und in die sofortige interaktionsfreie Anwendung überführt. Insbesondere nicht bei Anwendungsfällen, in denen wichtige Entscheidungen (High Stakes im Gesundheitswesen) anstehen.

Der Datenschutz, wenn auch das de lege lata nicht in seinen originären Aufgabenbereich fällt, gibt dem Data Scientist die Möglichkeit, einen gesunden Selbstzweifel gegenüber seinen Modellen und anschließenden Schlussfolgerungen zu entwickeln. Demgemäß sollte im Rahmen einer Datenschutz-Folgenabschätzung – bereits aus eigenem Interesse – immer auch eine Plausibilitätsprüfung der spezifischen Anwendung erfolgen. Rechtskonformes und damit zugleich verantwortungsgeleitetes Handeln sollte dem Data Scientist daher nicht fremd sein, sondern für ein „gutes“ und nachhaltiges Resultat unverzichtbar.

intersoft consulting services AG

Als Experten für Datenschutz, IT-Sicherheit und IT-Forensik beraten wir deutschlandweit Unternehmen. Informieren Sie sich hier über unser Leistungsspektrum:

DSGVO Beratung

2 Kommentare zu diesem Beitrag

  1. Na, Endlich! Herzlichen Dank für Ihren Artikel.
    Ein datenzentrierter Ansatz wäre in der Tat sehr wirkungsvoll. Wohl aber eher in Bereichen (e.g Finanzen) mit cleanen Daten relevant.

Hinterlassen Sie einen Kommentar

Die von Ihnen verfassten Kommentare erscheinen nicht sofort, sondern erst nach Prüfung und Freigabe durch unseren Administrator. Bitte beachten Sie auch unsere Nutzungsbedingungen und unsere Datenschutzerklärung.