Synthetische Daten – die Rettung aus der Anonymisierungskrise?

Artikel von Laura L. Stoll·28. Februar 2020

Immer wieder berichten die Medien, dass eigentlich anonyme Daten konkreten Personen zugeordnet werden konnten. Auch wenn die Verantwortlichen genauso medienwirksam proklamieren, dass neben ihrem Desinteresse an den personenbezogenen Daten auch die technische Unmöglichkeit sie an einem Auswerten hinderte. Ist die Anonymisierung in der Krise und könnten synthetische Daten die Rettung sein?

Der Inhalt im Überblick

Herausforderungen der Datennutzung
Anonymisierung als Lösung?
Synthetische Daten als Helfer
Wie funktioniert das?
Ist die Zukunft synthetisch?

Herausforderungen der Datennutzung

Grundsätzlich ist das Interesse von Unternehmen sehr groß, erhobene personenbezogene Daten für sekundäre Zwecke brauchbar zu machen. Häufig stehen hierbei Innovationen im Fokus und die Anforderungen der DSGVO werden als hindernd empfunden. Denn häufig fehlt für diese Verarbeitung eine Rechtsgrundlage und die Daten dürfen dann nicht über ihren eigentlichen Erhebungszweck hinaus verwendet werden.

Anonymisierung als Lösung?

Das Problem würde sich nicht stellen, wenn der Anwendungsbereich der DSGVO erst gar nicht eröffnet wäre. Einen Ausweg könnten anonyme Daten bieten. Denn diese sind keine personenbezogenen Daten im Sinne der DSGVO.

Hierzu Erwägungsgrund 26 der DSGVO:

„Die Grundsätze des Datenschutzes sollten daher nicht für anonyme Informationen gelten, d.h. für Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person beziehen, oder personenbezogene Daten, die in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann. Diese Verordnung betrifft somit nicht die Verarbeitung solcher anonymer Daten, auch für statistische oder für Forschungszwecke.“

Folglich werden anonymisierte Daten als solche definiert,

„die so anonymisiert sind, dass die betroffene Person nicht oder nicht mehr identifizierbar ist“.

Wichtigstes Merkmal in diesem Zusammenhang ist, dass die Daten keine Identifizierung erlauben. Es kommt hier nicht nur auf das einzelne Datum an. Vielmehr ist auch die Kombination von verschiedenen Informationen entscheidend, welche die Möglichkeit der Identifizierung einer Person einräumt. Gelingt also eine Anonymisierung, können die Unternehmen die Daten verwenden, austauschen oder sogar verkaufen, weil der Schutz der einstmals Betroffenen und ihrer Daten nicht mehr erforderlich ist.

Die effektive Anonymisierung gestaltet sich jedoch schwierig. Verantwortliche stehen hier vor vielen Herausforderungen (wir berichteten ausführlich). Nicht zuletzt auch weil Fehlschläge der Anonymisierung – wir denken an die Medienberichte über Netflix – zusätzlich die Verfahren in Frage stellen. Zudem stößt die Anonymisierung dort an ihre Grenzen, wo der Zusammenhang zwischen dem Datensatz und konkreten Personen durch den technischen Fortschritt wieder rekonstruierbar wird.

Synthetische Daten als Helfer

Ausweg aus dieser Situation könnten synthetische Daten sein.

„Unter synthetischen Daten versteht man künstlich erzeugte Daten, die nicht aus realen Ergebnissen stammen.“

Durch die rasanten Entwicklungen im Bereich KI könnte es für Unternehmen möglich werden, eine Identifizierung zu einer bestimmten Person auszuschließen, obwohl detaillierte Datensätze verwendet werden. Künstliche Intelligenzen, wie z. Bsp. Deep Generative Model, generieren synthetische Daten. Dahinter stehen maschinelle Lernalgorithmen, die auf einen Datensatz trainiert werden und die statistischen Informationen und Strukturen dieser Originaldaten erlernen.

Aus dem trainierten Verständnis des Datensatzes können dann neue, synthetische Datensätze geschaffen werden. Faszinierend ist, dass es sich um komplett neue, absolut synthetische Daten handelt, die natürlich auch keinen Personenbezug mehr vorweisen. Dennoch bilden die synthetischen Daten spiegelbildlich den Originaldatensatz ab, was es den Verwendern ermöglicht, verlässliche statistische Aussagen aus diesen ziehen zu können.

Wie funktioniert das?

Der Lernalgorithmus lernt die statistische Verteilung des Datensatzes. Erfasst werden neben der Verteilung, welche Korrelationen zwischen den Daten bestehen. Interessant ist, dass die Modelle auch noch unentdeckte Zusammenhänge erkennen können.
Im zweiten Schritt erfasst das Modell beispielhaft neue Datenpunkte, die den echten Daten statistisch ähnlich sind und auch ähnliche Korrelationen aufweisen.

Auf diese Weise wird ein äquivalenter Datensatz erstellt. Die so erzeugten Daten entsprechen den Originaldaten, ohne dass sie auf die ursprünglichen Werte zurückgeführt werden können.

Ist die Zukunft synthetisch?

Das Generieren synthetischer Datensätze ist in dieser Form noch nicht für die breite Anwendung zugänglich. Zum einem, weil zu einer zuverlässigen Umsetzung sehr große Datensätze benötigt werden und zum anderen, weil die Verfahren noch recht kostspielig sind. Die notwendigen KI-Tools stehen aber auch erst seit wenigen Jahren zur Verfügung. Es ist sehr wahrscheinlich, dass sich die allgemeine Verfügbarkeit erweitert, wenn mehr Anbieter auf dem Markt die Herstellung von synthetischen Daten anbieten. Bei dieser Art der Anonymisierung handelt es sich zwar auch um eine Verarbeitung von Daten i. S. d. der DSGVO. Wenn die synthetischen Daten aber erstellt wurden, kann das Unternehmen diese Daten nach Lust und Laune verwenden.

- anonym
  Ein Überblick zur AnonymisierungFachbeitrag·26. September 2022
- Distanztracker gegen Corona: Mit Abstand, aber ohne VerstandNews·24. Juni 2021
- Datenteilung und Datentreuhänder: Baldige Zukunft oder bloße Fiktion?Fachbeitrag·29. November 2019
Mehr zum Thema
- Anonymisierung
  Was ist Website-Tracking und wie funktioniert es?Fachbeitrag·12. September 2023
- Überraschungs-Urteil: DSGVO doch nicht anwendbar bei Pseudonymisierung?Urteil·1. Juni 2023
- Top 5 DSGVO-Bußgelder im April 2023News·3. Mai 2023
Mehr zum Thema
- Anonymous
  Verarbeitest du noch oder anonymisierst du schon?Fachbeitrag·13. August 2019
- EU-Standardvertragsklauseln: Gerichte prüfen GültigkeitNews·26. Mai 2016
- Äpfel in Geiselhaft - Sabu aus Gefängnis entlassenNews·30. Mai 2014
Mehr zum Thema
- Big Data
  Rechtsgrundlagen für KI: Diskussionspapier des LfDI BWFachbeitrag·2. Januar 2024
- Prüfanforderungen für die Verarbeitung personenbezogener Daten im Zusammenhang mit KIFachbeitrag·26. Oktober 2023
- Rechtmäßigkeit bei der Verarbeitung personenbezogener DatenFachbeitrag·4. Juli 2023
Mehr zum Thema
- personenbezogene Daten
  ChatGPT in der Wissenschaft – Pilotprojekt an der Uni HamburgFachbeitrag·17. April 2024
- EuGH zum Personenbezug von IdentifikationsnummernUrteil·4. April 2024
- Was ist eigentlich dieses "berechtigte Interesse"?Fachbeitrag·2. April 2024
Mehr zum Thema

Beitrag kommentieren

Fehler entdeckt oder Themenvorschlag? Kontaktieren Sie uns anonym hier.

Klicken Sie hier, um den Kommentarbereich anzuzeigen. Kommentare verbergen.