Web Scraping stellt aus datenschutzrechtlicher Sicht schon immer ein Problem dar. Mit dem vermehrten Einsatz verbesserter generativer KI wie ChatGPT bewerten die Aufsichtsbehörden die Problematik als noch dringlicher. Websitebetreiber sollten sich bewusst sein, dass sie ggf. technische und organisatorische Schutzmaßnahmen gegen den Abzug von personenbezogenen Daten durch Web Scraping treffen müssen. Die italienische Aufsichtsbehörde hat vor einigen Wochen eine Richtlinie veröffentlicht, die Empfehlungen zum Schutz vor Web Scraping enthält. Dieser Artikel gibt einen Überblick über die Problematik und stellt die Empfehlung der italienischen Aufsichtsbehörde vor.
Der Inhalt im Überblick
Was ist Web Scraping?
Beim Web Scraping werden mittels Bots, Web-Scraping-Tools oder Web-Crawler Daten oder Ausgaben aus einer Webanwendung bzw. Website extrahiert, um diese zu analysieren oder anderweitig zu verwerten. Es können dabei unter anderem Navigationspfade bewertet, Parameterwerte gelesen, sogar Reverse Engineering kann durchgeführt werden. In technischer Hinsicht nutzt der Scraper den HTML-, CSS- oder JavaScript-Code einer Webseite, um Daten zu extrahieren.
Durch das Scraping erfahren die Angreifer mehr über den Betrieb der Anwendung. Es werden verschiedene Arten von Informationen gesammelt. Darunter können auch personenbezogene Daten, wie Kontaktdaten sein. Das Scraping kann manuell (durch Kopieren und Einfügen) erfolgen, häufiger erfolgt es jedoch automatisiert. Mit Web Scraping können Konkurrenten unter Umständen die gesamte Website – einschließlich HTML-Code und Datenbankspeicher – replizieren und zur Datenanalyse lokal speichern. Oft ist das Ziel auch, Preisanalysen durchzuführen, um Konkurrenten automatisch zu unterbieten oder personenbezogene Daten zum Zwecke der werblichen Ansprache zu sammeln.
Mit dem Aufstieg generativer KI kam als neues Ziel des Web Scraping das Sammeln von Trainingsdaten für diese KI-Modelle hinzu. Hierdurch hat sich die Problematik aus Sicht der Datenschutzaufsichtsbehörden weiter verschärft.
Was ist die rechtliche Problematik beim Web Scraping?
Die Legalität des Web Scraping hängt von den Umständen ab. Die gescrapten Webseiten können Nutzungsbedingungen haben, die Web Scraping untersagen, die durchsuchten Datenbanken bzw. der Content können urheberrechtlich geschützte Inhalte aufweisen oder auch personenbezogene Daten.
Web Scraping ist daher nur dann zulässig, wenn
- die extrahierten Daten öffentlich verfügbare Daten sind und
- die erhobenen Informationen nicht durch ein Login geschützt sind und
- es nicht gegen lokale Gesetzgebung, sprich, die Nutzung darf u.a. nicht gegen Gesetze wie das Urheberrecht und das Datenschutzrecht verstoßen.
Da die Nutzung von Daten, die für das Training generativer KI-Modelle gesammelt werden, in den meisten Fällen zumindest mit dem letzten Punkt in Konflikt geraten, haben sich die europäischen Datenschutzbehörden sich in den vergangenen Monaten vermehrt mit dem Thema beschäftigt. So hat der Europäische Datenschutzbeauftragte (EDSB) hat am 03. Juni 2024 Leitlinien veröffentlicht, was europäische Institutionen bei der Einführung von generativer KI beachten sollten (siehe dazu unseren Artikel „EDSB veröffentlicht Leitlinien zur Nutzung generativer KI„). Die italienische Aufsichtsbehörde hatte gegen Ende des vergangenen Jahres bereits eine Faktensammlung begonnen, bei der die Schutzmaßnahmen von Webseitenbetreibern gegen Web Scraping bewertet wurde.
Warum ist Web Scraping ein Problem für Websitebetreiber?
Wie oben ausgeführt bestehen starke rechtliche Bedenken hinsichtlich der Erhebung von personenbezogenen Daten mittels Web Scraping für das Training von KI-Modellen und den damit verbundenen potenziellen Datenschutzverletzungen. Bestenfalls handelt es sich um eine rechtliche Grauzone. Websitebetreiber als datenschutzrechtliche Verantwortliche für die von ihnen verarbeiteten personenbezogenen Daten müssen gemäß Art.32 Abs.1 DSGVO
„Unter Berücksichtigung des Stands der Technik, der Implementierungskosten und der Art, des Umfangs, der Umstände und der Zwecke der Verarbeitung sowie der unterschiedlichen Eintrittswahrscheinlichkeit und Schwere des Risikos für die Rechte und Freiheiten natürlicher Personen […] geeignete technische und organisatorische Maßnahmen [treffen], um ein dem Risiko angemessenes Schutzniveau zu gewährleisten…“.
Web Scraping wird durch beim Open Worldwide Application Security Project als Security Threat (OAT-011) geführt. Die europäischen Datenschutzaufsichtsbehörden sehen Web Scraping als Gefahr für den Datenschutz, insbesondere das Scraping durch Drittanbieter, die Dritten dann Daten zum Zwecke des Trainierens ihrer Algorithmen verkaufen. Perfektes Beispiel aus jüngster Zeit: Die Geschäfte und das Geschäftsgebaren der Microsoft-Tochter Xandr. 2023 berichtete netzpolitik.org, in welche sehr konkreten Kategorien Xandr Menschen in welcher Menge einordnet. All dies, um diese Datensätze dann an die Werbeindustrie oder auch Behörden zu verkaufen. Die Kategorien betrafen dabei auch sehr private Verhaltensweisen und sogar Krankheitsbilder – von „Moms who shop like crazy“ bis „depressiv“. Derzeit versuchen die Datenschutzbehörden, die Tätigkeiten von Xandr und vieler weiterer ähnlicher Unternehmen zu prüfen. Die Datenschutzorganisation noyb hat bei der italienischen Datenschutzbehörde eine Beschwerde eingereicht.
Websitebetreiber sind daher bereits in eigenem Interesse angehalten, die personenbezogenen Daten ihrer Kunden und Nutzer mit geeigneten technischen und organisatorischen Maßnahmen zu schützen.
Was tun gegen Web Scraping?
Die italienische Datenschutzbehörde empfiehlt mehrere Schlüsselmaßnahmen, mit denen Websitebetreiber sich gegen Web-Scraping wehren können:
Technische Maßnahmen:
- Gesperrte Bereiche:
Es sollten Bereiche der Website geschaffen werden, die nur nach einem Login des Nutzers zugänglich sind. Die Daten hinter dem Login sind nicht im gleichen Maße öffentlich zugänglich, bei entsprechenden Privatsphäre-Einstellungsmöglichkeiten können diese Daten sogar privat sein. So wird das Risiko von Web Scraping verringert. Bei Einrichtung der Registrierung sollten im Einklang mit dem Grundsatz der Datenminimierung nur die tatsächlich erforderlichen Daten der Nutzer für das Angebot erhoben werden. Auch so kann das Risiko für die Nutzer minimiert werden. - Überwachung des Netzwerkverkehrs:
Als einfache, aber dennoch effektive Maßnahme schlägt die Behörde die Überwachung der von einer Website oder Plattform empfangenen HTTP-Anfragen vor. Dies ermöglicht es, anomale Datenströme zu und von einer Website oder Online-Plattform zu erkennen und geeignete Schutzmaßnahmen zu ergreifen. - IP-Blocking:
Wird der Traffic einer Website überwacht und werden häufige Traffic-Quellen identifiziert, die verdächtig erscheinen, können sie blockiert werden, bevor sie der Website ernsthafte Probleme verursachen. - Ratenbegrenzung:
Diese Schutzmaßnahme ermöglicht es, den Netzverkehr und die Anzahl der Anfragen zu begrenzen, indem nur die von bestimmten IP-Adressen kommenden Anfragen ausgewählt werden, um einen übermäßigen Datenverkehr (insbesondere DDoS-Angriffe oder Web-Scraping) im Voraus zu verhindern - Robots.txt:
Durch Verwenden der robots.txt-Datei können Websitebetreiber Web Crawlern und Web Scrapern Anweisungen geben, welche Seiten sie durchsuchen dürfen und welche nicht. Dafür muss die robots.txt-Datei klar und gut strukturiert sein. Es muss eindeutig sein, auf welche Bereiche die Crawler oder Web Scraper keinen Zugriff haben sollen. Obwohl einige der Web Scraper robot.txt ignorieren werden, sollte die Datei dennoch eingesetzt werden. - CAPTCHAs:
Websitebetreiber können CAPTCHAs implementieren, um automatisierte Zugriffe zu erschweren. - Regelmäßige Änderung von HTML-Markups:
Diese Maßnahme kann die Identifizierung einer Webseite für einen Bot erschweren. - Einbettung von Inhalten in Medienobjekte:
Die Einbettung von Daten in Bilder oder andere Medien macht die automatische Extraktion komplexer und erfordert spezielle Technologien wie die optische Zeichenerkennung (OCR). - Intrusion Detection Systems (IDS):
Die Nutzung von IDS hilft, verdächtige Aktivitäten schnell zu erkennen, um Gegenmaßnahmen zu ergreifen.
Organisatorisch-technische Maßnahmen:
- Log-Analyse:
Die Behörde rät im Rahmen der oben aufgeführten Maßnahmen zur regelmäßigen oder stichprobenartigen Überprüfung der Protokolldaten.
Rechtliche Maßnahmen:
- Nutzungsbedingungen:
Websitebetreiber sollten sicherstellen, dass ihre Website oder Plattform klare Nutzungsbedingungen hat, die das Scraping verbieten. Die Aufnahme eines ausdrücklichen Verbots der Verwendung von Web-Scraping-Techniken in die Nutzungsbedingungen einer Website oder Online-Plattform stellt eine Vertragsklausel dar, die es den Betreibern dieser Websites und Plattformen ermöglicht, bei Nichteinhaltung rechtliche Schritte einzuleiten, um den Vertragsbruch der Gegenpartei feststellen zu lassen. - Rechtliche Schritte:
Websitebetreiber sollten ggf. rechtliche Schritte gegen Personen oder Organisationen ergreifen, die gegen Ihre Nutzungsbedingungen verstoßen.
KI vs. Datenschutz auf Websites: Was muss ich bedenken?
Das Training von KI-Modellen erfordert eine riesige Menge an Daten (auch personenbezogener Art), die derzeit regelmäßig aus einer massiven und wahllosen Sammlung mittels verschiedener Web–Scraping-Techniken stammen. Die vertraglichen Verpflichtungen der Betreiber von Websites und Online-Plattformen können durchaus auch die öffentliche Zugänglichmachung beinhalten. Als datenschutzrechtlich Verantwortlicher sind sie aber ebenso verpflichtet, personenbezogene Daten angemessen zu schützen. Verantwortliche müssen daher prüfen, welche Schutzmaßnahmen sie ergreifen können bzw. müssen, um Auswirkungen des Scraping zum Training generativer Algorithmen der künstlichen Intelligenz eindämmen zu können. Die Empfehlungen in der Richtlinie der italienischen Aufsichtsbehörde (nur italienisch) sind zwar nicht abschließend, aber eine nützliche Hilfestellung.
Vielen Dank für den Bericht. Die italienischen Empfehlungen empfand ich als außerordentlich dünn und teilweise prasxisfern. Mein Vorschlag wäre (hier im deutschen Kontext): Das Recht zum „Text- und Data-Mining“ gemäß § 44b UrhG behalten wir uns vor; tdm-reservation:1 Insbesondere das Tag „tdm-reservation“ sollte genannt sein, denn hier haben sich Experten bereits ein Konzept zum elektronisch Lesbaren Widerspruchsrecht erarbeitet. Dies wurde auch in meinem [Werbung entfernt] ausführlich beschrieben.