Das Scraping von Websites ist oftmals negativ besetzt. Betroffene führen den Datenschutz und die informationelle Selbstbestimmung als Argumente gegen dessen Zulässigkeit ins Feld. Oft zu Recht – aber eben nicht immer. Der Beitrag stellt am Beispiel des gegen den Anbieter KASPR von der CNIL 2024 verhängten Bußgelds dar, was beim Scraping zu beachten ist.
Der Inhalt im Überblick
- Kurz: Was ist Scraping?
- Der Fall KASPR vor der CNIL
- Gegen welche Bestimmungen der DSGVO verstieß KASPR?
- Scraping: Nicht nur das Datenschutzrecht hat mitzureden
- Verantwortungsvolles Scraping als Mittelweg?
- Konkrete erste Schritte zum verantwortungsvollen Scrapen
- Scraping ist kein rechtsfreier Raum – aber auch kein Tabu
Kurz: Was ist Scraping?
Beim Scraping werden Informationen aus Websites extrahiert. Dazu wird der Code der Website genutzt, um entweder alle oder nur bestimmte Daten zu extrahieren. Die extrahierten Daten können anschließend für den Aufbau einer Datenbank, für die Marktforschung, für das Natural Language Processing und für weitere Zwecke verwendet werden. Scraping ist vom Crawling abzugrenzen, das die Indexierung von Informationen (z. B. für Suchmaschinen) beschreibt.
Der Fall KASPR vor der CNIL
KASPR vertrieb eine kostenpflichtige Erweiterung für den Google Chrome Browser. Mithilfe dieser konnten Nutzer berufliche Kontaktdaten von Personen abrufen. Zu diesem Zweck erstellte KASPR eine Datenbank, in der die Kontaktdaten gespeichert wurden, die beispielsweise aus LinkedIn oder von anderen Websites extrahiert worden waren.
Gegen welche Bestimmungen der DSGVO verstieß KASPR?
Am 5. Dezember 2024 verhängte die CNIL eine Geldstrafe in Höhe von 240.000 Euro gegen KASPR, insbesondere, weil das Unternehmen Kontaktdaten von Nutzern auf LinkedIn gesammelt hatte, obwohl diese zuvor maskiert worden waren.
Die CNIL war der Ansicht, dass die Erhebung von Kontaktdaten mit eingeschränkter Sichtbarkeit über das hinausging, was von Personen, die sich in einem beruflichen Netzwerk registrieren, erwartet werden kann und daher im Fall von KASPR nicht rechtmäßig sei. Ferner bemängelte die CNIL, dass KASPR erst im Jahr 2022, also vier Jahre nach Einführung der Erweiterung, damit begonnen hatte, Betroffene über die Extraktion ihrer Daten zu informieren. Auf weitere Nachfrage teilte KASPR den Betroffenen lediglich mit, dass sie deren Daten aus öffentlich zugänglichen Quellen bezogen hätten. Aus welchen Quellen genau, konnte KASPR jedoch nicht in allen Fällen angeben. Auch das monierte die CNIL.
Der Fall KASPR macht deutlich, wie wichtig dies insbesondere bei der Nutzung von Daten aus sozialen Netzwerken ist. Mit ihrer Entscheidung betont die CNIL, dass wirtschaftliche Interessen nicht über den Rechten der Betroffenen stehen dürfen.
Scraping: Nicht nur das Datenschutzrecht hat mitzureden
Doch ist das Scraping von Websites nach dieser Maßgabe datenschutzrechtlich und sonstig gesetzeskonform möglich?
Diese Frage lässt sich nicht nur datenschutzrechtlich kaum jemals mit einem klaren Ja oder Nein beantworten. Beim Scrapen von Websites sind nämlich oft auch andere Rechtsgebiete betroffen, wie bspw. das Urheberrecht.
Rechtskonformes Scraping nach Maßgabe der DSGVO
Die erste datenschutzrechtliche Frage beim Scraping ist, ob und welche Rechtsgrundlage für die Extraktion der Inhalte greift. Für eine gute Skalierung ist in der Regel nur das berechtigte Interesse als Rechtsgrundlage praktikabel. In diesem Zusammenhang können auch die Grundsätze der DSGVO (Art. 5 DSGVO) berücksichtigt werden. Um rechtskonform zu handeln, kann es sinnvoll sein, den Algorithmus zur Extraktion auf bestimmte Daten und Teile von Webseiten zu beschränken. Dadurch gewinnt man auch Spielraum bei der Plausibilisierung des Vorliegens eines berechtigten Interesses an der Nutzung des Scrapers. Im zweiten Schritt sollte ein Löschkonzept erstellt werden. Schließlich muss festgelegt werden, wer Zugriff auf die extrahierten Daten haben soll und wer den Zugriff kontrolliert. All diese Überlegungen und Prozesse sind zum Zwecke des Prozessmanagements und als Vorlage für eine aufsichtliche Prüfung zu dokumentieren.
Rechtskonformes Scraping nach Maßgabe des Immmaterialgüterrechts
Insbesondere beim gewerblichen Text- und Data-Mining urheberrechtlich geschützter digitaler Werke sind Vorgaben bezüglich des Werkszugangs, der Löschung nicht mehr benötigter Werke sowie der Beschränkbarkeit durch die Urheber zu beachten (§ 44b UrhG). Wer zu Zwecken der Forschung Text- und Data-Mining betreibt, ist in den Bereichen teils freier (§ 60d UrhG), darf aber nicht alles. Bei der Beurteilung, ob urheberrechtlich geschützte Werke genutzt werden, ist zu beachten, dass die Schwelle für die urheberrechtliche Relevanz eines Werks in der Praxis niedrig ist (vgl. „kleine Münze”).
Verantwortungsvolles Scraping als Mittelweg?
Insgesamt aber wird Scraping wohl kaum rechtlich risikofrei möglich sein. Diese Risiken lassen sich jedoch durch verantwortungsvolles Scraping verringern. Zum verantwortungsvollen Scraping gehört es zumindest, die geltenden Nutzungsbedingungen sowie weitere vom Betreiber der Webseite für die Datenextraktion festgelegte Bedingungen zu beachten. Diese lassen sich oft durch Abruf der robots.txt Datei ermitteln. Ferner bietet es sich an, die von der italienischen Datenschutzaufsichtsbehörde publizierten Leitlinien zum Scraping als Orientierung zu nutzen. Auch wenn sich die Leitlinien primär mit dem Schutz von Websites vor Scraping im Kontext des KI-Trainings befassen, liefern sie dennoch Einblicke darüber, welche Aspekte ein verantwortungsvoll programmierter Scraping-Algorithmus berücksichtigen sollte.
Konkrete erste Schritte zum verantwortungsvollen Scrapen
Verantwortungsvolles Scrapen kann schon mit diesen einfachen Schritten beginnen:
- Prüfen Sie die robots txt und die Nutzungsbedingungen der Website auf Schranken für Scraping.
- Auch bei öffentlich zugänglichen Daten prüfen Sie, ob die Inhalte urheberrechtlich geschützt sind. Dies gilt insbesondere, wenn Artikel, Videos, Bilder oder andere Inhalte extrahiert werden sollen.
- Sichern Sie, dass die Extraktion der Inhalte die Kapazitäten der Website nur minimal beansprucht.
- Es empfiehlt sich generell, nur Daten geringer Sensibilität zu extrahieren (also z. B. keine Gesundheitsdaten).
Dies ist bei Weitem keine abschließende Liste möglicher Schritte, sondern lediglich eine erste Orientierungshilfe.
Scraping ist kein rechtsfreier Raum – aber auch kein Tabu
Entgegen der weitverbreiteten Ansicht ist Web Scraping nicht generell verboten – aber auch nicht stets erlaubt. Die Grenzen zwischen zulässigem und unzulässigem Scraping sind fließend und hängen stark vom Kontext ab. Hier ist es wichtig, sich im Laufe der Zeit ein Gespür dafür zu entwickeln, was rechtlich und/oder ethisch unzulässig ist. Insofern gilt: Web Scraping ist eine neutrale Methode zur Gewinnung von Daten, die sich sowohl für gute als auch für schlechte Zwecke nutzen lässt.


