Perplexity AI unter Beschuss: Cloudflare stoppt heimliches Web-Crawling trotz Sperrungen

Ein neuer Bericht wirft Perplexity AI vor, Webseiteninhalte unerlaubt auszulesen, obwohl Zugriffe von den jeweiligen Seiten per robots.txt-Datei ausdrücklich untersagt sind. Dieses Verhalten sorgte für eine Untersuchung durch Cloudflare, den Anbieter für Internetsicherheitsdienste. Die Analyse zeigt, dass Perplexity seine eigenen Crawler verschleiert, um Sperren zu umgehen.
Cloudflare verdeutlicht, dass Perplexity seine üblichen User-Agent-Kennungen wie „PerplexityBot“ und „Perplexity-User“ ignoriert, wenn Webseiten den Zugriff verbieten. Stattdessen nutzt das System generische Browser-Identifikationen, die etwa Google Chrome auf macOS imitieren. Dies erlaubt dem KI-Anbieter den Zugriff auf ansonsten gesperrte Inhalte.
Um dieses versteckte Crawling zu überprüfen, setzte Cloudflare eigens erstellte Testseiten ein, die nicht indexiert oder öffentlich zugänglich waren und deren Zugriff per robots.txt ausgeschlossen wurde. Trotz aller Maßnahmen konnte Perplexity die Daten dennoch erfassen und in seinen Antworten verwenden.
Zusätzlich tarnen sich diese inoffiziellen Crawler durch wechselnde IP-Adressen, die außerhalb des offiziellen Perplexity-IP-Bereichs liegen. Dabei verändern sie fortlaufend ihre Netzwerkkennungen (ASNs), um Tracking und Blockaden zu vermeiden. Als Reaktion auf diese Taktik hat Cloudflare spezielle Regeln entwickelt und aktiviert, um solche verdeckten Crawling-Versuche zu verhindern. Diese Funktion steht allen Cloudflare-Nutzern kostenlos zur Verfügung.
Cloudflare kritisiert, dass durch dieses Verhalten grundlegende Internetprotokolle und Richtlinien wie RFC 9309 verletzt werden. Während etwa OpenAI seine Bots klar kennzeichnet und Zugriffsrestriktionen respektiert, entfremdet sich Perplexity laut den Experten bewusst von diesen Regeln.
Perplexity AI weist die Anschuldigungen zurück. Das Unternehmen betont die technische Trennung zwischen dem eigentlichen Crawler und dem KI-Sprachmodell. Letzteres arbeite ausschließlich auf Basis bereits gesammelter oder lizenzierter Daten, ohne selbst aktiv Webseiten zu durchsuchen. Perplexity bezeichnet die Vorwürfe von Cloudflare als Fehlinterpretation und kritisiert zugleich, die Darstellung schade dem offenen Internet.
Cloudflare hat Perplexity AI aus der Liste verifizierter Bots entfernt und blockiert die Tarnungsmaßnahmen konsequent. Die Debatte wirft ein Schlaglicht auf den Umgang von KI-Anbietern mit Web-Daten und die Balance zwischen Datenschutz, Urheberrechten und technologischer Innovation.
Verpasse keine News, folge mir auf WhatsApp oder Google News
Links mit einem * sind Partner-Links. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalte ich eine kleine Provision. Für euch ändert sich am Preis nichts. Danke für eure Unterstützung!
