Cloudflare rapporterar att de så kallade botarna, eller crawlers, från Perplexity inte respekterar robots.txt. Genom att ignorera filen och samtidigt försöka dölja var de kommer ifrån vill AI-bolaget kunna samla på sig data även från sajter där de egentligen inte har rätt att göra det.
Som standard kallar Perplexity sina crawlers ”PerplexityBot”. När de har åtkomst till en sajt är allt frid och fröjd, men om dessa botar blockeras sker något märkligt. Namnet på boten som används byter till det mer generiska ”(Chrome/124.0.0.0 Safari/537.36)” och ip-adresserna som används ändras. Plötsligt blir Perplexitys bot helt anonym.
Tillvägagångssättet är både förkastligt och används i stor skala. Cloudflare säger att de noterat samma beteende dagligen för tiotusentals domäner och miljontals förfrågningar.
Efter sin undersökning har Cloudflare gått ut publikt med att de nu av-listar Perplexitys crawlers och blockar deras åtkomst till sajter som skyddas av bolagets AI-blockeringsteknologi. Eftersom Cloudflare har en sån bredd på hur många sajter de omfattar är det ett hårt slag för Perplexity. Dessutom pinsamt.
Cloudflare har även kollat andra AI-företag för att se hur deras crawlers beter sig och konstaterar att de inte uppvisar samma problematiska beteende.
Exempelvis följde Cloudflare crawlers från OpenAI/ChatGPT och testade deras beteende. Så fort en bot upptäckte att direktivet ”disallow” för deras bot fanns i robots.txt slutade de ansluta mot den sidan. Till skillnad från Perplexitys bot som helt enkelt struntade i direktivet.
Cloudflare har nu lagt in extra regler i deras system för att motverka Perplexitys bot-beteende. Alla som har aktiverat AI-skyddet hos Cloudflare har redan det förbättrade skyddet och behöver inte göra något extra.
Perplexity har inte kommenterat kritiken från Cloudflare i skrivande stund. Det finns inte några uppgifter om att de har ändrat beteendet av sina crawlers efter av-listningen.








Lämna ett svar
Visa kommentarer