La rete rappresenta una risorsa straordinaria, costruita su un principio di fiducia reciproca. Per decenni, una regola semplice ha guidato il comportamento dei crawler web automatizzati: il file robots.txt di un sito è un insieme di istruzioni che un bot è tenuto a seguire. Si tratta di una sorta di stretta di mano digitale, attraverso la quale i proprietari dei siti possono comunicare: “Benvenuti, ma vi preghiamo di non esplorare qui.” Quando un’azienda sceglie di ignorare tali istruzioni, non si tratta solo di una questione tecnica, ma di una violazione della fiducia fondamentale. Questo è quanto riportato riguardo a Perplexity AI, che starebbe adottando misure per eludere le politiche no-crawl.
Cloudflare sostiene che Perplexity AI evita attivamente le direttive no-crawl
I recenti risultati ottenuti da Cloudflare hanno messo in discussione il comportamento di uno degli “engine” per risposte basati su intelligenza artificiale, Perplexity. Secondo un’analisi approfondita, si afferma che Perplexity stia praticando il cosiddetto “stealth crawling”. Questa tattica consiste nel tentativo attivo di eludere le regole stabilite dai siti web. L’azienda AI è accusata di utilizzare crawlers non dichiarati e ruotare tra diversi indirizzi IP per aggirare le pagine bloccate e continuare a raccogliere contenuti. Questo avverrebbe anche dopo che un proprietario del sito ha esplicitamente richiesto loro di non farlo.
Tale comportamento, se confermato, può essere considerato inaccettabile. È una diretta violazione delle volontà del proprietario del sito e un chiaro tentativo di accedere a contenuti non destinati alla raccolta pubblica. Un bot che lavora attivamente per oscurare la propria identità e superare le misure di sicurezza non può essere definito come operatore corretto.
In contrasto con altre piattaforme AI “ben comportate”
A differenza dei bot ben intenzionati, gli operatori responsabili seguono un codice etico chiaro. Si presentano in modo trasparente, identificandosi con un user agent unico e fornendo informazioni per contatti. Questi operatori sono definiti come “netizen ben educati”, rispettando i limiti imposti e evitando traffico eccessivo sui siti web. Un esempio positivo è rappresentato da OpenAI, che chiarisce l’identità dei propri crawler, spiega le loro finalità e onora le richieste dei siti web.
Sebbene OpenAI abbia affrontato cause legali da parte degli editori, ha dimostrato in test controllati che i suoi prodotti AI smettono immediatamente di raccogliere dati quando viene dato ordine contrario.
L’ascesa dell’IA sta trasformando la rete; I principi fondamentali di rispetto e trasparenza devono rimanere invariati. I proprietari dei siti meritano il pieno controllo sull’utilizzo dei propri contenuti e non dovrebbero dover combattere contro bot che cercano attivamente modi per aggirare le loro regole.
- Cloudflare
- Perplexity AI
- OpenAI
Lascia un commento