Negli ultimi anni, i pubblicatori di notizie hanno intensificato gli sforzi per contrastare il fenomeno dello scraping web non autorizzato da parte delle intelligenze artificiali. Abbandonando approcci conciliatori, le aziende stanno adottando difese tecniche più aggressive. Tattiche come i tarpits AI e le sfide di Proof of Work vengono implementate per intrappolare e dissuadere i bot di scraping. Questa crescente resistenza è supportata anche da Cloudflare, che ora blocca automaticamente i crawler AI non conformi.
la vulnerabilità dei publisher: l’impatto dello scraping
Tradizionalmente, i siti web si sono affidati al file robots.txt per comunicare con i crawler. Questo file funge da guardiano, indicando quali contenuti possono essere esplorati e quali devono rimanere riservati. Essendo una semplice cortesia senza meccanismi di enforcement, molti scraper ignoreranno questa indicazione. La mancanza di forzatura ha dato origine a un problema crescente: gli scraper terzi che sottraggono contenuti dalle pubblicazioni senza consenso.
- Pubblicazioni in difficoltà a causa della diminuzione del traffico diretto
- Aumento dei costi operativi per la gestione del traffico degli scraper
- Wikimedia Foundation ha registrato un aumento del 50% nel consumo di banda
la reazione dell’industria: nuove regole in arrivo
Per affrontare queste sfide, l’industria sta cercando di stabilire nuove normative. L’Internet Engineering Task Force (IETF) ha creato il gruppo di lavoro AI Preference Working Group (AIPREF) con l’obiettivo di definire chiaramente le preferenze dei publisher riguardo all’uso dei loro contenuti per l’addestramento delle intelligenze artificiali.
nuove strategie contro lo scraping
Senza regolamenti chiari in atto, alcuni editori stanno introducendo misure attive:
- Tarpits AI: Questa tattica intrappola i crawler inviandoli in un labirinto infinito di file statici senza link d’uscita.
- Proof of Work: Sfide come quella dell’Anubis obbligano le macchine a completare compiti crittografici, rendendo costoso il processo per le aziende che gestiscono grandi fattorie di bot.
cloudflare entra nella lotta contro lo scraping
Nell’ambito della lotta contro lo scraping, Cloudflare ha recentemente cambiato la propria politica bloccando automaticamente i bot AI. In precedenza era previsto un modello “opt-out”. Questa decisione è stata accolta positivamente da numerosi media importanti come The Associated Press, The Atlantic, e Condé Nast. Inoltre, Cloudflare offre uno strumento chiamato AI Labyrinth, capace di rilevare comportamenti scorretti dei bot e attrarre crawler indesiderati in trappole virtuali.
- The Associated Press
- The Atlantic
- Condé Nast
Lascia un commento