in SEO Blog

Cos’è la WayBack Machine

La Wayback Machine di Archive.org è un archivio di pagina web che costituisce, ad oggi, uno dei principali strumenti per riscoprire come è stato il web, come si presentavano vecchi siti web, permettendoci di ritrovare informazioni che diversamente non sarebbero reperibili.

Keliweb: hosting veloce, sicuro e italiano per i tuoi siti

Problemi annessi alla WayBack Machine

Tutto questo dovrebbe presupporre che i siti web siano d’accordo ad ricevere questo trattamento (un sito potrebbe non voler dare il consenso ad essere archiviato, ad esempio, o revocarlo in un secondo momento), e pone anche la questione della durabilità ed inviolabilità delle copie: come sottolineato da più esperti, in effetti, diversamente da quello che si potrebbe pensare le copie dei siti web che vengono archiviate su Archive.org non sono permanenti. Questo significa che i proprietari dei rispettivi siti possono decidere in autonomia di rimuovere le proprie pagine, cosa che io ho provato a sperimentare su un vecchio sito di mia proprietà, che è stato archiviato per molti anni e che, ad oggi, non mi interessava più mantenere in copia.

Rimuovere un sito dalla WayBack Machine

Per fare questo, la procedura ufficiale non è troppo chiara, e se cercate “remove website archive.org” venite indirizzati alla procedura per togliere di mezzo contenuti da voi postati come ad esempio video o immagini, non pagine web. La confusione nasce anche dal nome del sito: se infatti parliamo di

web.archive.org

è la WayBack machine che conserva una copia (a volte parziale, a volte integra) di un campione di siti web mondiali, mentre invece:

archive.org

è un archivio di file multimediali di vario genere che sono, in genere, con licenza pubblico dominio (ci troverete film, video con copyright scaduto e via dicendo).

Per rimuovere un contenuto da web archive, invece, bisogna attenersi ai passi riportati di seguito.

Editare il file robots.txt

Come prima cosa, lasciare il sito che ci interessa rimuovere online e funzionante come al solito, evitando redirect globali (i redirect parziali da singola pagina a singola pagina possono, in genere, rimanere) e verificando che sia accessibile il file robots.txt del sito:

sito-che-vuoi-rimuovere.it/robots.txt

all’interno del file robots.txt, da plugin apposito oppure da file manager del sito, bisogna andare a rimuovere tutti i vecchi contenuti ed inserire la seguente direttiva:

User-agent: ia_archiver
Disallow: /

Come spiegato nella guida al robots.txt, infatti, questa direttiva indica al crawler di Archive.org che il proprio user-agent (ia_archiver) NON è autorizzato a scaricare pagine web (seconda riga con /), e – per qualche motivo non troppo ovvio per un non tecnico, effettivamente – questo permetterà allo stesso di rimuovere le pagine web da web.archive.org (su Google, ad esempio, la politica di rimozione delle pagine web è abbastanza diversa).

Assicurarsi che il robots.txt sia corretto

Il file robots.txt così realizzato deve essere posto nella root del dominio che desiderate rimuovere, non in una sottocartella di alcun genere.

Passo successivo, a questo punto, è verificare che il file robots.txt sia accessibile, contenga quella direttiva (che potete anche aggiungere ai contenuti già esistenti nel file, eventualmente) e restituisca un codice 200 OK (potete verificarlo ad esempio con il tool httpstatus).

Di seguito un esempio di restituzione del codice corretto:

mentre il contenuto del file sarà il seguente:

Richiedere la rimozione del dominio a web.archive.org

Siamo pronti per la fase di richiesta rimozione effettiva del sito, la stessa che generalmente è poco chiara nei siti web che ne parlano.

Bisogna infatti scrivere una email in inglese all’indirizzo info CHIOCCIOLA archive.org con questo template di base (Nota bene: sostituite Ciccio Pasticcio col vostro nome e cognome, e che-vuoi-rimuovere.it con il nome del sito sul quale avete operato e che vorreste rimuovere).

Corsi SEO gratuiti: impara Google Search Console, SEO Audit, PageSpeed Insights e molto altro!

Formal Request To Remove Website From Internet Archive Wayback Machine [sito-che-vuoi-rimuovere.it]

Hi,
my name is Ciccio Pasticcio, owner of che-vuoi-rimuovere.it. I’m officially requesting immediate removal of the domain from web.archive.org  and the Internet Archive Wayback Machine.

We placed the:

User-agent: ia_archiver

Disallow: /

code in our  file robots.txt.  Thanks very much for your work and please let me know about this.

Fatto questo, inviate la richiesta via email e potete rilassarvi un po’.

Ho fatto questa richiesta su un paio di siti, e mediamente i tempi di risposta sono di 2 giorni lavorativi, mentre la rimozione del sito effettiva avviene dopo circa una settimana dalla richiesta (il tempo di aggiornare il db, da quello che dicono).

(fonte Foto di Charles Davis da Pixabay)

ServerPlan: hosting professionale per aziende, web-agency e reseller
SMSHosting : il servizio per inviare SMS aziendali, provalo adesso!