Seguici su Telegram, ne vale la pena ❤️ ➡ @trovalost
Vai al contenuto

Come rimuovere un sito da web.archive.org

Cos’è la WayBack Machine

La Wayback Machine di Archive.org è un archivio di pagina web che costituisce, ad oggi, uno dei principali strumenti per riscoprire come è stato il web, come si presentavano vecchi siti web, permettendoci di ritrovare informazioni che diversamente non sarebbero reperibili.

Problemi annessi alla WayBack Machine

Tutto questo dovrebbe presupporre che i siti web siano d’accordo ad ricevere questo trattamento (un sito potrebbe non voler dare il consenso ad essere archiviato, ad esempio, o revocarlo in un secondo momento), e pone anche la questione della durabilità  ed inviolabilità  delle copie: come sottolineato da più esperti, in effetti, diversamente da quello che si potrebbe pensare le copie dei siti web che vengono archiviate su Archive.org non sono permanenti.

Questo significa che i proprietari dei rispettivi siti possono decidere in autonomia di rimuovere le proprie pagine, cosa che io ho provato a sperimentare su un vecchio sito di mia proprietà , che è stato archiviato per molti anni e che, ad oggi, non mi interessava più mantenere in copia.

Rimuovere un sito dalla WayBack Machine (web.archive.org)

Per fare questo, la procedura ufficiale non è troppo chiara, e se cercate “remove website archive.org” venite indirizzati alla procedura per togliere di mezzo contenuti da voi postati come ad esempio video o immagini, non pagine web.

La confusione nasce anche dal nome del sito: se infatti parliamo di

web.archive.org

è la WayBack machine che conserva una copia (a volte parziale, a volte integra) di un campione di siti web mondiali, mentre invece:

archive.org

è un archivio di file multimediali di vario genere che sono, in genere, con licenza pubblico dominio (ci troverete film, video con copyright scaduto e via dicendo).

Per rimuovere un contenuto da web archive, invece, bisogna attenersi ai passi riportati di seguito.

1: editare il file robots.txt

Come prima cosa, lasciare il sito che ci interessa rimuovere online e funzionante come al solito, evitando redirect globali (i redirect parziali da singola pagina a singola pagina possono, in genere, rimanere) e verificando che sia accessibile il file robots.txt del sito:

sito-che-vuoi-rimuovere.it/robots.txt

all’interno del file robots.txt, da plugin apposito oppure da file manager del sito, bisogna andare a rimuovere tutti i vecchi contenuti ed inserire la seguente direttiva:

User-agent: ia_archiver
Disallow: /

Come spiegato nella guida al robots.txt, infatti, questa direttiva indica al crawler di Archive.org che il proprio user-agent (ia_archiver) NON è autorizzato a scaricare pagine web (seconda riga con /), e – per qualche motivo non troppo ovvio per un non tecnico, effettivamente – questo permetterà  allo stesso di rimuovere le pagine web da web.archive.org (su Google, ad esempio, la politica di rimozione delle pagine web è abbastanza diversa).

2: assicurarsi che il robots.txt sia corretto

Il file robots.txt cosଠrealizzato deve essere posto nella root del dominio che desiderate rimuovere, non in una sottocartella di alcun genere.

Passo successivo, a questo punto, è verificare che il file robots.txt sia accessibile, contenga quella direttiva (che potete anche aggiungere ai contenuti già  esistenti nel file, eventualmente) e restituisca un codice 200 OK (potete verificarlo ad esempio con il tool httpstatus).

Di seguito un esempio di restituzione del codice corretto:

rimuovere sito web.archive.org

 

mentre il contenuto del file sarà  il seguente:

rimuovere sito web archive org 2

3: richiedere la rimozione del dominio a web.archive.org

Siamo pronti per la fase di richiesta rimozione effettiva del sito, la stessa che generalmente è poco chiara nei siti web che ne parlano.

Bisogna infatti scrivere una email in inglese all’indirizzo info CHIOCCIOLA archive.org con questo template di base (Nota MOLTO bene: sostituite Ciccio Pasticcio col vostro nome e cognome, e che-vuoi-rimuovere.it con il nome del sito che vorreste rimuovere).

Formal Request To Remove Website From Internet Archive Wayback Machine [sito-che-vuoi-rimuovere.it]

Hi,
my name is Ciccio Pasticcio, owner of che-vuoi-rimuovere.it. I’m officially requesting immediate removal of the domain from web.archive.org and the Internet Archive Wayback Machine.

We placed the:

User-agent: ia_archiver
Disallow: / 

code in our  file robots.txt. Thanks very much for your work, and please let me know about this.

Fatto questo, inviate la richiesta via email e potete rilassarvi un po’. :-)

Ho fatto questa richiesta su un paio di siti, e mediamente i tempi di risposta sono di 2-3 giorni lavorativi, mentre la rimozione del sito effettiva avviene dopo circa una settimana dalla richiesta (il tempo di aggiornare il db, da quello che dicono). Photo by The Creative Exchange on Unsplash

(fonte)

Da non perdere 👇👇👇



Questo sito web esiste da 4445 giorni (12 anni), e contiene ad oggi 4518 articoli (circa 3.614.400 parole in tutto) e 12 servizi online gratuiti. – Leggi un altro articolo a caso
Non ha ancora votato nessuno.

Ti sembra utile o interessante? Vota e fammelo sapere.

Questo sito contribuisce alla audience di sè stesso.
Il nostro network informativo: Lipercubo.it - Pagare.online - Trovalost.it.