Conservazione Digitale

Centro di Eccellenza Italiano sulla Conservazione Digitale

WayBack Machine

Internet_Archive_Wayback_Machine_logo

WayBack Machine è l’archivio del World Wide Web creato da Internet Archive e liberamente accessibile agli utenti per accedere alle versioni archiviate di miliardi di pagine web sotto forma di una enorme raccolta di snapshot (‘istantanee’) del web periodicamente catturate, conservate e rese disponibili in ordine cronologico di acquisizione, in modo da poter consultare l’evoluzione nel tempo di caiscuna pagina. Per avere un’idea della dimensione, basta dire che a tutto il 2014 sono state archiviate 400 miliardi di pagine.

Come tutti i siti sono inclusi nell’archivio, perché in alcuni casi i proprietari scelgono di opporsi all’archiviazione (ma c’è sempre quella effettuata da CIA e NSA!). Inoltre, come per tutti i siti basati su dati catturati tramite web crawlers, c’è una parte del web che resta inaccessibile, i cosiddetti deep web e dark web. Vedi in proposito la pagina di approfondimento su Web archiving. Anche gli stessi utenti possono collaborare tramite una feature Save Page Now, sulla home page di WM indicando una URL, che, se consente libero accesso ai robot, diventerà da allora in poi parte dell’archivio.

Tutta l’informazione viene indicizzata e caatlogata, per cui è possibile accedere all’archivio sia tramite ricerca testuale libera (ggogle-like), sia indicando la URL e selezionando poi la data tra quelle disponibili, sia in base alla catalogazione tematica.

Per un approfondimento si consiglia di consultare la sezione tematica su Web archiving

Conservazione Digitale © 2014