DATA.GOV: GLI ARCHIVISTI LAVORANO PER IDENTIFICARE E SALVARE I MIGLIAIA DI DATASETS CHE STANNO SPARENDO DA DATA.GOV
Più di 2.000 datasets sono scomparsi da data.gov dal giorno dell'insediamento di Trump. Tuttavia, analizzare esattamente cosa sia successo e dove siano andati richiederà del tempo.
I datasets aggregati su data.gov, il più grande archivio di dati aperti del governo statunitense disponibile su internet, stanno venendo cancellati, secondo le informazioni fornite dal sito stesso. Dal giorno dell'insediamento di Donald Trump come presidente, più di 2.000 datasets sono scomparsi dal database.
Come hanno fatto notare persone all'interno delle comunità di Data Hoarding e archiviazione, il 21 gennaio c'erano 307.854 datasets su data.gov. Al giovedì successivo, ce ne erano 305.564. Molte di queste cancellazioni sono avvenute immediatamente dopo l'insediamento di Trump, come mostrato dagli screenshot del sito salvati sulla Wayback Machine dell'Internet Archive. Il ricercatore della Harvard University Jack Cushman ha preso screenshot dei datasets di Data.gov sia prima che dopo l'insediamento e ha lavorato per creare un archivio completo dei dati.
Poiché data.gov è un aggregatore che non ospita sempre i dati direttamente, questo non significa necessariamente che i dati stessi siano stati eliminati, che non esistano altrove nei siti web del governo federale, o che non verranno ri-ospitati in futuro. Ulteriori ricerche saranno necessarie per determinare cosa sia successo a un dato dataset specifico o per vedere se riapparirà altrove su un sito governativo. Per esempio, 404 Media ha trovato alcuni datasets nell'analisi di Cushman che non sono più accessibili su data.gov ma possono ancora essere trovati sui siti web individuali delle agenzie; abbiamo anche trovato alcuni datasets che sembrano ancora esistere perché data.gov collega a siti funzionanti, ma danno un messaggio di errore "file non trovato" quando si tenta di scaricare il file stesso.
Disproporzionatamente, i datasets che non sono più accessibili attraverso il portale provengono dal Dipartimento dell'Energia, dall'Agenzia Oceanica e Atmosferica Nazionale (NOAA), dal Dipartimento dell'Interno, dalla NASA e dall'Agenzia per la Protezione Ambientale (EPA). Tuttavia, determinare cosa sia effettivamente sparito e cosa semplicemente spostato o backuppatizzato altrove dal governo è un compito manuale, e è troppo presto per dire con certezza cosa sia andato perduto e cosa potrebbe essere stato rinominato o aggiornato con una versione più recente.
Questo è dovuto al fatto che data.gov non sempre ospita i dati che sta indicizzando. A volte i dati sono ospitati direttamente su data.gov, altre volte puntano al sito web di un'agenzia specifica, dove i dati sono realmente ospitati. Ciò significa che archiviare e analizzare data.gov non è un processo lineare.
“Alcuni degli ingressi [collegano] ai dati reali,” ha detto Cushman a 404 Media. “E alcuni di loro puntano a una pagina di destinazione [dove i dati sono ospitati]. La domanda è—quando le cose scompaiono, sono i dati a cui punta che sono andati perduti? O è solo l'indice che è sparito?”
Per esempio, "National Coral Reef Monitoring Program: Dati di Temperatura dell'Acqua dai Registratori di Temperatura Sottostanti (STRs) distribuiti nei siti delle barriere coralline nell'arcipelago hawaiano dal 2005 al 2019," un dataset della NOAA, non può più essere trovato su data.gov ma è disponibile su uno dei siti web della NOAA cercando il titolo su Google.
"Stetson Flower Garden Banks Benthic_Covage Monitoring 1993-2018 - OBIS Event," un altro dataset della NOAA, non può più essere trovato su data.gov e sembra anche essere stato cancellato dall'Internet. "Three Dimensional Thermal Model of Newberry Volcano, Oregon," una risorsa del Dipartimento dell'Energia, non è più disponibile tramite il Dipartimento dell'Energia, ma può essere trovata archiviata su siti web di terze parti.
Determinare cosa sia scomparso, perché sia sparito e dove sia andato potrebbe sembrare semplice, e si potrebbe pensare che tutto ciò sia attribuibile a malizia da parte di un'amministrazione che ha dichiarato guerra ai cambiamenti climatici e agli sforzi di equità governativa. Tuttavia, gli archivisti che stanno lavorando per analizzare le cancellazioni ed archiviare i dati affermano che, sebbene alcune cancellazioni siano sicuramente dovute a un'intenzionale eliminazione di informazioni, altre sono probabilmente effetti collaterali routine legati al cambio di amministrazione, e stanno lavorando per determinare quali siano le une e le altre. Per esempio, nei giorni successivi all'insediamento di Joe Biden, data.gov ha mostrato circa mille dataset cancellati rispetto al giorno prima dell'insediamento, secondo la Wayback Machine.
A causa del numero complessivo elevato di dataset e del modo in cui funziona data.gov, è ancora troppo presto per dire cosa, specificamente, sia stato cancellato, anche se archivisti e accademici come Cushman stanno lavorando per affrontare la situazione. Si può ragionevolmente dedurre che ricerche e dati sul clima e l'ambiente, così come ricerche sui gruppi marginalizzati e minoranze, siano tra i dataset cancellati. Questo è in parte perché l'amministrazione Trump ha eliminato grandi quantità di dati climatici durante il suo primo mandato e perché Trump ha emesso un ordine esecutivo chiedendo a tutte le agenzie federali di eliminare qualsiasi cosa riguardante la diversità, l'equità e l'inclusione.
Data.gov funge da aggregatore di dataset e ricerca attraverso l'intero governo, il che significa che non è un singolo database. Secondo Mark Phillips, ricercatore dell'Università del Texas del Nord che lavora sull'End of Term Web Archive, un progetto che archivia quanto più possibile dai siti web governativi prima che una nuova amministrazione prenda il controllo, questo lo rende leggermente più difficile da archiviare rispetto a qualsiasi database individuale.
“Parte di questo rientra nel ‘Non sappiamo quello che non sappiamo,’” ha detto Phillips a 404 Media. “È molto difficile sapere esattamente cosa, dove, quanto spesso cambia, e cosa è nuovo, scomparso o sta per spostarsi. Salvare contenuti da un aggregatore come data.gov è un po' più sfidante per il lavoro End of Term perché spesso i dati sono solo identificati e registrati come record di metadati con data.gov, ma i dati reali potrebbero trovarsi su un altro sito web, un dominio .gov statale, un sito universitario, un provider cloud come Amazon o Microsoft o qualsiasi altra posizione. Ciò rende il crawling ancora più difficoltoso.”
Phillips ha detto che, per questa fase di archiviazione (che il team fa ogni volta che cambia amministrazione), il progetto ha iniziato a scansionare i siti web governativi a partire dal gennaio 2024 e che hanno fatto "scansioni su larga scala con l'aiuto dei nostri partner presso l'Internet Archive, Common Crawl e l'Università del Texas del Nord. Abbiamo lavorato per raccogliere centinaia di terabyte di contenuti web, che includono dataset da domini come data.gov."
L'Environmental Data & Governance Institute (EDGI) ha pubblicato un rapporto nel 2019 che dettagliava "Come l'amministrazione Trump abbia compromesso le infrastrutture web federali per le informazioni climatiche," che includeva non solo l'eliminazione di dataset, ma anche, in alcuni casi, non eliminare i dataset ma cancellare i collegamenti ad essi, modificare le descrizioni o renderli molto più difficili da trovare. Per esempio, durante il primo mandato di Trump, le informazioni sul cambiamento climatico del Dipartimento dei Trasporti sono state eliminate, repubblicate in forma diversa altrove, quindi eliminate nuovamente da quel nuovo luogo, come riportato nel rapporto.
James Jacobs, ricercatore della Stanford Libraries che collabora anche con un gruppo chiamato Free Government Information, ha detto a 404 Media in un'email che data.gov "è sempre stato tipo un cassetto degli attrezzi per i dati governativi (lo chiamo così affettuosamente 😉). Quindi, era un grande sforzo per far sì che l'imponente apparato federale iniziasse a pensare alla raccolta e alla conservazione dei dati. Ma non ci sono regolamenti specifici che dicono alle agenzie che *devono* usare data.gov. Alcune agenzie lo usano pesantemente, altre ne caricano pochi fogli Excel e lasciano perdere."
“Suppongo che alcuni di questi dataset su data.gov abbiano URL errati verso pagine di agenzie obsolete che non esistono più (è davvero problematico quando un'agenzia decide di ridisegnare il proprio sito e il dominio base cambia e tutti i collegamenti a importanti informazioni e dati vengono rotti),” ha aggiunto Jacobs. “Alcuni di essi sono probabilmente link rotti e deriva del contenuto, e alcuni di essi sono senza dubbio politiche dell'amministrazione Trump (per esempio, tutto ciò che riguarda la diversità, l'equità e l'inclusione).”
Cushman di Harvard ha detto che, poiché siamo online, ci sono sempre cose che vengono aggiunte, si rompono, cambiano o scompaiono, e parte di ciò accade intenzionalmente e parte accidentalmente. Quindi determinare cosa viene cancellato, quando ci sono così tanti punti dati, non è sempre banale. “Se vuoi capire perché una determinata cosa è sparita, diventa una questione di ricerca individuale,” ha detto Cushman, che sta lavorando a compilare queste informazioni e le pubblicherà presto.
Tutto ciò per dire che anche nelle circostanze migliori, i dataset e la ricerca governativa possono andare persi o essere cancellati, e archiviarli non è sempre facile. Quando un'amministrazione decide esplicitamente di cancellare ricerche, questo già fragile ecosistema viene ulteriormente stressato. Tutti questi dataset improvvisamente scomparsi devono essere considerati nel contesto che sappiamo che l'amministrazione Trump ha ordinato alle agenzie di cancellare e modificare pagine web specifiche, e i propri reportages di 404 Media hanno dimostrato cancellazioni mirate di pagine relative alla diversità, equità e inclusione, così come al cambiamento climatico.
In un post di questa settimana su Free Government Information, Jacobs ha spiegato che “la crisi delle informazioni governative è più grave di quanto pensiate.”
"C'è una differenza tra il governo che cambia una politica e il governo che cancella informazioni, ma la linea tra queste due è diventata confusa nell'era digitale," ha scritto Jacobs. Ha spiegato che prima dell'Internet, i documenti governativi venivano stampati e archiviati distribuendoli tra molte biblioteche come parte del 'Federal Depository Library Program'. L'Internet ha reso molte informazioni governative più accessibili, ma le ha anche rese molto più fragili.
“Nell'era della stampa, le biblioteche facevano un buon (ma non perfetto) lavoro di conservazione grazie all'inerzia (cioè raccogliere e catalogare un documento, metterlo sugli scaffali e lasciarlo lì fino a quando un lettore lo richiedeva),” ha detto Jacobs a 404 Media in un'email. “Nell'era digitale, quel sistema di distribuzione/conservazione/accesso si è deteriorato perché le pubblicazioni digitali non vengono più 'distribuite' alle biblioteche, e le entità governative a) pubblicano molto di più su Internet; ma b) non hanno chiare regolamentazioni o politiche riguardo alla conservazione.”
È assolutamente vero che l'amministrazione Trump sta cancellando dati e ricerche governative e li sta rendendo più difficili da accedere. Ma determinare cosa è scomparso, dove è andato, se è stato preservato altrove e perché sia stato rimosso è un processo che richiede tempo e ci vorrà un po'.
“Una cosa che mi è chiara sui dataset che vengono rimossi da data.gov è che quando dipendiamo da un'unica fonte per raccogliere, ospitare e rendere disponibili questi dataset, avremo sempre problemi con la scomparsa dei dati,” ha detto Phillips. “Storicamente, il governo federale distribuiva le informazioni alle biblioteche in tutto il paese per garantire un maggiore accesso e anche una protezione contro la perdita. Questo non avviene nello stesso modo per questi dati governativi.”
LEGGI L'ARTICOLO COMPLETO
👇👇👇👇👇👇
404media.co/archivists-work-to…
Archivists Work to Identify and Save the Thousands of Datasets Disappearing From Data.gov
More than 2,000 datasets have disappeared from data.gov since Trump was inaugurated. But analyzing exactly what happened and where it went is going to take some time.Jason Koebler (404 Media)
reshared this