Crunching The News For Fun And Little Profit
Do you ever look at the news, and wonder about the process behind the news cycle? I did, and for the last couple of decades it’s been the subject of one of my projects. The Raspberry Pi on my shelf runs my word trend analysis tool for news content, and since my journey from curious geek to having my own large corpus analysis system has taken twenty years it’s worth a second look.
How Career Turmoil Led To A Two Decade Project
This is very much a minority spelling. Colin Smith, CC BY-SA 2.0.
In the middle of the 2000s I had come out of the dotcom crash mostly intact, and was working for a small web shop. When they went bust I was casting around as one does, and spent a while as a Google quality rater while I looked for a new permie job. These teams are employed by the search giant through temporary employment agencies, and in loose terms their job is to be the trained monkeys against whom the algorithm is tested. The algorithm chose X, and if the humans also chose X, the algorithm is probably getting it right. Being a quality rater is not in any way a high-profile job, but with the big shiny G on my CV I soon found myself in demand from web companies seeking some white-hat search engine marketing expertise. What I learned mirrored my lesson from a decade earlier in the CD-ROM business, that on the web as in any other electronic publishing medium, good content well presented has priority over any black-hat tricks.
But what makes good content? Forget an obsession with stuffing bogus keywords in the text, and instead talk about the right things, and do it authoritatively. What are the right things in this context? If you are covering a subject, you need to do so using the right language; that which the majority uses rather than language only you use. I can think of a bunch of examples which I probably shouldn’t talk about, but an example close to home for me comes in cider. In the UK, cider is a fermented alcoholic drink made from apples, and as a craft cidermaker of many years standing I have a good grasp of its vocabulary. The accepted spelling is “Cider”, but there’s an alternate spelling of “Cyder” used by some commercial producers of the drink. It doesn’t take long to realise that online, hardly anyone uses cyder with a Y, and thus pages concentrating on that word will do less well than those talking about cider.We Brits rarely use the word “soccer” unless there’s a story about the Club World Cup in America.
I started to build software to analyse language around a given topic, with the aim of discerning the metaphorical cider from the cyder. It was a great surprise a few years later to discover that I had invented for myself the already-existing field of computational linguistics, something that would have saved me a lot of time had I known about it when I began. I was taking a corpus of text and computing the frequencies and collocates (words that appear alongside each other) of the words within it, and from that I could quickly see which wording mattered around a subject, and which didn’t. This led seamlessly to an interest in what the same process would look like for news data with a time axis added, so I created a version which harvested its corpus from RSS feeds. Thus began my decades-long project.
From Project Idea, To Corpus Appliance
In 2005 I knew how to create websites in the manner of the day, so I used the tools I had. PHP5, and MySQL. I know PHP is unfashionable these days, but at the time this wasn’t too controversial, and aside from all the questionable quality PHP code out there it remains a useful scripting language. Using MySQL however would cause me immense problems. I had done what seemed the right thing and created a structured database with linked tables, but I hadn’t fully appreciated just how huge was the task I had taken on. Harvesting the RSS firehose across multiple media outlets brings in thousands of stories every week, so queries which were near-instantaneous during my first development stages grew to take many minutes as my corpus expanded. It was time to come up with an alternative, and I found it in the most basic of OS features, the filesystem.I have no idea why British news has more dog stories than cat stories.
Casting back to the 1990s, when you paid for web hosting it was given in terms of the storage space it came with. The processing power required to run your CGI scripts or later server-side interpreters such as ASP or PHP, wasn’t considered. It thus became normal practice to try to reduce storage use and not think about processing, and I had without thinking followed this path.
But by the 2000s the price of storage had dropped hugely while that of processing hadn’t. This was the decade in which cloud services such as AWS made an appearance, and as well as buying many-gigabyte hard disks for not a lot, you could also for the first time rent a cloud bucket for pennies. My corpus analysis system didn’t need to spend all its time computing if I could use a terabyte hard drive to make up for less processor usage, so I turned my system on its head. When collecting the RSS stories my retrieval script would pre-compute the final data and store it in a vast tree of tiny JSON files accessible at high speed through the filesystem, and then my analysis software could simply retrieve them and make its report. The system moved from a hard-working x86 laptop to a whisper-quiet and low powered Raspberry Pi with a USB hard disk, and there it has stayed in some form ever since.
Just What Can This Thing Do?
No prizes for guessing what happened this week.
So I have a news corpus that has taken me a long time to build. I can take one or more words, and I can compare their occurrence over time. I can watch the news cycle, I can see stories build up over time. I can even see trends which sometimes go against received opinion, such as spotting that the eventual winner of the 2016 UK Labour leadership race was likely to be Jeremy Corbyn early on while the herd were looking elsewhere. Sometimes as with the performance of the word “Brexit” over the middle of the last decade I can see the great events of our times in stark relief, but perhaps it’s in the non-obvious that there’s most value. If you follow a topic and it suddenly dries up for a couple of days, expect a really big story on day three, for example. I can also see which outlets cover one story more than another, something helpful when trying to ascertain if a topic is being pushed on behalf of a particular lobby.
My experiment in text analysis then turned into something much more, even dare I say it, something I find of help in figuring out what’s really going on in turbulent times. But from a tech point of view it’s taught me a huge amount, about statistics, about language, about text parsing, and even about watching the number of available inodes on a hard drive. Believe me, many millions of tiny files in a tree can become unwieldy. But perhaps most of all, after a lifetime of mucking about with all manner of projects but generating little of lasting significance, I can look at this one and say I created something useful. And that is something to be happy about.
Bug della mente: perché la disinformazione è la vulnerabilità più pericolosa
@Informatica (Italy e non Italy 😁)
La human vulnerability è una nuova frontiera della cyber. Ecco perché la disinformazione rappresenta una minaccia diversa, silenziosa e subdola, che non agisce direttamente sul codice o sui dispositivi, ma riesce a minare la sicurezza in modo altrettanto dirompente,
Informatica (Italy e non Italy 😁) reshared this.
Il bonus per andare in vacanza
@Politica interna, europea e internazionale
L’Italia è forse l’unico Paese al mondo disposto a indebitarsi per mandare i propri cittadini in vacanza. Un gesto certamente generoso, ma che suona stonato in un Paese in cui mancano fondi per questioni più importanti.Milioni di italiani considerano irrinunciabile soggiornare tra mari e monti, anche quando le condizioni economiche personali
Politica interna, europea e internazionale reshared this.
The rise of Anubis; ICE's new facial recognition app; and a bunch of articles about LLMs.
The rise of Anubis; ICEx27;s new facial recognition app; and a bunch of articles about LLMs.#Podcast
Podcast: How to Fight Back Against AI Bot Scrapers
The rise of Anubis; ICE's new facial recognition app; and a bunch of articles about LLMs.Joseph Cox (404 Media)
Alla conferenza interverrà il Ministro Giuseppe Valditara.
Ministero dell'Istruzione
Oggi, dalle ore 15.30, presso l'Aula dei Gruppi parlamentari della Camera dei Deputati, si svolgerà la Presentazione del Rapporto nazionale "Le prove #Invalsi 2025". Alla conferenza interverrà il Ministro Giuseppe Valditara.Telegram
L’intelligenza artificiale usata per impersonare il Segretario di Stato Americano Marco Rubio
Secondo due alti funzionari e un cablogramma inviato la scorsa settimana a tutte le ambasciate e i consolati, il Dipartimento di Stato degli Stati Uniti D’America sta mettendo in guardia i diplomatici statunitensi dai tentativi di impersonare il Segretario di Stato Marco Rubio e forse altri funzionari utilizzando tecnologie basate sull’intelligenza artificiale.
Non è la prima volta che Rubio viene impersonato in un deepfake. Questa primavera, è stato creato dai malintenzionati un video falso in cui affermava di voler interrompere l’accesso dell’Ucraina al servizio internet Starlink di Elon Musk. Il governo ucraino ha successivamente smentito la falsa affermazione.
L’avvertimento è arrivato dopo che il dipartimento ha scoperto che un impostore che si spacciava per Rubio aveva tentato di contattare almeno tre ministri degli esteri, un senatore degli Stati Uniti e un governatore, secondo il cablogramma del 3 luglio, riportato per primo dal Washington Post.
I destinatari dei messaggi truffa, inviati tramite SMS, Signal e posta vocale, non sono stati identificati nel cablogramma, una copia del quale è stata condivisa con l’Associated Press. “Il Dipartimento di Stato è a conoscenza di questo incidente e sta attualmente monitorando e affrontando la questione”, ha dichiarato ai giornalisti la portavoce del dipartimento, Tammy Bruce. “Il dipartimento prende sul serio la propria responsabilità di salvaguardare le proprie informazioni e adotta costantemente misure per migliorare la propria strategia di sicurezza informatica e prevenire futuri incidenti”.
Si tratta dell’ultimo caso in cui un personaggio di alto livello dell’amministrazione Trump è stato preso di mira da un sosia, dopo un episodio simile rivelato a maggio che ha coinvolto il capo dello staff del presidente Donald Trump, Susie Wiles. L’uso improprio dell’intelligenza artificiale per ingannare le persone è destinato a crescere con il miglioramento e la diffusione della tecnologia, e l’FBI ha lanciato l’allarme la scorsa primavera riguardo a “attori malintenzionati” che si spacciavano per alti funzionari del governo statunitense in una campagna di messaggi di testo e vocali.
Le bufale che coinvolgono Rubio si sono rivelate infruttuose e “poco sofisticate”, ha affermato uno dei funzionari. Ciononostante, il secondo funzionario ha affermato che il dipartimento ha ritenuto “prudente” avvisare tutti i dipendenti e i governi stranieri, soprattutto in considerazione dell’aumento dei tentativi da parte di attori stranieri di compromettere la sicurezza informatica.
I funzionari non erano autorizzati a discutere pubblicamente la questione e hanno parlato a condizione di mantenere l’anonimato. “Questa campagna non rappresenta una minaccia informatica diretta per il dipartimento, ma le informazioni condivise con terze parti potrebbero essere divulgate se gli individui presi di mira venissero compromessi”, si legge nel cablogramma.
L’FBI ha lanciato l’allarme in un annuncio di pubblica utilità riguardo a una campagna “dannosa” basata su messaggi di testo e messaggi vocali generati dall’intelligenza artificiale che sembrano provenire da un alto funzionario degli Stati Uniti e che mirano a ingannare altri funzionari governativi, nonché i soci e i contatti della vittima.
L'articolo L’intelligenza artificiale usata per impersonare il Segretario di Stato Americano Marco Rubio proviene da il blog della sicurezza informatica.
Vulnerabilità critica nel boot Linux: quando il male entra dalla porta principale
@Informatica (Italy e non Italy 😁)
È stata scoperta una vulnerabilità critica nel componente Shim, uno dei pilastri su cui poggia il meccanismo di avvio sicuro (Secure Boot) di moltissime distribuzioni Linux: se sfruttata, permette di aggirare completamente le difese del sistema
Informatica (Italy e non Italy 😁) reshared this.
Pier Silvio Berlusconi: “Il governo Meloni il migliore d’Europa. La politica? Non la escludo”
@Politica interna, europea e internazionale
“Non penso alla politica. Guardando al futuro, non lo escludo: una sfida completamente nuova, perché no? Ma oggi non ha nessuna concretezza”. Così Pier Silvio Berlusconi ha risposto a chi, durante la presentazione dei palinsesti Mediaset, gli chiedeva di
Politica interna, europea e internazionale reshared this.
Giornalisti e attivisti attaccati per aver denunciato i legami tra Tekapp e Israele
@Notizie dall'Italia e dal mondo
Dopo le critiche all’azienda Tekapp per i suoi legami con l’unità militare israeliana 8200, giornalisti e attivisti modenesi sono finiti nel mirino di una violenta campagna diffamatoria lanciata da canali social pro-Israele.
L'articolo
Notizie dall'Italia e dal mondo reshared this.
PIC Burnout: Dumping Protected OTP Memory in Microchip PIC MCUs
Normally you can’t read out the One Time Programming (OTP) memory in Microchip’s PIC MCUs that have code protection enabled, but an exploit has been found that gets around the copy protection in a range of PIC12, PIC14 and PIC16 MCUs.
This exploit is called PIC Burnout, and was developed by [Prehistoricman], with the cautious note that although this process is non-invasive, it does damage the memory contents. This means that you likely will only get one shot at dumping the OTP data before the memory is ‘burned out’.
The copy protection normally returns scrambled OTP data, with an example of PIC Burnout provided for the PIC16LC63A. After entering programming mode by setting the ICSP CLK pin high, excessively high programming voltage and duration is used repeatedly while checking that an area that normally reads as zero now reads back proper data. After this the OTP should be read out repeatedly to ensure that the scrambling has been circumvented.
The trick appears to be that while there’s over-voltage and similar protections on much of the Flash, this approach can still be used to affect the entire flash bit column. Suffice it to say that this method isn’t very kind to the fzslash memory cells and can take hours to get a good dump. Even after this you need to know the exact scrambling method used, which is fortunately often documented by Microchip datasheets.
Thanks to [DjBiohazard] for the tip.
Più Patriot per Washington. Cosa dice la Proposta di bilancio per il 2026
@Notizie dall'Italia e dal mondo
L’Us Army è mira a quadriplicare le scorte di Patriot nei suoi arsenali. In base alle informazioni presente nella proposta di budget 2026 l’obiettivo è quadruplicare le acquisizioni di segmenti Pac-3 Mse, passando da 3.376 a 13.773 unità. Una mossa che fotografa l’urgenza, sempre più pressante, di rafforzare le scorte di
Notizie dall'Italia e dal mondo reshared this.
#tic spedisce in tutta italia e in tutto il mondo. a roma, è in piazza san cosimato 39, a trastevere.
differx.tumblr.com/post/788497…
#scritturadiricerca #scritturediricerca #chapbooks #cambiodiparadigma #prosa #prosainprosa #ticedizioni #edizionitic
Poliversity - Università ricerca e giornalismo reshared this.
piccole #statue testuali
differx.tumblr.com/post/788506…
#statuelinee #piedimosca #prosa #prosabreve #prosainprosa #scritturadiricerca #scritturediricerca
Poliversity - Università ricerca e giornalismo reshared this.
Il primo rilascio dello staff esteso di mastodon porta ad alcuni interessanti miglioramenti dell'interfaccia e delle funzionalità
Abbiamo rinnovato l'interfaccia web mobile per imitare le app native, con azioni importanti facilmente accessibili in una barra degli strumenti inferiore che libera più spazio per la tua cronologia. Abbiamo anche iniziato a sperimentare modi per rendere la navigazione più coerente su tutti i dispositivi e per rendere i contenuti pertinenti (come gli hashtag seguiti e i contenuti di tendenza) più facilmente individuabili.
Che succede nel Fediverso? reshared this.
Bolivia al bivio: tra frammentazione della sinistra e ritorno della destra
@Notizie dall'Italia e dal mondo
A vent’anni dall’ascesa del MAS e della rivoluzione indigena, il Paese affronta elezioni decisive in un clima di divisioni interne, crisi dei movimenti sociali e avanzata delle destre.
L'articolo Bolivia al bivio: tra frammentazione della sinistra e
Notizie dall'Italia e dal mondo reshared this.
Caso Almasri, il ministro Nordio fu informato subito dell’arresto: “Usiamo Signal per comunicare”
@Politica interna, europea e internazionale
Il Ministero della Giustizia guidato da Carlo Nordio fu informato del fermo del generale libico Najeem Osama Almasri già nel primo pomeriggio di domenica 19 gennaio, poche ore dopo che erano scattate le manette. Il Dipartimento degli Affari di
Politica interna, europea e internazionale reshared this.
freezonemagazine.com/articoli/…
POETICA Abbiamo concluso la prima parte del nostro percorso sul grande poeta romeno Paul Celan, evidenziando come la scomparsa dei genitori ed in particolare di sua madre, abbia segnato un trauma che lo accompagnerà per il resto della sua vita, trasformandosi nel motivo dominante della sua produzione poetica. Tale scelta, per Celan, non è solo […]
L'articolo Paul Celan proviene da FREE ZONE MAGAZI
POETICA Abbiamo concluso la
Regalo riviste di cinema vintage - Questo è un post automatico da FediMercatino.it
Prezzo: 0 euro
Regalo riviste di cinema vintage.
Servizi dedicati a Gwyneth Paltrow Meg Ryan Sabrina Ferilli Meryl Streep
videodavederecondividere.alter…
Nel mio blog potete consultare la lista degli articoli in regalo.
Attenzione! Non effettuo consegne a mano.
Pagamento dei costi di spedizione tramite donazione con Paypal.
#UnoRegalo @palermo #riviste #cinema #regalo #rivistevintage #sabrinaferilli #gwynethpaltrow #megryan #sabrinaferilli #merylstreep #fedimercatino
reshared this
freezonemagazine.com/news/lutz…
In libreria dall’ 11 luglio 2025 Il giorno dopo la caduta del Muro di Berlino, Carl, studente a Dresda, viene richiamato nel suo paese natale dai genitori, che stanno per lasciare la Germania Est. Anche per il ragazzo è faticoso rimanere in uno stato che non c’è più. E così, muratore di formazione ma […]
L'articolo Lutz Seiler – Stella 111 proviene da FREE ZONE MAGAZINE.
In libreria dall’ 11 luglio 2025
E' successo ancora, un'altra bici rubata
E' successo ancora: un mio collega ha lasciato la bici alla stazione, regolarmente bloccata con un lucchetto, e stamattina non l'ha più trovata.
Capisco che il Paese abbia altri e più importanti problemi di cui occuparsi, ma sarebbe davvero uno sforzo proibitivo quello di dotare tutte le stazioni ferroviarie o degli autobus di una rastrelliera e di un paio di telecamere puntate sopra?
Per quanto ancora il furto della propria bici dovrà essere vissuto come la norma, come una tassa da pagare per lo "sfizio" di volersi muovere con il mezzo meno inquinante di tutti?
Io veramente non capisco...
Poliversity - Università ricerca e giornalismo reshared this.
STATI UNITI. Il laboratorio di sfruttamento di Amazon Prime non ha niente da festeggiare
@Notizie dall'Italia e dal mondo
Mentre il presidente Jeff Bezos si gode la luna di miele, i lavoratori di Amazon rischiano infortuni e ricoveri ospedalieri record durante i quattro giorni di saldi estivi
L'articolo STATI UNITI. Il laboratorio di sfruttamento di
Notizie dall'Italia e dal mondo reshared this.
Spazio e industria, il direttore generale dell’Esa visita la nuova Space smart factory di Roma
@Notizie dall'Italia e dal mondo
Il direttore generale dell’Agenzia spaziale europea, Josef Aschbacher, ha visitato in anteprima la nuova Space smart factory di Thales Alenia Space a Roma. L’impianto, in via di completamento, sarà inaugurato dopo l’estate e
Notizie dall'Italia e dal mondo reshared this.
Regalo riviste di moda vintage - Questo è un post automatico da FediMercatino.it
Prezzo: 0 Euro
Regalo riviste vintage.
Nel mio blog potete consultare la lista degli articoli in regalo.
Attenzione! Non effettuo consegne a mano.
Pagamento dei costi di spedizione tramite donazione con Paypal.
Leggi la descrizione ed i termini e condizioni del blog aggiornati secondo le direttive Europee.
Il BLOG NON ha finalità di lucro e non può averli in quanto frutto di un'iniziativa personale.
Il Mercatino del Fediverso 💵♻️ reshared this.
#Gaza, sterminio e resistenza
Gaza, sterminio e resistenza
La resistenza palestinese a Gaza continua a portare a termine operazioni complesse e altamente efficaci contro le forze sioniste di occupazione nonostante una situazione a dir poco catastrofica e l’avanzamento a passo spedito dei piani di pulizia etn…www.altrenotizie.org
Sesta generazione, ecco perché lo Scaf rischia di fare la fine dell’Eurofighter
@Notizie dall'Italia e dal mondo
Certi programmi non ingranano, fanno dei giri immensi e poi si arenano lo stesso. Questo appare il destino dello Scaf (Système de combat aérien du futur), il programma franco-tedesco-spagnolo per sviluppare un sistema di combattimento aereo di sesta generazione. Dassault Aviation (prime
Notizie dall'Italia e dal mondo reshared this.
simona
Unknown parent • — (Livorno) •simona
in reply to simona • — (Livorno) •