Capacità generative: xTrimoPGLM crea nuove sequenze proteiche
I ricercatori hanno svelato un nuovo modulo di linguaggio AI chiamato xTrimoPGLM in grado sia di comprendere che di creare sequenze proteiche utilizzando un unico approccio di apprendimento. Questa soluzione offre un modo fondamentalmente nuovo di lavorare con i dati biologici, a livello di sequenze di amminoacidi, come se si trattasse di testo in linguaggio naturale.
I modelli precedentemente esistenti che studiavano le proteine si basavano su diversi metodi di pre-addestramento: alcuni ripristinavano le regioni mancanti (autocodifica), altri prevedevano l’amminoacido successivo (autoregressivo).
Tuttavia, ognuno di loro era bravo solo in un compito: comprendere la struttura di una proteina o generarne di nuove. xTrimoPGLM combina entrambe le strategie ed è il primo a imparare da un obiettivo comune, abbracciando entrambi gli approcci contemporaneamente. Ciò ha consentito al modello di raggiungere dimensioni senza precedenti: 100 miliardi di parametri e un trilione di token di addestramento.
I risultati sono impressionanti: xTrimoPGLM ha ottenuto i risultati migliori in 18 diverse attività di analisi proteica, tra cui classificazione, proprietà e previsione delle interazioni. Inoltre, il modello consente di comprendere la struttura delle proteine a livello atomico e viene utilizzato come base per un nuovo modello 3D che prevede la struttura delle proteine con una precisione superiore a strumenti simili basati su modelli linguistici.
Ma non solo analisi: il modello può anche creare. È in grado di generare nuove proteine seguendo i principi delle sequenze naturali. Dopo un ulteriore addestramento su set di dati specializzati, è addirittura possibile eseguire una generazione mirata con proprietà specifiche, il che apre la strada allo sviluppo di nuovi farmaci ed enzimi.
I pesi del modello e i set di dati sono già pubblicati sulla piattaforma HuggingFace e sono a disposizione dei ricercatori, rendendo xTrimoPGLM un contributo significativo allo sviluppo di modelli di base proteici e ampliando gli orizzonti dell’intelligenza artificiale nelle scienze della vita.
L'articolo Capacità generative: xTrimoPGLM crea nuove sequenze proteiche proviene da il blog della sicurezza informatica.
NixFREAK - reshared this.