Salta al contenuto principale


Alibaba presenta mPLUG-Owl3. Il modello che può analizzare 400 immagini al secondo su una sola A100


Gli ingegneri dell’azienda cinese Alibaba hanno presentato un nuovo modello di apprendimento automatico multimodale chiamato mPLUG-Owl3. Questo modello è in grado di analizzare in modo efficiente testo, immagini e video. Gli sviluppatori prestano particol

Gli ingegneri dell’azienda cinese Alibaba hanno presentato un nuovo modello di apprendimento automatico multimodale chiamato mPLUG-Owl3. Questo modello è in grado di analizzare in modo efficiente testo, immagini e video.

Gli sviluppatori prestano particolare attenzione alla velocità della rete neurale, sostenendo che bastano solo quattro secondi per elaborare un video di due ore.

mPLUG-Owl3 si basa sul modello Qwen2, che è stato notevolmente migliorato e ottimizzato. Grazie a queste modifiche, il tempo di attesa per il primo token è stato ridotto di sei volte e una singola scheda grafica A100 ora può elaborare fino a 400 immagini al secondo.

Il modello utilizza anche uno speciale blocco HATB (Hyper Attention Transformer), che integra funzionalità visive e testuali, consentendo, ad esempio, di cercare immagini visive in base a query testuali.

Il codice del progetto è aperto e pubblicato su GitHub. Inoltre, gli sviluppatori hanno fornito tutto il materiale necessario per lavorare sulle piattaforme Hugging Face e sull’analogo cinese Model Scope.

Il testo completo dello studio descrive in dettaglio lo sviluppo e il funzionamento del modello mPLUG-Owl3.

L'articolo Alibaba presenta mPLUG-Owl3. Il modello che può analizzare 400 immagini al secondo su una sola A100 proviene da il blog della sicurezza informatica.