DeepSeek-R1, il modello di punta per il ragionamento sviluppato dal laboratorio cinese DeepSeek, presenta un tasso di allucinazione del 14,3% secondo il benchmark HHEM 2.1 di Vectara. Si tratta di un valore quasi quattro volte superiore rispetto al suo predecessore non specializzato nel ragionamento, DeepSeek-V3, che si ferma al 3,9%.
Questo divario solleva interrogativi significativi per il settore crypto. Una classe in rapida crescita di token per agenti AI ora si affida a LLM impostati sul ragionamento per il trading autonomo, i segnali e l’esecuzione on-chain.
I dati di Vectara mostrano che R1 “aiuta troppo” con fatti errati
Vectara ha sottoposto entrambi i modelli DeepSeek al test HHEM 2.1, il suo framework specifico per la valutazione delle allucinazioni. Il team ha anche verificato i risultati utilizzando la metodologia FACTS di Google. In tutte le configurazioni di test, R1 ha prodotto più affermazioni false o prive di supporto rispetto a V3.
La causa non è da attribuire solo alla maggiore profondità del ragionamento. Le analisi di Vectara hanno riscontrato che R1 tende ad “aiutare troppo”: il modello aggiunge informazioni che non compaiono nel testo di origine.
Questi dettagli aggiuntivi possono essere anche corretti di per sé, ma vengono comunque considerati allucinazioni. Questo comportamento introduce contesto inventato in risposte altrimenti corrette.
Vectara ha spiegato in dettaglio questa scoperta in un post pubblico su X.
“DeepSeek-R1 mostra un tasso di allucinazione del 14,3%, quasi quattro volte superiore rispetto a DeepSeek-V3”, ha notato Vectara in un post.
Questo schema non riguarda solo DeepSeek. Gli osservatori del settore segnalano lo stesso compromesso tra accuratezza e ragionamento nei modelli di altri laboratori. L’apprendimento per rinforzo che migliora la chain-of-thought spesso premia anche la generazione di risposte più audaci e sicure di sé.
Perché i crypto AI token sono bloccati su questo compromesso
Il mercato crypto oggi ospita centinaia di token per agenti AI, guidati da Virtuals Protocol (VIRTUAL), ai16z (AI16Z) e aixbt (AIXBT).
Questa categoria ha registrato circa il 39,4% di crescita negli ultimi 30 giorni. Virtuals da sola ha superato i 576 milioni di dollari di capitalizzazione di mercato.
La maggior parte di questi agenti racchiude un large language model all’interno di tool appositi. Questi strumenti permettono all’agente di pubblicare sui social, instradare trade, mintare token o generare commenti di mercato.
Quando il modello sottostante inventa un livello di prezzo, una partnership o un indirizzo di contratto, le conseguenze finiscono on-chain.
Un’analisi di BeInCrypto su AIXBT ha mostrato che l’agente aveva pubblicizzato 416 token con un rendimento medio del 19%. Tuttavia, lo stesso meccanismo espone anche i follower a segnalazioni errate quando il modello sbaglia.
Il livello di rischio aumenta con l’autonomia. Gli agenti in sola lettura che riassumono il sentiment sono molto diversi dagli agenti che detengono le chiavi di un treasury.
I modelli di ragionamento sono particolarmente interessanti per agenti che pianificano su più fasi. È proprio questo l’ambito in cui il dato del 14,3% di Vectara crea i maggiori problemi.
Un solo dato allucinato all’inizio di una catena di ragionamento può propagarsi in tutte le azioni successive.
Per LeCun il problema è strutturale
Yann LeCun, chief AI scientist di Meta, da tempo sostiene che gli LLM autoregressivi non possano mai eliminare del tutto le allucinazioni. Secondo la sua visione, l’architettura stessa è priva di un modello ancorato della realtà.
Il reinforcement learning focalizzato sulla chain-of-thought può coprire il difetto in ambiti limitati come matematica e coding. Tuttavia, la causa principale rimane.
Altri laboratori d’avanguardia non sono d’accordo. Indicano costanti miglioramenti nei tassi di allucinazione nei benchmark grazie a retrieval augmentation, fine-tuning dopo l’addestramento e modelli di verifica. Tuttavia, le testimonianze degli sviluppatori spesso coincidono con i dati delle leaderboard.
Il ricercatore AI xlr8harder, scrivendo su X a proposito di una sessione di debug con R1, ha riassunto così l’esperienza quotidiana.
“DeepSeek R1 ha una comprensione delle sue tracce di pensiero interessante ma non integrata. … quindi di default mi fa gaslighting con le allucinazioni”, ha spiegato.
Per gli sviluppatori di agenti crypto, la questione pratica è la gestione del rischio, non la filosofia dell’architettura. I progetti che fanno passare ogni affermazione del modello da uno step di verifica potrebbero avere più successo.
Lo stesso vale per gli agenti che affidano le azioni finanziarie a modelli più piccoli e conservativi.
I prossimi cicli delle leaderboard e le future evoluzioni di R1 mostreranno se il compromesso tra ragionamento e accuratezza si sta riducendo.
Per ora, il divario tra il 14,3% e il 3,9% è un dettaglio operativo da monitorare: potrebbe separare i token per agenti AI che consegnano prodotti funzionanti da quelli che si limitano alle promesse.