Benchmark Google: limiti di Gemini 3 e ChatGPT 5
Uno studio recente condotto da Google e presentato attraverso il FACTS Benchmark Suite ha evidenziato importanti limiti nei principali modelli di linguaggio (LLM) attualmente in uso. I risultati, pubblicati di recente, sollevano interrogativi sull’affidabilità di questi sistemi, in particolare quando si tratta di interpretare dati visivi o documentali complessi.
I risultati del benchmark
Il benchmark ha valutato quattro dimensioni chiave: conoscenza parametrica, capacità di ricerca online, rispetto del grounding e competenza multimodale.
I risultati mostrano che nessuno dei modelli supera il 70% di accuratezza nelle risposte fornite. In particolare, Gemini 3 Pro si posiziona al primo posto con un punteggio del 68,8%, seguito da Gemini 2.5 Pro (62,1%) e ChatGPT-5 (61,8%). Questi dati sottolineano la necessità di un approccio cauto e critico nell’uso degli LLM, soprattutto in settori sensibili come la finanza, la medicina e il diritto.
Le criticità emerse
Uno degli aspetti più problematici riguarda il tono di comunicazione dei modelli. Spesso, i sistemi espongono le risposte con sicurezza anche quando commettono errori, rendendo difficile per l’utente distinguere tra informazioni affidabili e allucinazioni del modello. Questo problema è particolarmente rilevante per le pubbliche amministrazioni e le aziende che stanno implementando LLM nei propri processi.
Raccomandazioni per le istituzioni
Alla luce di questi risultati, è fondamentale adottare misure di controllo rigorose.
Gli autori dello studio suggeriscono l’adozione di meccanismi di verifica umana obbligatoria, insieme a sistemi di controllo e guardrail più robusti.
Inoltre, è consigliabile:
– Adottare verifiche incrociate sistematiche per garantire l’accuratezza delle informazioni.
– Limitare l’autonomia decisionale dell’AI nelle attività sensibili.
– Rafforzare i sistemi di tracciabilità e audit per monitorare l’uso degli LLM.
– Sviluppare metriche specifiche per la valutazione delle competenze multimodale.
Conclusione
Per le pubbliche amministrazioni e le aziende, è essenziale adottare un approccio prudente e basato su evidenze, garantendo che l’uso di queste tecnologie sia sempre accompagnato da adeguati controlli e verifiche umane.
Sintesi elaborata da ActaAI
https://www.actyai.it/
supervisionata per Actainfo
da Dott. Igino Addari


