Benchmark Google: limiti di Gemini 3 e ChatGPT 5

Uno studio recente condotto da Google e presentato attraverso il FACTS Benchmark Suite ha evidenziato importanti limiti nei principali modelli di linguaggio (LLM) attualmente in uso. I risultati, pubblicati di recente, sollevano interrogativi sull’affidabilità di questi sistemi, in particolare quando si tratta di interpretare dati visivi o documentali complessi.

I risultati del benchmark

Il benchmark ha valutato quattro dimensioni chiave: conoscenza parametrica, capacità di ricerca online, rispetto del grounding e competenza multimodale.
I risultati mostrano che nessuno dei modelli supera il 70% di accuratezza nelle risposte fornite. In particolare, Gemini 3 Pro si posiziona al primo posto con un punteggio del 68,8%, seguito da Gemini 2.5 Pro (62,1%) e ChatGPT-5 (61,8%). Questi dati sottolineano la necessità di un approccio cauto e critico nell’uso degli LLM, soprattutto in settori sensibili come la finanza, la medicina e il diritto.

Le criticità emerse

Uno degli aspetti più problematici riguarda il tono di comunicazione dei modelli. Spesso, i sistemi espongono le risposte con sicurezza anche quando commettono errori, rendendo difficile per l’utente distinguere tra informazioni affidabili e allucinazioni del modello. Questo problema è particolarmente rilevante per le pubbliche amministrazioni e le aziende che stanno implementando LLM nei propri processi.

Raccomandazioni per le istituzioni

Alla luce di questi risultati, è fondamentale adottare misure di controllo rigorose.
Gli autori dello studio suggeriscono l’adozione di meccanismi di verifica umana obbligatoria, insieme a sistemi di controllo e guardrail più robusti.

Inoltre, è consigliabile:

– Adottare verifiche incrociate sistematiche per garantire l’accuratezza delle informazioni.
– Limitare l’autonomia decisionale dell’AI nelle attività sensibili.
– Rafforzare i sistemi di tracciabilità e audit per monitorare l’uso degli LLM.
– Sviluppare metriche specifiche per la valutazione delle competenze multimodale.

Conclusione

Per le pubbliche amministrazioni e le aziende, è essenziale adottare un approccio prudente e basato su evidenze, garantendo che l’uso di queste tecnologie sia sempre accompagnato da adeguati controlli e verifiche umane.

Sintesi elaborata da ActaAI
https://www.actyai.it/
supervisionata per Actainfo
da Dott. Igino Addari

Europa e sua dipendenza tecnologica da Usa e Cina

Riportiamo una realistica valutazione sulla tanto dibattuta rincorsa UE, in ordine sparso, alla sovranità digitale, espressa dal rappresentante di uno stato membro della UE.Nelle prossime settimane, infatti, la Commissione europea presenterà un nuovo pacchetto legislativo sulla sovranità digitale.Secondo Juha Martelius, capo del Servizio di sicurezza e intelligence finlandese (Supo), l’autonomia tecnologica del continente resterà un […]

Nuovi domini internet 2026 con nomi di località, istituzioni e marchi

Dal 30 aprile al 12 agosto 2026 sarà possibile presentare le domande per la creazione di nuovi domini web, con la possibilità di opporsi agli usi impropri. Una novità per il sistema degli indirizzi internetICANN (Internet Corporation for Assigned Names and Numbers), organismo internazionale responsabile del coordinamento del sistema dei nomi a dominio (DNS – […]

ActyAI al servizio dei Comuni per pubblicare notizie

Anche il Comune di Roseto degli Abruzzi utilizza ActyAI Overview, un chatbot di intelligenza artificiale sviluppato da Actainfo, per la pubblicazione di articoli, comunicati e notizie sul proprio sito web. Questo strumento, integrato nel software in cloud ACTAGOV qualificato da ACN per la gestione dei siti web, è in grado di elaborare e sintetizzare informazioni […]

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Servizi Web PA

PEC

Servizi Web Privati

Formazione

AI - Privacy UE - Cybersecurity

Amministrazione Digitale

Servizi Web PA

PEC

Servizi Web Privati

Formazione

AI - Privacy UE - Cybersecurity

Amministrazione Digitale

Benchmark Google: limiti di Gemini 3 e ChatGPT 5

Servizio Secure Plus MDR Bitdefender Partner Actainfo

Actaprivacy software cloud saas qualificato da ACN per l'adempimento del GDPR

ACTAINFO PNRR

Europa e sua dipendenza tecnologica da Usa e Cina

Nuovi domini internet 2026 con nomi di località, istituzioni e marchi

ActyAI al servizio dei Comuni per pubblicare notizie

Contattaci