Uno studio recente condotto da Google e presentato attraverso il FACTS Benchmark Suite ha evidenziato importanti limiti nei principali modelli di linguaggio (LLM) attualmente in uso. I risultati, pubblicati di recente, sollevano interrogativi sull’affidabilità di questi sistemi, in particolare quando si tratta di interpretare dati visivi o documentali complessi.

I risultati del benchmark

Il benchmark ha valutato quattro dimensioni chiave: conoscenza parametrica, capacità di ricerca online, rispetto del grounding e competenza multimodale.
I risultati mostrano che nessuno dei modelli supera il 70% di accuratezza nelle risposte fornite. In particolare, Gemini 3 Pro si posiziona al primo posto con un punteggio del 68,8%, seguito da Gemini 2.5 Pro (62,1%) e ChatGPT-5 (61,8%). Questi dati sottolineano la necessità di un approccio cauto e critico nell’uso degli LLM, soprattutto in settori sensibili come la finanza, la medicina e il diritto.

Le criticità emerse

Uno degli aspetti più problematici riguarda il tono di comunicazione dei modelli. Spesso, i sistemi espongono le risposte con sicurezza anche quando commettono errori, rendendo difficile per l’utente distinguere tra informazioni affidabili e allucinazioni del modello. Questo problema è particolarmente rilevante per le pubbliche amministrazioni e le aziende che stanno implementando LLM nei propri processi.

Raccomandazioni per le istituzioni

Alla luce di questi risultati, è fondamentale adottare misure di controllo rigorose.
Gli autori dello studio suggeriscono l’adozione di meccanismi di verifica umana obbligatoria, insieme a sistemi di controllo e guardrail più robusti.

Inoltre, è consigliabile:

– Adottare verifiche incrociate sistematiche per garantire l’accuratezza delle informazioni.
– Limitare l’autonomia decisionale dell’AI nelle attività sensibili.
– Rafforzare i sistemi di tracciabilità e audit per monitorare l’uso degli LLM.
– Sviluppare metriche specifiche per la valutazione delle competenze multimodale.

Conclusione

Per le pubbliche amministrazioni e le aziende, è essenziale adottare un approccio prudente e basato su evidenze, garantendo che l’uso di queste tecnologie sia sempre accompagnato da adeguati controlli e verifiche umane.

Sintesi elaborata da ActaAI
https://www.actyai.it/
supervisionata per Actainfo
da Dott. Igino Addari

Servizio Secure Plus MDR Bitdefender Partner Actainfo

Il Managed Detection and Response – MDR – è un servizio di sicurezza informatica che combina esperti di sicurezza umani e tecnologie avanzate per monitorare, rilevare, analizzare e rispondere proattivamente alle minacce informatiche per un’organizzazione. MDR offre un servizio di sicurezza gestito 24/7.

 

 

Actaprivacy software cloud saas qualificato da AGID per l'adempimento del GDPR

AGID_Marketplace.png Per l’attuazione degli obblighi richiesti dal nuovo Regolamento UE Software cloud saas ActaPrivacy per la gestione degli adempimenti previsti per la protezione dei dati personali dal GDPR 2016/679.

 

 

ACTAINFO PNRR

AGID_Marketplace.png Misura 1.4.1: SPORTELLO DIGITALE e SITI WEB per Servizi digitali Pacchetto Cittadino Informato e Cittadino Attivo.
Misura 1.2: Migrazione servizi in CLOUD.
Misura 1.4.3: PagoPA, App IO.
Misura 1.4.4: SPID, CIE

 

 

Leggi anche

ANAC – Linee Guida Whistleblowing canali interni di segnalazione

ANAC – Autorità Nazionale Anticorruzione –  con delibera n. 478 del 26 novembre 2025, ha approvato le nuove Linee Guida in materia di whistleblowing sui canali interni di segnalazione.Questo documento rappresenta un passo fondamentale per garantire un’applicazione uniforme ed efficace della normativa sul whistleblowing, in linea con il decreto legislativo 10 marzo 2023, n. 24. […]

Voucher Cloud e CyberSecurity, dal 2026 per PMI e lavoratori autonomi

Bonus Cyber

Se la tua impresa ha bisogno di un piano per la cybersicurezza e servizi in cloud, programmalo in modo da poterlo finanziare al 50% fino a un massimo di 20.000,00 Euro, con il nuovo incentivo “Bonus cloud, digital e cybersecurity” per PMI e lavoratori autonomi, previsto dal decreto MIMIT del 18 luglio scorso. Con un decreto del 2 […]

Scadenze RTD dicembre 2025: cybersicurezza e Intelligenza Artificiale

Il PTI, Piano Triennale dell’Informatica, 2024-2026 elaborato da AGID e cui tutte le Pubbliche Amministrazioni devono attenersi, prevede che entro Dicembre 2025 siano attuati programmi per la acquisizione e gestione di strumenti di Intelligenza Artificiale e di Cybersicurezza. Sarà compito del Responsabile della Transizione Digitale – RTD – e del suo ufficio individuare nella propria […]