Google presenta Gemini 3.5 e Omni. Google punta sugli agenti IA capaci di agire in autonomia e sulla creazione video multimodale. Ecco i dettagli.
Al Google I/O 2026, l’azienda ha finalmente svelato Gemini 3.5, ma la vera notizia non è tanto la potenza, quanto la capacità di agire all’interno di attività complessa. In un mercato ormai saturo di chatbot che si limitano a rispondere, la nuova AI di Mountain View punta tutto sul concetto di agente, ovvero un’entità capace di pianificare ed eseguire task multi-step in autonomia. In base a quanto ho potuto constatare, lo scarto rispetto alla generazione precedente è evidente: il modello 3.5 Flash, pur essendo la versione più leggera della famiglia, riesce a superare il vecchio Gemini 3.1 Pro in test critici per la programmazione e il ragionamento logico, come dimostra il punteggio del 76,2% ottenuto nel Terminal-Bench 2.1. L’aggiornamento trasforma l’intelligenza artificiale da semplice assistente testuale a vero e proprio motore operativo che, integrato nel sistema Antigravity, permette di gestire sub-agenti collaborativi per risolvere problemi che prima richiedevano settimane di lavoro.
L’esperienza d’uso subisce una trasformazioni importante grazie all’introduzione di Gemini Spark e Gemini Omni, due facce della stessa medaglia che rendono l’interazione più naturale. Quello che mi ha colpito maggiormente di Omni è la sua natura nativamente multimodale: non si limita a interpretare diversi input, ma fonde video, audio e testo per generare contenuti che rispettano le leggi della fisica in modo sorprendente. La possibilità di editare un video attraverso una conversazione, mantenendo la coerenza dei personaggi e della scena, è il punto di arrivo che molti creator aspettavano. Tuttavia, mentre Gemini 3.5 Flash è già disponibile per miliardi di persone, la versione Pro resta per ora un’esclusiva interna di Google, con una distribuzione prevista solo per il prossimo mese. La distribuzione graduale lascia intendere che, oltre le presentazioni ufficiali, i modelli più pesanti necessitino ancora di un affinamento prudente, meno coerente con la velocità della linea Flash.
Sotto il profilo delle prestazioni, i dati forniti da Google descrivono un modello 3.5 Flash quattro volte più veloce rispetto ad altri sistemi di frontiera, il che riduce la latenza nelle risposte. Si tratta di una comprensione multimodale che tocca l’84,2% nel CharXiv Reasoning, un valore che permette all’IA di interpretare grafici e interfacce web con una precisione quasi umana. Jeff Dean, chief scientist di Google DeepMind, ha sottolineato che “Gemini 3.5 è costruito proprio per aiutare a eseguire flussi di lavoro agentici complessi”. La capacità trova riscontro pratico in collaborazioni con aziende come Shopify o Macquarie Bank, dove l’IA analizza documenti di oltre cento pagine per estrarre raccomandazioni in frazioni di secondo. Anche la gestione della sicurezza è stata affinata tramite il Frontier Safety Framework, che include strumenti di interpretabilità per verificare il ragionamento AI prima che questa fornisca una risposta, riducendo il rischio di contenuti dannosi.
Il rapporto qualità/prezzo di questa nuova iterazione appare vantaggioso, specialmente se consideriamo che Gemini 3.5 Flash viene offerto a un costo che è meno della metà rispetto ad altri modelli concorrenti di pari livello. L’integrazione gratuita in YouTube Shorts e l’accesso tramite le API di Google AI Studio rendono queste tecnologie accessibili sia per l’utente comune che per lo sviluppatore. Resta qualche dubbio sulla reale disponibilità delle funzioni più avanzate di Gemini Omni, come gli avatar digitali personalizzati, che Google rilascia con estrema prudenza per timore di abusi legati alla manipolazione di voce e immagine.

















































