Google rinnova Gemini Live su Android con sovrapposizioni visive e un modello audio avanzato che rende le interazioni più naturali e coinvolgenti.

All’evento Made by Google dello scorso anno, Google ha presentato Gemini Live, una funzione progettata per conversazioni più naturali e a mani libere con il suo chatbot AI. Google ha annunciato un importante miglioramento delle funzioni di condivisione della fotocamera di Gemini Live e un nuovo modello audio per rendere le interazioni ancora più naturali. Durante la presentazione della serie Google Pixel 10, sono stati illustrati diversi miglioramenti in arrivo per l’app su Android.

Durante la condivisione del feed della fotocamera, Gemini Live mostra ora sovrapposizioni visive per evidenziare oggetti specifici. Le evidenziazioni appaiono come un rettangolo con un bordo bianco attorno a un oggetto, mentre il resto della visualizzazione viene leggermente attenuato per farlo risaltare. La funzione è progettata per aiutare a individuare e identificare rapidamente elementi nel campo visivo della fotocamera. Si può utilizzare per evidenziare il pulsante corretto su una macchina, indicare un uccello specifico in uno stormo o identificare lo strumento giusto per un progetto. È possibile impiegarla anche per ricevere consigli, come chiedere a Gemini di suggerire il paio di scarpe più adatto a una determinata occasione.

La capacità dell’intelligenza artificiale si estende a scenari più complessi. Un product manager di Google ha condiviso un’esperienza personale avvenuta durante un viaggio all’estero. Cercava di capire se fosse possibile parcheggiare in un punto specifico, non riuscendo a comprendere la segnaletica in lingua straniera, le indicazioni orizzontali e le normative locali. Utilizzando il suo telefono e aprendo Gemini Live, ha inquadrato la scena con la fotocamera e ha chiesto se fosse permesso parcheggiare. Gemini ha effettuato una ricerca sulle normative locali, ha tradotto i cartelli e ha poi evidenziato un punto sulla strada dove era possibile parcheggiare gratuitamente per le due ore successive.

In aggiunta alle sovrapposizioni visive, Google sta aggiornando Gemini Live con un nuovo modello audio nativo progettato per interazioni più naturali. Il modello è in grado di rilevare le sfumature nel tono della voce per comprendere lo stato d’animo dell’utente. Se percepisce emozione, la sua risposta avrà un tono allegro; se invece l’utente sembra preoccupato, il suo tono diventerà più rassicurante. Le funzioni sono state annunciate durante l’evento di lancio di Pixel 10, ma non è previsto che siano esclusive di questi smartphone. Una nota a piè di pagina nel video dimostrativo condiviso da Google suggerisce che le funzioni saranno disponibili per qualsiasi utente Android con un piano Google One AI Premium.

Articolo precedenteGoogle Pixel 10 ufficiale: design raffinato e Tensor G5
Articolo successivoGoogle Pixel Watch 4 e Pixel Buds Pro 2 e 2a: ecco le novità
Giulia Moretti
Giulia Moretti è l'analista di riferimento per l'area consumer tech. Con un occhio critico per le tendenze di mercato, esplora l'impatto dei prodotti lifestyle e delle piattaforme social sulle abitudini dei consumatori e sulle strategie di business del settore.