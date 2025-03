Google DeepMind potenzia i robot con Gemini Robotics e Robotics-ER: più autonomia, interazione, sicurezza, manipolazione e comprensione spaziale.

Il futuro della robotica appare trasformato grazie a recenti innovazioni di Google DeepMind. Google ha compiuto passi da gigante nell’integrare l’intelligenza artificiale Gemini nei sistemi robotici, aprendo la strada a una nuova era di automazione intelligente. Le capacità avanzate di Gemini, riguardanti il ragionamento multimodale su testo, immagini, audio e video, erano limitate all’ambiente digitale. L’obiettivo attuale è portare queste capacità nel mondo fisico.

Per concretizzare questa visione, Google ha sviluppato due modelli di intelligenza artificiale, entrambi basati sull’architettura Gemini 2.0, che rappresentano un punto di svolta per l’interazione tra robot e ambiente circostante. Il primo modello, denominato Gemini Robotics, è un sistema avanzato di visione-linguaggio-azione. Questo modello si basa su Gemini 2.0, ma introduce una nuova modalità di output: le azioni fisiche. In sostanza, Gemini Robotics permette di controllare direttamente i robot attraverso comandi che combinano la comprensione del linguaggio naturale e la percezione visiva dell’ambiente.

Il secondo modello, chiamato Gemini Robotics-ER, estende ulteriormente le capacità di Gemini 2.0. Incorpora una comprensione spaziale avanzata, consentendo ai robot di eseguire programmi complessi sfruttando le capacità di “ragionamento incarnato” (Embodied Reasoning, ER) di Gemini. Questo significa una maggiore consapevolezza dell’ambiente e delle relazioni spaziali tra oggetti. L’impatto di questi modelli è rilevante. Permettono a una vasta gamma di robot di eseguire un insieme di compiti molto più ampio e complesso rispetto al passato. Google ha avviato una collaborazione con Apptronik per realizzare una nuova generazione di robot umanoidi basati su Gemini 2.0. Parallelamente, un gruppo selezionato di tester sta contribuendo a definire il futuro di Gemini Robotics-ER.

Per essere veramente utili, i modelli di intelligenza artificiale per la robotica devono possedere caratteristiche precise. Devono essere generalisti, capaci di adattarsi a contesti variabili. Devono essere interattivi, in grado di comprendere e reagire prontamente a istruzioni o cambiamenti ambientali. Infine, devono essere abili, capaci di eseguire manipolazioni precise, simili a quelle umane. Gemini Robotics segna un progresso in tutte queste aree. Il modello può affrontare una vasta gamma di compiti, anche quelli mai incontrati durante la fase di addestramento. Può interagire con nuovi oggetti, seguire istruzioni diversificate e adattarsi a nuovi ambienti. Le prestazioni di Gemini Robotics, in un benchmark di generalizzazione, sono risultate più che raddoppiate rispetto ad altri modelli di visione-linguaggio-azione.

La capacità di operare in un mondo dinamico richiede ai robot un’interazione fluida con persone e ambiente, adattandosi rapidamente ai cambiamenti. Gemini Robotics eccelle in questo aspetto. Sfrutta le capacità avanzate di comprensione del linguaggio di Gemini, rispondendo a comandi espressi in linguaggio naturale e in diverse lingue. Il modello è in grado di comprendere una gamma di istruzioni molto più ampia rispetto ai modelli precedenti, adattando il proprio comportamento agli input ricevuti. Monitora costantemente l’ambiente, rilevando cambiamenti e regolando le proprie azioni di conseguenza. Questa capacità di controllo facilita la collaborazione tra persone e assistenti robotici in diversi contesti, domestici e lavorativi.

Un altro aspetto fondamentale per la costruzione di un robot utile è l’abilità manuale. Molti compiti quotidiani, eseguiti senza sforzo dagli umani, richiedono abilità motorie fini, ancora difficili da replicare per i robot. Gemini Robotics, tuttavia, è in grado di affrontare compiti complessi e multi-fase che richiedono una manipolazione precisa, come piegare un origami o confezionare uno snack. L’adattabilità è un’altra caratteristica chiave di Gemini Robotics. Il modello è stato addestrato principalmente sui dati della piattaforma robotica ALOHA 2, ma può controllare anche altre piattaforme, come i bracci Franka, utilizzati in molti laboratori di ricerca. Può inoltre essere specializzato per robot umanoidi complessi, come Apollo di Apptronik.

Gemini Robotics-ER, invece, migliora la comprensione del mondo nei modi necessari per la robotica, con particolare attenzione al ragionamento spaziale. Consente ai tecnici di collegarlo ai loro controllori di basso livello esistenti. Potenzia le capacità di Gemini 2.0, come il puntamento e il rilevamento 3D. Combinando ragionamento spaziale e capacità di codifica, può creare nuove capacità. Ad esempio, può individuare una presa appropriata per una tazza di caffè e pianificare una traiettoria sicura per avvicinarla.

Gemini Robotics-ER è in grado di eseguire tutte le fasi necessarie per il controllo di un robot, dalla percezione alla pianificazione e alla generazione del codice. In un’impostazione completa, il modello ottiene un tasso di successo superiore rispetto a Gemini 2.0. Può inoltre sfruttare l’apprendimento in contesto, seguendo modelli di dimostrazioni umane per trovare soluzioni.

Google adotta un approccio olistico alla sicurezza nella ricerca, dal controllo motorio di basso livello alla comprensione semantica di alto livello. La sicurezza fisica dei robot e delle persone è una preoccupazione fondamentale. Vengono adottate misure di sicurezza classiche come evitare collisioni e limitare le forze di contatto. Per far progredire la ricerca sulla sicurezza robotica, l’azienda rilascia un nuovo set di dati per valutare e migliorare la sicurezza semantica nell’intelligenza artificiale. È stato sviluppato un framework per generare automaticamente regole, espresse in linguaggio naturale, per guidare il comportamento di un robot. Questo framework consentirebbe di creare robot più sicuri e allineati ai valori umani. Il nuovo set di dati ASIMOV aiuterà i ricercatori a misurare le implicazioni per la sicurezza delle azioni robotiche in scenari reali.

Per valutare le implicazioni sociali del lavoro, Google collabora con esperti interni ed esterni, concentrandosi sulle sfide e opportunità presentate dall’intelligenza artificiale incarnata nelle applicazioni robotiche. Oltre alla partnership con Apptronik, il modello Gemini Robotics-ER è disponibile per tester, tra cui Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools.