Google DeepMind之Gemini Robotics 1.5將讓機器人開始具思考能力

關鍵字：()；；；()；()；()；()；()；()；()；()

瀏覽次數：2653｜歡迎推文：

科技產業資訊室 - 友子發表於 2025年9月30日

圖、Google DeepMind之Gemini Robotics 1.5將讓機器人開始具思考能力

基本上，能夠創建文字、影像、音訊甚至視訊的生成式AI系統正變得日益普及。AI模型能夠輸出這些資料類型，它們也可以用來輸出機器人的動作。這正是Google DeepMind之Gemini Robotics的基礎。

如今該計畫宣布了兩個新模型，它們可以協同工作，創造出首批在行動前「思考」的機器人。

Google DeepMind所推出了兩款全新AI模型：Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5，旨在讓機器人能夠自行規劃、理解和執行複雜任務。這兩款模型都將多模態感知、語言處理、運動控制與內部決策系統結合。

DeepMind 目前的機器人技術依賴兩種模型：一種是「思考」模型，另一種是「行動」。

Gemini Robotics 1.5是視覺-語言-動作（VLA）模型，這意味著它使用視覺和文字資料來產生機器人動作。另一個模型中的「ER」代表具身推理 (embodied reasoning)。這是一個視覺-語言模型 (VLM)，它接受視覺和文字輸入來產生完成複雜任務所需的步驟。

第一個模型Gemini Robotics 1.5將這些規劃轉化為實際行動。與先前的VLA不同，此模型先推理後行動：它會建立內部邏輯鏈，規劃中間步驟，分解複雜任務，並解釋其決策。例如，在將衣物分類時，模型會識別目標（例如「將淺色衣物放入白色垃圾桶」），然後規劃抓取動作並執行。

至於Gemini Robotics-ER 1.5 是機器人的高階「大腦」。它負責任務規劃，使用谷歌搜尋等數位工具，以自然語言進行交流，並監控進度和成功率。根據Google DeepMind 稱，該模型在 15 項具身推理基準測試上取得了最佳結果。

這兩種模型都可以將其能力推廣到不同類型的機器人。谷歌表示，ALOHA 2 機器人學習到的運動模式也可以在Apptronik 的 Apollo 或雙臂 Franka 機器人等平台上運行，無需額外微調。

這些模型包含內建安全檢查功能。在執行操作之前，Gemini Robotics 1.5 會檢查移動是否安全，並在需要時觸發防撞等功能。

這兩種型號都基於更廣泛的 Gemini 多模態系列，並針對機器人技術進行了專門調整。 Gemini Robotics-ER 1.5 現已透過 Google AI Studio 中的 Gemini API 提供，目前僅限部分合作夥伴使用。

總之，有別於傳統依賴單一資料和特定平台的訓練方式，Gemini Robotics 1.5系列模型使機器人能夠跨平台遷移技能，並在複雜環境中展現出類人適應性，拓展了機器人模型的通用性。這也成為眾多廠商建構機器人模型的目標之一。（1064字；圖1）

參考資料：
Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world. Robotics & Automation News, 2025/9/26
Google DeepMind unveils its first “thinking” robotics AI. Ars Technica, 2025/9/25

歡迎來粉絲團按讚！

--------------------------------------------------------------------------------------------------------------------------------------------