︿
Top

世界行動模型崛起,具身AI邁向預測式智慧

瀏覽次數:143| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 黃松勳 發表於 2026年5月15日
facebook twitter wechat twitter

圖、世界行動模型崛起,具身AI邁向預測式智慧

近年生成式AI快速進展,帶動機器人與具身智慧(Embodied AI)研究進入新階段。根據復旦大學、上海創新研究院與新加坡國立大學等研究團隊共同發表的論文《World Action Models: The Next Frontier in Embodied AI》指出,過去主流的 Vision-Language-Action(VLA,視覺-語言-動作)模型,主要透過影像與語言輸入直接生成機器人動作,已展現優異的泛化能力,例如理解自然語言指令、辨別陌生物體,以及在不同任務之間進行轉移學習。然而,這類模型本質上仍偏向「反應式控制」,缺乏對實體世界(或稱物理世界)變化的預測能力,因此在複雜環境中的長期規劃與動態互動上,仍存在明顯限制。
 
該研究進一步提出「世界行動模型」(World Action Models, WAMs)的新概念,主張將世界模型(World Model)與動作生成(Action Generation)整合為統一系統,使機器人能同時理解環境變化與規劃未來行為。論文指出,WAM的核心目標不只是生成動作,而是學習未來世界狀態與動作之間的聯合分布,讓AI具備某種程度的「物理推理能力」,進而提升機器人在陌生環境中的泛化與推理能力。

根據論文內容,WAM的核心理念在於同時建模「未來世界狀態」與「對應動作」,也就是讓模型學習未來畫面、環境變化與機器人行為之間的關聯。研究團隊將現有WAM架構分成兩大類型。第一種是「Cascaded WAM」,即先預測未來畫面,再從預測結果中生成動作;第二種則是「Joint WAM」,直接在同一模型內同步生成未來狀態與動作。前者較容易整合現有影片生成技術,後者則更強調端到端的物理推理與控制能力。

研究指出,WAM之所以受到高度關注,與近年影片生成模型的大幅突破密切相關。從OpenAI的Sora,到Google的Veo,再到各類Diffusion Transformer架構,生成式影片模型已逐漸具備理解時空變化、物件運動與物理規律的能力。這些模型在大量網路影片中學到的世界知識,開始被導入機器人領域,使機器人能透過影片推演未來情境,而不再完全依賴昂貴的實體訓練資料。

在技術演進上,研究特別提到「影片預測」與「潛在空間世界模型」兩條發展路線。早期方法多半直接生成未來影像畫面,但此類模型容易產生誤差累積與長時間漂移問題。後續則逐漸轉向Latent Space建模,也就是先將環境壓縮成抽象特徵,再在特徵空間中模擬未來變化。這種方法不僅能降低運算成本,也更有助於長期推理與決策規劃。

此外,JEPA(Joint Embedding Predictive Architecture)等新型預測式表徵學習方法,也正在影響WAM發展方向。與傳統重建像素不同,JEPA強調預測未來特徵表示,讓模型聚焦於「可預測的高階結構」,而非低層細節。這種方式更接近人類理解世界的方式,也讓模型能在不需精確重建每個像素的情況下,掌握場景中的物理因果關係。

值得關注的是,WAM也開始結合人類第一視角影片與網路資料集進行訓練。研究指出,大量未標註的人類操作影片其實隱含豐富的物理互動知識,例如抓取、搬運、旋轉與工具使用等。透過推論隱含動作或手部軌跡,機器人得以從人類影片中學習操作邏輯,進一步降低對高成本機器人示範資料的依賴。這種從「人類影片學習機器人能力」的方向,被視為具身AI擴展規模的重要關鍵。

除了訓練用途之外,世界模型也被廣泛應用於模擬與評估。由於真實機器人測試成本高、速度慢且具有風險,研究者開始利用世界模型建立虛擬環境,讓機器人在「想像世界」中先完成訓練與驗證。這類資料驅動的模擬環境,相較傳統物理引擎,更能反映真實世界的複雜性與隨機性,也有助於縮短模擬與真實環境之間的差距。

WAM的興起代表未來AI技術正在從「理解世界」進一步走向「預測世界」。過去大型語言模型擅長語意理解與文本生成,但未來的機器人系統,需要的不只是對話能力,而是能在實體世界中做出合理判斷與行動。這也意味著,未來競爭焦點將不再只是模型參數規模,而是誰能建立更強大的世界模擬能力與物理常識推理能力。(1454字;圖1)


參考資料:
World Action Models: The Next Frontier in Embodied AI. arXiv, 2026/5/12
World Action Models: The Next Frontier in Embodied AI. Github, 2026/5


 

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。