AI 視覺新突破:OAK讓機器看圖「懂情境、會創新」
科技產業資訊室(iKnow) - 陳玟妤 發表於 2025年8月8日

圖、AI 視覺新突破:OAK讓機器看圖「懂情境、會創新」
密西根大學攜手加州大學柏克萊分校與博世人工智慧中心合作進行一項開創性研究,提出了一種全新的AI方法——開放式臨時分類(Open Ad-hoc Categorization, OAK)。這項技術徹底顛覆了傳統AI圖像分類的固定模式,使其能夠根據不同的任務、情境或目標,動態地重新詮釋相同的圖像。該研究已於2025年6月在田納西州納許維爾舉行的IEEE電腦視覺與模式識別會議(CVPR)上發表,並於2025年8月6日由Patricia DeLacey發佈相關新聞。
傳統的AI圖像分類系統,往往依賴於「椅子」、「汽車」或「狗」等預設的、僵化的類別,難以適應多變的目的或情境。然而,人類在感知圖像時並非如此固定,而是會根據需求靈活調整其意義。而密西根大學電腦科學與工程學教授兼該研究的資深作者Stella Yu表示,OAK正旨在賦予AI這種靈活性。例如,一張顯示人物飲酒的圖像,在OAK系統中,可以根據「飲酒」的動作、「商店」的場景或「快樂」的情緒來進行分類,展現出高度的適應性。
OAK的核心創新在於其建構於OpenAI的CLIP(Contrastive Language-Image Pre-training)模型基礎之上,並引入了情境令牌(context tokens)。這些情境令牌如同專門的指令集與圖像數據一同輸入系統,引導模型如何處理視覺特徵,使得模型能夠自然地將注意力集中在圖像的相關區域,例如行動中的手部或位置的背景,而無需明確告知其關注點。值得注意的是,這些新的情境令牌在訓練過程中不會改變 CLIP 的原始權重,從而確保模型在學習新任務時仍保有原有知識。
OAK最令人驚豔的能力之一是其新類別的發現能力。即使在訓練過程中僅提供了「鞋子」的圖像範例,並被要求識別車庫拍賣的商品,OAK也能夠自主學習並識別出「帽子」或「行李箱」等全新的概念。OAK 能實現這項突破性功能,關鍵在於其結合了「頂層語義引導」(top-down semantic guidance)與「底層視覺聚類」(bottom-up visual clustering)兩種方法。頂層語義引導利用語言知識提出潛在的新類別,例如從「鞋子」推論到「帽子」;而底層視覺聚類則透過分析未標記的視覺數據中的模式來發現新類別,例如在未標記圖像中多次出現的「手提箱」。這兩種方法在訓練過程中相互作用,語義提案促使視覺系統搜尋相關物體,而視覺聚類則利用CLIP的圖像-文本知識來命名發現的類別。
研究團隊為驗證 OAK 系統在圖像分類與概念發現上的表現,使用斯坦福(Stanford)與 Clevr-4 兩組圖像數據集進行了廣泛實驗,並將 OAK 的結果與當前最先進的模型,包括擴展詞彙的 CLIP 及廣義類別發現(Generalized Category Discovery, GCD)方法,進行比較。而OAK生成的可解釋性顯著圖(saliency maps)能夠準確地聚焦於圖像的關鍵部分,這進一步提升了模型的透明度和可靠性。
透過在兩個代表性的圖像數據集上與業界領先的模型進行比較,證明了OAK在動態圖像分類、新概念發現以及提供可解釋性方面,均達到了甚至超越了當時最先進的水平。這項研究預示著AI系統在理解和適應複雜現實世界場景方面的巨大進步。
展望未來,OAK 的情境化方法將可廣泛應用於如機器人學等領域,特別是在需要系統依任務變化而調整感知方式的應用場景中發揮關鍵作用。(1146字;圖1)
參考資料:
AI system discovers visual categories while adapting to new contexts. Tech Xplore,2025/08/06
Open Ad-hoc Categorization with Contextualized Feature Learning. CVPR,2025/06/14
相關文章:
1. OpenAI發布GPT-5,主打推理模型與軟體即時生成,引爆AI新一輪競賽
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。
|