︿
Top

人工智慧最新應用及其法律議題 系列1 -- 從生成式AI到AI代理

瀏覽次數:1849| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 許正乾、陳家駿 發表於 2025年8月28日
facebook twitter wechat twitter
圖、人工智慧最新應用及其法律議題  系列1 -- 從生成式AI到AI代理
 
前言
人工智慧發展到今天,可謂已正式跨入科技史上「奇異點」(Singularity)的門檻。繼2022年底生成式AI(Generative AI,以下稱GAI)掀起全球熱浪之後,2025年更迎來AI代理之發軔,其又可分為具有自主行動能力的AI代理人(AI Agents,以下稱「AI代理」),以及更進一步具備自主決策特質的代理型AI(Agentic AI,以下稱「代理AI」)。

雖然業界對於AI代理有許多不同的預測,但都指向一個趨勢:AI代理的出現,代表著自數位革命以來知識型工作者規模最大的擴張。據埃森哲(Accenture)近期的一項研究預測,到2030年AI代理將成為「大多數企業內部數位系統的主要使用者」;而到2032年,消費者與代理的互動時間將超過在應用程式上的花費時間。另一份由IDC發布的報告則估計,到2027年,全球2000大企業中將有超過40%,在知識型工作中實施AI代理及代理化工作流程;知名的科技市場研究機構Gartner也估計,到2029年代理AI將解決80%的常見客戶服務查詢。

在這一波最新的AI浪潮中,本系列將逐一探討,從生成式AI到AI代理、再從AI代理進化到代理AI。其中AI代理係結合環境感知與任務執行能力,能自主完成複雜工作流程;代理AI則是在此基礎上增強自主學習與決策能力,具備在不斷變化的環境中自我調整與策略規劃的特質,進而在商業、醫療、金融、智慧製造等領域展現出極大的應用潛力。未來AI隨著技術的持續演進,相關的運作原理、應用場景及其相關之法律議題將成為各界關注的焦點。


GAI的優勢與局限性
過去傳統AI提供識別模式與分析資料模式;但自從2022年底ChatGPT問世,宣告GAI時代的來臨,其透過Transformer架構訓練,分析龐大數據集中海量資料的模式與關聯,訓練完成會將使用者的輸入進行「斷詞(tokenize)」,然後根據機率預測接下來最可能出現的文字、像素或音符,依使用者的提示指令(prompt),自動創造出涵蓋文本(如GPT-4、Claude、Gemini、Llama、Grok)、圖像(如DALL·E、Midjourney、Stable Diffusion)、音樂(如Suno、Udio)、影片(如Sora、Pika)和程式碼(如GitHub Copilot、CodeWhisperer)等多種應用程式。隨後,GAI在搜尋引擎最佳化、行銷、產品設計與開發、客戶支援自動化等各領域有更深一層的應用。

GAI之核心依賴深度學習,並模仿人腦學習與決策過程的演算法,而其在實際應用中,亦可結合「機器流程自動化」(RPA),針對大量、規則明確工作執行更智能之自動化。而GAI如生成對抗網絡(GAN)、變分自編碼器(VAE)及大型語言模型(Large Language Model, LLM),都可透過學習數據分布生成逼真且富有創意的內容。使得GAI能廣泛應用,以自然語言對話生成各式文本,到輔助醫療診斷和自動化設計,無不展現潛力,並為後續的智慧化系統提供內容生成能力。

GAI的優勢在於高效率、個性化的創造內容、分析資料,還具備高度適應性(adaptability),能根據使用者輸入內容調整輸出結果。而當收到特定回饋時,GAI會隨之微調再回應,使輸出結果更貼近使用者的意圖。可以說,GAI的發展為AI的進階應用奠定了扎實的基礎。

然而,隨著對AI應用層次的期待逐漸提升,人們開始意識到僅靠GAI不足以滿足更複雜的需求。何況,GAI還面臨許多挑戰,除了像著作權爭議、數據偏見、倫理問題及生成內容的真實性驗證等之外,GAI單純生成內容,實已無法在需要創造性與自主性的場景中,像人類一樣主動做複雜的決策。

尤其GAI並非真的會思考、推理,更不會主動執行動作,它的任務就只是根據使用者的提示指令生成內容而已。為了克服這些侷限性,AI的發展開始轉向具備更高自主性和決策力的系統,進而催生了以「AI代理」來實現「達到電腦使用的代理能力」的概念,帶動新一波「AI代理」的崛起,儼然成為2025年最受關注的項目。


江山代有才人出 -- AI代理
什麼是AI代理?這跟我們熟悉的ChatGPT這樣的聊天機器人、可以自動生成圖像或音樂應用程式有何不同?實際上,AI代理也是一種軟體系統,能模仿人類根據感知到的外界環境,做出決策並予以執行,通常以自動化或半自動化方式來輔助或代理人類操作。這些AI代理能記錄並管理多輪對話的歷史,藉此反覆「自問自答」,不斷地檢視與調整答案以釐清脈絡,並根據不同的環境或情況產生方案或決策。

相對於AI代理,人們過去所熟悉的如ChatGPT、DALL-E、Midjourney或Suno等AI應用程式,本質上都是藉由輸入提示指令後,對應自動輸出內容的AI工具。若使用者不滿意前一個提示所生成的內容,那就得親自試著修改或優化提問,然後再次進行追問。換言之,大家所熟悉的以文生文、文圖互轉,或是以文字生成音樂等這樣的AI操作模式,都是透過「一問一答」創造內容,無法處理由多個不同步驟組成的任務,而這些現在都可由AI代理透過一次性的提示,來處理多個不同步驟所組成的任務。

「AI代理」已開始出現在各家公司應用程式中,例如Google的「Project Mariner」,透過AI代理不僅讓使用者只需透過自然語言與AI對話,即可完成如棒球賽購票、線上採買等任務,無需手動操作或點擊第三方網站,而且該應用程式還能自主瀏覽網頁、辨識頁面元素並執行操作,使用者在任務執行期間仍可同步處理其他工作,展現出高度的背景任務處理能力與多工協作效能。此外,Salesforce的Agentforce支援在網路瀏覽器中模擬人類操作,包括輸入、點擊和滾動,讓AI代理能自主完成線上任務,例如訂購食品雜貨、預訂餐廳和預訂航班。另外,中國AI開發商Butterfly Effect推出的Manus AI,即是一款具備「規劃、執行、驗證」分工架構的通用型AI系統,能模擬人類工作流程,執行跨領域任務,如簡歷篩選、旅程規劃與股票分析,並透過虛擬機介面展示執行過程。


AI代理運作流程
AI代理具備感知到自主優化等流程,涵蓋六大核心階段:首先是感知(perceive),蒐集來自使用者、感測器與資料庫等資訊並進行結構化;推理(reason),透過LLM理解任務並生成可能的解決方案;規劃(plan)則組織與排序策略,確保行動具目標導向;記憶(memorize)則會記錄與跟蹤過去與使用者的互動歷史,可儲存並檢索以支持跨情境的連續性運作;行動(act)階段,代理執行計畫並與外部環境互動,如進行預訂、發送訊息或調用專用工具,完成特定任務;最後是學習(learn),透過回饋不斷優化決策與策略。此循環讓AI代理在多變環境中持續進化,達成高效率與高度個性化的服務。

AI代理是在GAI等基礎上發展的AI系統,其特色在於具備自主性、環境感知與決策能力,能代使用者執行任務或提供個性化服務。借助GAI的強大生成能力,AI代理可生成上下文相關的回應,並結合強化學習(Reinforcement Learning)實現對環境的適應與持續優化,也能整合使用者的回饋,隨著時間推移透過微調精進其行動或回應。例如,AI代理可作為個人助理,根據使用者的習慣安排每日行程、郵件管理、預訂旅程交通、管理庫存、在金融市場執行自動化交易或監督大規模金融交易。其核心特徵包括環境感知(如透過數據輸入)、目標導向(如完成特定任務)以及自主決策(如基於學習模型)。

AI代理必須建立在先進的LLM上(如GPT-4o、GPT-4.5、o3、o4、Claude 3、Gemini Pro 1.5、Llama 3等模型),採用「感知—思考—行動(Sense–Think–Act)」循環,觀察所處的環境或系統,利用規則或LLM來做決策,然後透過調用外部的API、工具或服務執行動作。唯有強大的LLM支援「推論」與「行動」能力,AI代理才能執行繁雜的任務與決策。


AI代理 & CoT思維鏈
AI代理除了需依賴強大的LLM之外,另一個影響AI代理的自主性、推理能力和決策過程的關鍵,便是「思維鏈」(Chain-of-Thought, CoT)。思維鏈是AI領域中的一種提示工程技術,本質上是AI「自問自答」的提問技巧,其目的是要讓LLM有步驟地推理、思考。之所以會有「思維鏈」,是因為在過去若直接要求LLM生成問題的答案,可能常得到不正確的答案,但若要求LLM列出推理或計算過程,LLM就相對比較容易得到正確答案。

應用思維鏈技術,目的在於有效提升推理與決策的透明度與準確性。透過將複雜問題拆解成一連串有邏輯關聯的子問題,AI代理不僅能在每一步進行自我檢查與反思,也能追蹤思考路徑,避免草率回答或錯誤推論。此外,思維鏈促使LLM在生成回應時,更注重步驟的連貫性與合理性,這對於多步驟任務如計算、規劃、策略制定等尤為重要。結合思維鏈的AI代理,能模擬類似人類思考的過程,不僅提升答案的可信度,也為使用者提供更具解釋力的決策依據。未來,隨著思維鏈技術的持續優化,AI代理將能更佳地處理複雜場景中的推理挑戰,成為具備高度自主性與判斷力的智慧系統。


AI代理前身 -- Siri & 自動駕駛
在AI代理一詞正式出現之前,其實市場上已有類似的產品,如大家所熟悉的個人智能助理Siri,能根據使用者的語音提示執行多種簡單的任務。例如,透過手動操作以讀取行事曆、安排會議時間並設置提醒;還能連結部分特定的購物App或服務(但需使用者授權設定);推薦有限的禮物選項。不過,Siri的行動多半仍依賴使用者指令觸發,尚無法完全自主進行跨系統的複雜協調或深度個性化推薦。這種模式彷彿使用者交代一位助理,只能請它「代理」處理一些簡單的任務。

另一個例子是自動駕駛汽車,其運作遠比Siri更複雜。自動駕駛汽車中的AI代理是透過攝影機、雷達和感測器等元件或裝置,感知周圍環境(例如道路狀況、行人位置),並根據目標(例如安全抵達目的地)進行即時決策。當遇到紅燈或突然出現的行人時,AI代理會分析數據以即時決定減速、停止或改變車道等行為。更甚者,它還能結合GAI技術,生成駕駛報告或與乘客進行語音互動,例如回答駕駛「距離目的地還需30分鐘」這類預測性的問題。而特斯拉(Tesla)汽車,正包含了這種高度自主性和環境適應能力的AI代理來自動駕駛。

以上二個例子說明早期AI代理如何透過感知、決策和生成能力,執行具體任務並提升使用者的體驗。其他常見的AI代理應用,還包括客服聊天機器人、財務與交易機器人、資料擷取工具、自動化研究助手等,皆為具體應用實例。


AI代理更貼近人類決策行為
其實AI代理並非全新的概念,除Siri和自動駕駛外,早在2023年時,OpenAI就釋出AutoGPT與AgentGPT等AI代理服務,差別在於前者是基於GPT-4模型的開源碼,而後者是基於瀏覽器但不需額外安裝任何軟體的工具。簡言之,AgentGPT其實就是AutoGPT的網頁版,但在當時這兩個產品還不成熟,所以較不為人所知。既然過去已有本質上就屬於AI代理的雛型,那為何「AI代理」又成為今年被熱議的科技關鍵詞?

其中關鍵差異在於「自動化分解任務」,這是過去Siri等助理做不到的事。例如OpenAI於2025年1月,就推出一款可協助人類處理各項日常任務的「Operator」(操作員),能根據使用者的指令,自主分解任務並執行多步驟任務,包含預訂餐廳、線上購票及規劃行程等,且多數指令不需人為介入即可順利完成。舉例來說,使用者對Operator說「幫我計劃週末旅行,包括訂機票和飯店」,AI代理便感知到使用者的需求(不論是使用者用語音或是文本輸入),接著就分解若干任務,如搜尋航班、比較價格、檢查飯店的評價等,並利用GAI生成自然語言回應或執行操作,如自動填寫訂票表單。

這些AI代理,結合了GAI的語言生成能力和工具調用功能(tool-calling),能與外部系統如旅遊網站的API互動,以實現端到端的任務執行。它還能記錄使用者的偏好,如喜歡飛機上靠窗或走道的座位,以提供個性化服務。再者,像是發送電郵或提交訂單並付款等任務,Operator會先徵求使用者同意後才去執行。除此之外,Operator可根據使用者的設定,提供多元且個人化的服務。


Nvidia利用AI代理進行動態投球評分
AI代理也可以被分配特定的目標,即時處理資料並做出決策以實現預期結果。例如,Nvidia為AI代理配備先進的推理能力,使企業能自動化複雜的工作流程,從客戶服務聊天機器人到AI驅動的科學研究。

2025年1月初,黃仁勳在美國拉斯維加斯的國際消費性電子展(CES)進行主題演講,其中播放一段他替美國職棒開球的影片(如圖1所示),係利用AI代理進行動態的影片分析,影片的右上角顯示針對黃仁勳的投球評估報告:「投球評分:7.5/10。改進建議:投手的步幅可以加大,以產生更多的動力和投球的慣性,釋放點(release point)需要一致性,因為目前投球出手時機稍微過早」。這種AI代理的特性,就彷彿是一位職棒教練,看著球員的投球姿勢給出評分與調整建議,幾乎完全取代人類的職棒教練。

 
圖1  AI代理人對投球姿勢做評分與與自動產出一份需要如何改善的建議
(資料來源:NIVIDA官網)

OpenAI發布ChatGPT Agent
AI代理人的重要特點之一,是其能在任務執行過程中根據回饋不斷優化策略,甚至探索新的解決方案,這種適應性使其在商業、醫療、法律和科研等領域的應用價值愈發凸顯。例如Oracle也展示了企業級AI代理人的潛力,透過將LLM強大功能,與Oracle雲端基礎設施(OCI)和檢索增強生成(RAG: Retrieval-Augmented Generation)等技術相結合,其AI代理人可直接與企業內部資料互動,支援人才招募、執行複雜客戶資料分析、優化客服中心,以及法律、財務與學術研究的自動化處理。這顯示AI代理人並不僅是提升效率的工具,更可能成為企業數位轉型的中樞。

隨著時機成熟,繼Operator之後,OpenAI再接再厲於2025年7月中,將Operator整合於「ChatGPT Agent」,它是OpenAI在Pro、Plus及Team方案中,推出可以自主代理執行工作的服務,使用者只需在「工具」欄位的下拉選單中,點選「代理程式模式」即可啟用,啟動後ChatGPT Agent不僅能維持對話流暢度,還能在虛擬電腦環境中主動選擇及調用多種工具。在直播過程中,開發團隊完整實測ChatGPT Agent執行「根據結婚請帖上的日期、地點和服裝要求,搜尋合適的男裝和鞋子並推薦生日禮物」。

ChatGPT Agent從啟用「代理程式模式」(Agent)到任務結案的流程,大概分成:
  1. 自動開啟瀏覽器搜尋並預訂飯店;
  2. 在電商平台模擬滑鼠操作,挑選生日禮物、鞋款並完成下單;以及
  3. 呼叫終端(Terminal)功能,執行程式碼自動生成高品質的PowerPoint簡報並提供下載。

整個過程中,AI模擬滑鼠點擊和表單填寫,並在最終付款前跳出確認視窗,展現從「推論」到「行動」的完整能力。而ChatGPT Agent在技術核心架構上整合:
  1. Operator,負責模擬滑鼠點擊、拖拽與表單填寫並與各類網站互動;
  2. Deep Research,執行批量檢索並解析網頁或文件中的大段文字;
  3. Terminal,執行Python腳本等命令操作,處理數據並生成報告如Excel、PPT等檔案;以及
  4. API互動,串接Gmail、GitHub、Google Drive等服務,並產出可編輯的輸出成果。

直播中ChatGPT Agent的開發團隊也強調,在AI執行線上購物、預約或發送郵件等「不可逆操作」前都會先徵求使用者授權,以避免像信用卡這種高度隱私的個資,被不合法的釣魚網站收集。

AI代理將大幅融入人類生活
「AI代理」顧名思義,就是讓AI代替人類完成任務。只要任務具明確的目標與可分解的工作流程,AI代理便能自動化地處理,從繁瑣的資訊收集到複雜的決策制定,都能靈活執行。

舉例來說,智慧客服方面,能即時回應客戶問題以減少客服人員的負擔;製造與供應鏈管理方面,能優化生產流程、預測原物料需求並調整庫存策略;在自動駕駛方面,可整合感測數據、道路即時資訊與交通規則,隨時做出應變;財務分析方面,可即時蒐集並彙整財務報表以預測市場走勢與風險控管;程式開發方面,能自動偵測與修正錯誤,進而優化程式碼的建議;旅遊規劃方面,可依照使用者的偏好與預算,整合交通、住宿、景點等資訊以產出最佳行程方案;醫療管理方面,可協助醫院歸檔病歷、輔助診斷與追蹤病患;甚至在法律領域,能撰寫與審閱合約,並在法遵合規檢核上提供參考意見。

AI代理之所以具備如此高的適應性與智能性,關鍵在於它結合GAI的創造能力與經過多次迭代後的最佳化決策機制。然而,隨著能力的提升,也帶來決策透明度、模型可解釋性以及在複雜的環境中保持穩定的決策能力,都是未來發展中亟需解決的問題。


小結
總之,一般的AI應用程式如ChatGPT等,雖能回答問題、生成文本、圖像與音樂等,但無法處理由多個步驟組成的複雜任務。這時AI代理就可派上用場,主動接收使用者所輸入的目標任務,將其分解成多個不同步驟並處理,再將整合後的結果傳回使用者,從而解決以往AI助理所無法處理的任務。此外,AI代理仍需要強大的LLM做為奧援,若超越LLM的能力,AI代理仍可能會發生「AI幻覺」。

值得注意的是,「AI代理」隨著技術演進,能力不斷提升,逐步向更自主、更具目標導向的「代理AI」發展。AI代理主要在完成明確指令下的多步驟任務,而代理AI則更進一步地具備自我設定目標、策略規劃與動態調整的能力,能在不確定環境中自主決策與行動,甚至協調各AI代理系統之間的合作。這種轉變更標誌著AI從執行者,逐漸躍升為具備高度自主性與適應性的「代理AI」,為未來智慧化應用帶來更廣泛的可能性。請參下篇系列2 -- 從AI代理到代理AI。(6604字)

 
作者資訊:
許正乾執行長  因子數據股份有限公司共同創辦人
陳家駿律師  台灣資訊智慧財產權協會理事長 


參考資料:
NVIDIA COMPUTEX 主題演講。NVIDIA. 2025/05
GeForce 特別活動將於 2025 年國際消費性電子展 (CES):NVIDIA 執行長黃仁勳的主題演講。NVIDI. 2025/1/6
OpenAI首推「AI代理人」新功能 可為使用者預定餐廳、線上購票。公視新聞網. 2025/01/24
隆重介紹 Operator。OpenAI. 2025/01/23
隆重介紹 ChatGPT 智慧體:串聯研究與行動。OpenAI. 2025/07/17
【震撼發表】ChatGPT Agent 超狂實測!會自己訂飯店、買西裝、做簡報還能買鞋!OpenAI 最新 AI 工具一次看!剛來學(Youtube). 2025/07/18
AutoGPT開源碼: https: //github.com/Significant-Gravitas/Auto-GPT
Technology Vision 2025: AI: A Declaration of Autonomy—Is trust the limit of AI’s limitless possibilities? Accenture. 2025/01/7
IDC FutureScape: Worldwide Future of Work 2025 Predictions. IDC. 2024/10
Gartner Predicts that Agentic AI Will Solve 80 Percent of Customer Problems by 2029. CX Today. 2025/03/05
The rise of AI agents. TLT. 2025/02/26
Contract Law in the Age of Agentic AI: Who’s Really Clicking “Accept”? New Media and Technology Law Blog. 2025/04/09
Agentic AI and EU Legal Considerations - Rise of the (helpful) machines. Mason Hayes & Curran. 2025/05/22
Generative AI vs Agentic AI vs AI Agents — What’s the Real Difference? Medium. 2025/06/02
Agentic AI vs. generative AI. IBM
Preparing for the AI Agent Revolution: Navigating the Legal and Compliance Challenges of Autonomous Decision-Makers. StoneTurn. 2025/02/10


 

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。