︿
Top

資料中心再進化,光路交換器驅動AI/HPC高效運算

瀏覽次數:209| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 鐘國晉 發表於 2025年6月27日
facebook twitter wechat twitter

圖、資料中心再進化,光路交換器驅動AI/HPC高效運算

人工智慧(AI)及高效能運算(HPC)工作負載的爆炸性成長,驅動資料中心網路規模與層次的快速擴張,也對網路拓撲設計和交換設備構成新挑戰。以NVIDIADGX SuperPOD資料中心為例,每套系統能配置1024H100 GPU,甚至擴展至成千上萬張。然而傳統的電路封包交換器受限於固定的網路拓撲,難以靈活應對大規模深度學習訓練的複雜需求。一旦某個GPU節點或交換器發生故障,更容易影響整體運算效能。

為解決這樣的問題, NVIDIA發展出新一代方案,導入光路交換器(OCS)技術。關鍵做法是在GPU節點和資料中心主幹網路之間新增一層OCS,並配置備援設備。一旦發生連接故障,OCS即能迅速、動態地重新配置資料傳輸路徑,在數秒內讓系統恢復全速運行,確保大規模AI/HPC計算的穩定性和高效能。

更重要的是,NVIDIA的方案讓網路拓撲具備「可程式化」能力,可針對各類工作負載建立最佳連結配置,減少節點間延遲,強力支撐超大規模LLM平行運算,同時降低約50%的網路能耗及30%的硬體和運行成本。

在一套由四個節點組成的NVIDIA DGX A100測試平台上,OCS方案使GPU節點和主幹網路發生故障後,系統能在數秒內恢復正常性能,幾乎不影響工作進度。而在一個擁有三萬兩千張GPU的大規模叢集模擬中,對比傳統網路架構,OCS可讓叢集的運算資源利用率減幅低於1%,並快速建立最佳化的資料傳輸路徑,使大語言模型(LLM)與大規模推薦模型(DLRM)之間的通訊更順暢、延遲更低,確保萬億參數等級的巨型模型也能穩定而高效地運行。

OCS不僅是新型網路元件,更是資料中心拓撲彈性的關鍵。它將軟體定義網路(SDN)概念擴增至光網路實體層,讓資料中心網路:可快速重構以應對故障,最佳化拓撲以貼合工作負載,有效減少能耗及設備成本。若資料中心及AI/HPC設施期望實現大規模運算、低延遲及高可用性,OCS技術及可程式化實體層網路,已是明確方向之一。(703字;圖1)


參考資料:
Optical switching for data centers and advanced computing systems. Journal of Optical Communications and Networking. 2024/12/09.
Synchronization of Optically Switched Networks. US Patent Application US20240015419A1.

 

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。