資料中心再進化，光路交換器驅動AI/HPC高效運算

關鍵字：()；()；()；；；；；()；()；

瀏覽次數：209｜歡迎推文：

科技產業資訊室(iKnow) - 鐘國晉發表於 2025年6月27日

圖、資料中心再進化，光路交換器驅動AI/HPC高效運算

人工智慧(AI)及高效能運算(HPC)工作負載的爆炸性成長，驅動資料中心網路規模與層次的快速擴張，也對網路拓撲設計和交換設備構成新挑戰。以NVIDIA的DGX SuperPOD資料中心為例，每套系統能配置1024張H100 GPU，甚至擴展至成千上萬張。然而傳統的電路封包交換器受限於固定的網路拓撲，難以靈活應對大規模深度學習訓練的複雜需求。一旦某個GPU節點或交換器發生故障，更容易影響整體運算效能。

為解決這樣的問題， NVIDIA發展出新一代方案，導入光路交換器(OCS)技術。關鍵做法是在GPU節點和資料中心主幹網路之間新增一層OCS，並配置備援設備。一旦發生連接故障，OCS即能迅速、動態地重新配置資料傳輸路徑，在數秒內讓系統恢復全速運行，確保大規模AI/HPC計算的穩定性和高效能。

更重要的是，NVIDIA的方案讓網路拓撲具備「可程式化」能力，可針對各類工作負載建立最佳連結配置，減少節點間延遲，強力支撐超大規模LLM平行運算，同時降低約50%的網路能耗及30%的硬體和運行成本。

在一套由四個節點組成的NVIDIA DGX A100測試平台上，OCS方案使GPU節點和主幹網路發生故障後，系統能在數秒內恢復正常性能，幾乎不影響工作進度。而在一個擁有三萬兩千張GPU的大規模叢集模擬中，對比傳統網路架構，OCS可讓叢集的運算資源利用率減幅低於1%，並快速建立最佳化的資料傳輸路徑，使大語言模型(LLM)與大規模推薦模型(DLRM)之間的通訊更順暢、延遲更低，確保萬億參數等級的巨型模型也能穩定而高效地運行。

OCS不僅是新型網路元件，更是資料中心拓撲彈性的關鍵。它將軟體定義網路(SDN)概念擴增至光網路實體層，讓資料中心網路：可快速重構以應對故障，最佳化拓撲以貼合工作負載，有效減少能耗及設備成本。若資料中心及AI/HPC設施期望實現大規模運算、低延遲及高可用性，OCS技術及可程式化實體層網路，已是明確方向之一。(703字；圖1)

參考資料：
Optical switching for data centers and advanced computing systems. Journal of Optical Communications and Networking. 2024/12/09.
Synchronization of Optically Switched Networks. US Patent Application US20240015419A1.

歡迎來粉絲團按讚！

--------------------------------------------------------------------------------------------------------------------------------------------