近年來,人工智能 (AI) 領域發生了巨大變化,突破了技術所能實現的界限,并改變了支持該技術所需的基礎設施。這種轉變的一個關鍵方面是 AI 數據中心的架構,它必須適應 AI 計算的獨特需求。本文深入探討了康普對 AI 數據中心的布線考慮,探討了優化性能和效率所必需的挑戰和最佳實踐。
向 AI 驅動的數據中心轉變
AI 技術的普及,以 DALL-E 2 和 ChatGPT 等創新為代表,極大地影響了公眾對 AI 的看法和期望。隨著這些技術對各個行業越來越不可或缺,支持它們的基礎設施也必須不斷發展。AI 現在是數據中心增長的主要驅動力,因此需要改變這些中心的設計和運營方式。
AI 計算嚴重依賴于圖形處理單元 (GPU),它們專門用于并行處理。訓練和運行 AI 模型所需的處理能力通常超出單臺機器的能力,因此需要在服務器和機架之間互連多個 GPU。這種設置在數據中心內形成 AI 集群,帶來了獨特的布線挑戰和機遇。
架構差異:AI 與傳統數據中心
傳統數據中心,尤其是超大規模設施,通常采用折疊式 Clos 架構,也稱為“葉脊”架構。在這種設置中,服務器機架連接到架頂式 (ToR) 交換機,然后通過光纖電纜連接到葉交換機。然而,AI 集群需要采用不同的方法,因為它們對服務器之間的連接要求更高,并且 GPU 服務器會產生大量電力和熱量。
報告中概述道:“GPU 服務器需要更多的服務器間連接,但由于功率和熱量限制,每個機架的服務器數量通常較少。因此,與傳統架構相比,AI 數據中心架構中的機架間布線更多。”這種布線復雜性的增加對于支持 AI 工作負載所需的更高數據傳輸速率是必要的,這些工作負載的傳輸速率范圍從 100G 到 400G,而銅纜無法支持這些傳輸距離。
實際示例:NVIDIA 的 AI 數據中心架構
AI 硬件領域的領導者 NVIDIA 提供了 AI 數據中心架構的一個典型示例。他們最新的 GPU 服務器 DGX H100 具有多個高速光纖端口用于連接。單個 DGX SuperPOD(包含 32 臺 GPU 服務器的集群)需要 384x400G 光纖鏈路用于交換結構和存儲,以及 64 條銅纜鏈路用于管理。與傳統數據中心架構相比,此設置說明了光纖鏈路的大幅增加。
最大限度地減少 AI 集群中的延遲
延遲是 AI 和機器學習 (ML) 算法中的一個關鍵因素,運行大型訓練模型所需的大部分時間都歸因于網絡延遲。正如報告中所述,“一項估計聲稱,運行大型訓練模型的 30% 的時間花在網絡延遲上,70% 的時間花在計算時間上。”為了最大限度地減少延遲,AI 集群旨在讓 GPU 服務器保持緊密距離,幾乎所有鏈接都限制在 100 米范圍內。
然而,并非所有數據中心都能適應這種配置,尤其是功率容量較低的老舊設施。這些中心可能需要將 GPU 機架隔開,這進一步增加了布線要求。
選擇合適的收發器和光纖電纜
選擇合適的光收發器和光纖電纜對于成本和功率效率至關重要。該報告強調了并行光學的優勢,它不需要波分復用 (WDM) 中使用的光復用器和解復用器。例如,帶有八光纖電纜的 400G-DR4 收發器比 400G-FR4 收發器更具成本效益。
此外,單模和多模光纖之間的選擇受成本和功率考慮的影響。雖然單模收發器變得更實惠,但多模收發器仍然更便宜,功耗更低。這種差異可以帶來顯著的節省,特別是在具有數百個收發器的大型 AI 集群中。
有源光纜與帶光纖電纜的收發器
有源光纜 (AOC) 通常用于 AI、ML 和高性能計算 (HPC) 集群。這些電纜集成了光發射器和接收器,提供一體化解決方案。然而,AOC 缺乏獨立收發器和光纖電纜的靈活性,因此不太適合未來的升級,而且更容易出現故障。
報告總結道:“仔細考慮 AI 集群布線將有助于節省成本、電力和安裝時間,使組織能夠充分受益于 AI。” 通過滿足 AI 數據中心獨特的布線需求,運營商可以確保其設施能夠滿足當前和未來 AI 工作負載的需求。
隨著 AI 繼續推動數據中心的增長,這些設施的架構和布線必須不斷發展以應對新的挑戰。 通過采用最佳實踐和優化布線基礎設施,數據中心可以提高性能、降低成本并支持下一代 AI 創新。
作者:Tom Raynel
評論一下?