<p id="iuri5"><del id="iuri5"></del></p>
  • <p id="iuri5"></p>
  • 
    

      機房360首頁
      當前位置:首頁 ? 綜合布線資訊 ? 面向AI的智算中心 布線系統所面臨的挑戰和機遇

      面向AI的智算中心 布線系統所面臨的挑戰和機遇

      來源:《數據中心建設+》雜志 作者:美國康普公司技術總監 吳健 更新時間:2023/12/8 7:49:10

      摘要:本文概述了AI數據中心布線方面的挑戰和機遇,旨在幫助自建AI集群的數據中心企業找到AI集群的理想布線方式。

             一、引言

      幾十年來,人工智能(AI)的威脅一直是科幻小說不變的主題。熒幕反派角色,比如《黑客帝國》中的機器人,都站在了人類的對立面,迫使人類必須克服這些技術帶來的威脅。對人工智能(AI)和機器學習(ML)在實際應用中的潛力,人們的興趣有增無減,而且新的應用層出不窮。最近,ChatGPT引起了廣大公眾對AI可以做什么的極大興趣,也引發了人們關于AI將如何影響工作和學習性質的討論。全球已有數百萬用戶在使用ChatGPT、Bard和其他AI接口,與AI進行交互。但大多數用戶還沒有意識到,他們與AI助手進行的交流實際上離不開世界各地大型數據中心的支持。

      本文概述了AI數據中心布線方面的挑戰和機遇,旨在幫助自建AI集群的數據中心企業找到AI集群的理想布線方式。

      二、高效訓練

      許多企業正投資于數據中心內的AI集群,開始構建、訓練并完善AI模型,以適應自身的經營戰略。這些AI內核由一個又一個機架內的GPU(圖形處理單元)組成。GPU提供了AI模型對算法進行詳盡訓練所需的強大并行處理能力。GPU芯片最擅長并行處理的,非常適合AI。如圖1為CPU和GPU在智算中心的作用。

      通過導入數據集,訓練、推理等過程,AI會分析數據并進行理解。比如,基于貓有別于狗的常見特征進行訓練,確定圖中是一只貓還是一只狗。接著,生成式AI會處理這些數據,創建出全新的圖像或文本。

      雖然這種“智能”處理引起了世界各地個人、政府和企業的極大興趣,但開發一個有用的AI系統既費錢又耗能,因為它需要大量的數據用于訓練。這些用于訓練和運行AI的模型是單臺機器所無法承受的,AI模型的增長,以PetaFLOPS(FLOP為浮點運算單位)為單位。許多服務器和機架上的多個GPU一起工作才能處理這些大模型,在數據中心內維護這些計算集群協同工作處理數據。這些GPU必須通過高速連接才能完成AI的工作。特定機架空間能配備多少GPU受到了GPU的能耗和散熱容量的限制,因此必須優化物理布局,并最大限度地降低鏈路延遲。

      三、AI集群對于數據中心的挑戰

      AI是當前和未來數據中心增長的主要驅動力。AI包含以下三個方面:

      1)在訓練期間,大量數據被輸入算法,用于學習。

      2)然后,推理AI獲取信息并進行分析。

      3)生成式AI是最令人興奮的環節,因為通過簡單的提示,算法可以輸出以前從未創建過的文本或圖像。

      智算中心的挑戰有三個:提高帶寬;降低延時;降低功耗。因此基于多模光纖的400G和800G技術將會得到大量采用。

      在網絡方面的挑戰:GPU計算集群需要大量的服務器間連接,但由于功耗和熱量的限制,每個機架不得不減少服務器的數量。這樣智算中心比傳統數據中心擁有更多的機架間布線,因為設備間的大吞吐量需求,需要400G以上的帶寬支持,銅纜應用減少,光纖光纜應用大幅度增加。

      在能耗方面的挑戰:面向AI的機架需要大約40千瓦才能為GPU服務器供電。這一功率比典型服務器機架功率高四五倍,這樣按較低功率要求構建的數據中心將需要升級或者建立專門的GPU高密度機架區域。

      在NVIDIA描繪的理想場景中,AI集群中的所有GPU服務器將緊密結合在一起。與高性能計算一樣,AI機器學習算法對鏈路延遲極為敏感。NVIDIA的內部統計,運行大型訓練模型有30%的時間花在網絡延遲上,70%的時間花在計算上。由于訓練一個大模型的成本可能高達1000萬美元,因此這種網絡延遲時間代表著一筆巨大的費用。即使是節省50納秒延遲或10米光纖的線路距離,效果也非常明顯。對于時間敏感性的推理數據交換更需要縮短鏈路距離;通常AI集群的鏈路都限制在100米范圍內。

       四、智算中心網絡架構

      幾乎所有現代數據中心,尤其是超大規模數據中心,使用的都是折疊式CLOS架構,也稱為葉脊架構。數據中心的所有葉交換機(LEAF)都連接到所有脊交換機(SPINE)。在主機房,服務器連接到機架中的置頂交換機(ToR),然后ToR設備連接到行末端的葉交換機(LEAF)。每臺服務器都需要連接到交換網絡、存儲網絡和帶外管理網絡等網絡。

      有些數據中心在實施AI時,會將AI集群部署在采用傳統架構的服務器集群旁。這時,傳統計算有時稱為前端網絡,AI集群有時稱為后端網絡。

      舉個例子,可以看看AI領域的領導者NVIDIA提出的架構。NVIDIA的最新GPU服務器是DGXH100,具有4個800G交換機端口(作為8個400GE運行)、4個400GE存儲端口以及1GE和10GE管理端口。如圖2所示,一個DGXSuper POD可以包含32個這樣的GPU服務器,這些GPU服務器可連接到18臺交換機。然后,每行將擁有384個400GE光纖鏈路用于交換機網絡和存儲網絡,還有64個銅纜鏈路用于管理。因為這種全連接的架構,主機房中光纖鏈路的數量將大幅增加。

      五、布線連接的考慮因素
        
      以NVIDIA為代表的智算設備連接需求已經達到并超越了400G接口速率。智算設備大大推進了400G商業化和800G標準化,并推動產業向1.6T做技術儲備。從而為于高性能光纖光纜和高密度連接器提供了巨大舞臺。

      數據中心建設者需要仔細考慮其AI集群使用哪些光收發器和光纜才能最大限度地降低成本和功耗。光纖連接的總成本中,主要成本集中在收發器上。使用并行光纖的收發器的優勢在于,它們不需要使用光復用器和解復用器進行波分復用(WDM),這降低了收發器的成本和功耗。收發器節省下的費用遠遠抵消了多芯光纖取代雙工光纜所略微增加的成本。例如,需要8芯光纖的400G-DR4收發器比采用雙工(2芯)光纖的400G-FR4收發器更具成本效益。

      高速多模收發器的功耗比單模收發器少一兩瓦。舉例來說,NVIDIA的典型集群中,單個AI集群具有768個收發器,使用多模光纖的設置將節省高達1.5KW功率。與每個DGXH100消耗的10KW相比,這似乎微不足道,但對于AI集群來說,任何降低功耗的機會都將受到歡迎。任何能夠節省功耗的機會都可以大幅降低訓練成本和運營支出。

      IEEE802.3db將一種新的多模收發器確立為標準,名為VR(超短距離)。該應用針對的是AI集群的列內布線,最大覆蓋范圍為50米。這些收發器有可能最大程度地降低AI連接的成本和功耗。

      另外,許多AI/ML(機器學習)集群使用有源光纜(AOC)來互聯GPU和交換機。有源光纜是兩端集成了光發射器和接收器的光纜。大多數AOC適用于短距離,通常采用多模光纖。AOC的缺點是它們不具備分離式可插拔收發器所擁有的靈活性。安裝AOC是一項耗時的高難度任務,因為布線時必須連帶著收發器,需要做好保護;正確安裝帶有扇出功能(分支功能)的AOC更具有挑戰性。據第三方機構的歷史統計,AOC的故障率是同等可插拔收發器的兩倍;當AOC發生故障時,必須通過機房空間來敷設新的AOC,這會占用數據中心運行時間;當需要升級網絡鏈路時,必須拆除整條舊AOC并更換為新的AOC。隨著800G之后,可能CPO技術的商業化,AOC的應用會逐步減少,取而代之的是采用更標準化和結構化的光纖布線系統。

      六、結論

      AI/ML已經到來,它會成為個人、企業和設備之間交互不可或缺的重要一環。雖然用戶可以操作手中的設備來使用AI服務,但這離不開大規模的數據中心基礎設施和各方面的支持,企業只有快速高效地訓練AI才能在快速變化、高度互聯的世界中擁有顯著優勢。仔細考慮AI集群的布線將有助于節省成本、功耗和安裝時間,合理的光纖布線將使企業能夠充分受益于人工智能。今天投資部署先進的光纖基礎設施來推動AI訓練和推理,未來將獲得更多令人驚喜的成果。

      編輯:Harris

      機房360微信公眾號訂閱
      掃一掃,訂閱更多數據中心資訊

      本文地址:http://www.thatfreebiesite.com/news/2023128/n7317155045.html 網友評論: 閱讀次數:
      版權聲明:凡本站原創文章,未經授權,禁止轉載,否則追究法律責任。
      轉載聲明:凡注明來源的文章其內容和圖片均為網上轉載,非商業用途,如有侵權請告知,會刪除。
      相關評論
      正在加載評論列表...
      評論表單加載中...
      • 我要分享
      推薦圖片
      片源丰富、内容全面_亚洲A∨综合色区无码一区_亚洲91在线_精品国产在天天线在线