人工智能數(shù)據(jù)中心的關(guān)鍵布線注意事項(xiàng)

2024-8-10 / 0 評(píng)論 / 949 閱讀

人工智能數(shù)據(jù)中心的關(guān)鍵布線注意事項(xiàng)

近年來(lái),人工智能 (AI) 領(lǐng)域發(fā)生了巨大變化,突破了技術(shù)所能實(shí)現(xiàn)的界限,并改變了支持該技術(shù)所需的基礎(chǔ)設(shè)施。這種轉(zhuǎn)變的一個(gè)關(guān)鍵方面是 AI 數(shù)據(jù)中心的架構(gòu),它必須適應(yīng) AI 計(jì)算的獨(dú)特需求。本文深入探討了康普對(duì) AI 數(shù)據(jù)中心的布線考慮,探討了優(yōu)化性能和效率所必需的挑戰(zhàn)和最佳實(shí)踐。

向 AI 驅(qū)動(dòng)的數(shù)據(jù)中心轉(zhuǎn)變

AI 技術(shù)的普及,以 DALL-E 2 和 ChatGPT 等創(chuàng)新為代表,極大地影響了公眾對(duì) AI 的看法和期望。隨著這些技術(shù)對(duì)各個(gè)行業(yè)越來(lái)越不可或缺,支持它們的基礎(chǔ)設(shè)施也必須不斷發(fā)展。AI 現(xiàn)在是數(shù)據(jù)中心增長(zhǎng)的主要驅(qū)動(dòng)力,因此需要改變這些中心的設(shè)計(jì)和運(yùn)營(yíng)方式。

AI 計(jì)算嚴(yán)重依賴于圖形處理單元 (GPU),它們專門(mén)用于并行處理。訓(xùn)練和運(yùn)行 AI 模型所需的處理能力通常超出單臺(tái)機(jī)器的能力,因此需要在服務(wù)器和機(jī)架之間互連多個(gè) GPU。這種設(shè)置在數(shù)據(jù)中心內(nèi)形成 AI 集群,帶來(lái)了獨(dú)特的布線挑戰(zhàn)和機(jī)遇。

架構(gòu)差異:AI 與傳統(tǒng)數(shù)據(jù)中心

傳統(tǒng)數(shù)據(jù)中心,尤其是超大規(guī)模設(shè)施,通常采用折疊式 Clos 架構(gòu),也稱為“葉脊”架構(gòu)。在這種設(shè)置中,服務(wù)器機(jī)架連接到架頂式 (ToR) 交換機(jī),然后通過(guò)光纖電纜連接到葉交換機(jī)。然而,AI 集群需要采用不同的方法,因?yàn)樗鼈儗?duì)服務(wù)器之間的連接要求更高,并且 GPU 服務(wù)器會(huì)產(chǎn)生大量電力和熱量。

報(bào)告中概述道:“GPU 服務(wù)器需要更多的服務(wù)器間連接,但由于功率和熱量限制,每個(gè)機(jī)架的服務(wù)器數(shù)量通常較少。因此,與傳統(tǒng)架構(gòu)相比,AI 數(shù)據(jù)中心架構(gòu)中的機(jī)架間布線更多。”這種布線復(fù)雜性的增加對(duì)于支持 AI 工作負(fù)載所需的更高數(shù)據(jù)傳輸速率是必要的,這些工作負(fù)載的傳輸速率范圍從 100G 到 400G,而銅纜無(wú)法支持這些傳輸距離。

實(shí)際示例:NVIDIA 的 AI 數(shù)據(jù)中心架構(gòu)

AI 硬件領(lǐng)域的領(lǐng)導(dǎo)者 NVIDIA 提供了 AI 數(shù)據(jù)中心架構(gòu)的一個(gè)典型示例。他們最新的 GPU 服務(wù)器 DGX H100 具有多個(gè)高速光纖端口用于連接。單個(gè) DGX SuperPOD(包含 32 臺(tái) GPU 服務(wù)器的集群)需要 384x400G 光纖鏈路用于交換結(jié)構(gòu)和存儲(chǔ),以及 64 條銅纜鏈路用于管理。與傳統(tǒng)數(shù)據(jù)中心架構(gòu)相比,此設(shè)置說(shuō)明了光纖鏈路的大幅增加。

最大限度地減少 AI 集群中的延遲

延遲是 AI 和機(jī)器學(xué)習(xí) (ML) 算法中的一個(gè)關(guān)鍵因素,運(yùn)行大型訓(xùn)練模型所需的大部分時(shí)間都?xì)w因于網(wǎng)絡(luò)延遲。正如報(bào)告中所述,“一項(xiàng)估計(jì)聲稱,運(yùn)行大型訓(xùn)練模型的 30% 的時(shí)間花在網(wǎng)絡(luò)延遲上,70% 的時(shí)間花在計(jì)算時(shí)間上。”為了最大限度地減少延遲,AI 集群旨在讓 GPU 服務(wù)器保持緊密距離,幾乎所有鏈接都限制在 100 米范圍內(nèi)。

然而,并非所有數(shù)據(jù)中心都能適應(yīng)這種配置,尤其是功率容量較低的老舊設(shè)施。這些中心可能需要將 GPU 機(jī)架隔開(kāi),這進(jìn)一步增加了布線要求。

選擇合適的收發(fā)器和光纖電纜

選擇合適的光收發(fā)器和光纖電纜對(duì)于成本和功率效率至關(guān)重要。該報(bào)告強(qiáng)調(diào)了并行光學(xué)的優(yōu)勢(shì),它不需要波分復(fù)用 (WDM) 中使用的光復(fù)用器和解復(fù)用器。例如,帶有八光纖電纜的 400G-DR4 收發(fā)器比 400G-FR4 收發(fā)器更具成本效益。

此外,單模和多模光纖之間的選擇受成本和功率考慮的影響。雖然單模收發(fā)器變得更實(shí)惠,但多模收發(fā)器仍然更便宜,功耗更低。這種差異可以帶來(lái)顯著的節(jié)省,特別是在具有數(shù)百個(gè)收發(fā)器的大型 AI 集群中。

有源光纜與帶光纖電纜的收發(fā)器

有源光纜 (AOC) 通常用于 AI、ML 和高性能計(jì)算 (HPC) 集群。這些電纜集成了光發(fā)射器和接收器,提供一體化解決方案。然而,AOC 缺乏獨(dú)立收發(fā)器和光纖電纜的靈活性,因此不太適合未來(lái)的升級(jí),而且更容易出現(xiàn)故障。

報(bào)告總結(jié)道:“仔細(xì)考慮 AI 集群布線將有助于節(jié)省成本、電力和安裝時(shí)間,使組織能夠充分受益于 AI。” 通過(guò)滿足 AI 數(shù)據(jù)中心獨(dú)特的布線需求,運(yùn)營(yíng)商可以確保其設(shè)施能夠滿足當(dāng)前和未來(lái) AI 工作負(fù)載的需求。

隨著 AI 繼續(xù)推動(dòng)數(shù)據(jù)中心的增長(zhǎng),這些設(shè)施的架構(gòu)和布線必須不斷發(fā)展以應(yīng)對(duì)新的挑戰(zhàn)。 通過(guò)采用最佳實(shí)踐和優(yōu)化布線基礎(chǔ)設(shè)施,數(shù)據(jù)中心可以提高性能、降低成本并支持下一代 AI 創(chuàng)新。

作者:Tom Raynel

評(píng)論一下?

OωO
取消
主站蜘蛛池模板: 日韩AV无码中文无码不卡电影| 伊人久久一区二区三区无码| 波多野结衣VA无码中文字幕电影 | 国产精品三级在线观看无码| 久久午夜无码鲁丝片秋霞 | 中文字幕无码第1页| 无码里番纯肉h在线网站| 自慰无码一区二区三区| 国产精品成人一区无码| 亚洲综合无码无在线观看| 曰韩精品无码一区二区三区 | 无码日韩AV一区二区三区| 亚洲AV无码久久精品成人| 五月婷婷无码观看| 无码少妇A片一区二区三区| 久久久久亚洲av无码专区蜜芽| 日日摸日日碰人妻无码| 亚洲av无码兔费综合| 免费看又黄又无码的网站| 亚洲av无码不卡| 亚洲日韩中文无码久久| 中文无码vs无码人妻| 小12箩利洗澡无码视频网站| 无遮掩无码h成人av动漫| 中文午夜人妻无码看片| 久久人妻少妇嫩草AV无码专区 | 无码中文av有码中文a| 亚洲国产av高清无码| 日韩人妻无码一区二区三区久久| 一本大道东京热无码一区| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 亚洲av无码一区二区三区网站 | 国产成人亚洲综合无码| 免费A级毛片无码免费视| 亚洲最大无码中文字幕| 无码日韩精品一区二区免费| 67194成是人免费无码| 无码国模国产在线无码精品国产自在久国产 | 国产仑乱无码内谢| 最新国产精品无码| 亚洲AV日韩AV永久无码下载|