成人免费av在线,亚洲免费观看高清完整版在线观看,国产精品偷伦视频免费观看国产

人工智能數(shù)據(jù)中心的關(guān)鍵布線注意事項(xiàng)

近年來(lái)，人工智能 (AI) 領(lǐng)域發(fā)生了巨大變化，突破了技術(shù)所能實(shí)現(xiàn)的界限，并改變了支持該技術(shù)所需的基礎(chǔ)設(shè)施。這種轉(zhuǎn)變的一個(gè)關(guān)鍵方面是 AI 數(shù)據(jù)中心的架構(gòu)，它必須適應(yīng) AI 計(jì)算的獨(dú)特需求。本文深入探討了康普對(duì) AI 數(shù)據(jù)中心的布線考慮，探討了優(yōu)化性能和效率所必需的挑戰(zhàn)和最佳實(shí)踐。

向 AI 驅(qū)動(dòng)的數(shù)據(jù)中心轉(zhuǎn)變

AI 技術(shù)的普及，以 DALL-E 2 和 ChatGPT 等創(chuàng)新為代表，極大地影響了公眾對(duì) AI 的看法和期望。隨著這些技術(shù)對(duì)各個(gè)行業(yè)越來(lái)越不可或缺，支持它們的基礎(chǔ)設(shè)施也必須不斷發(fā)展。AI 現(xiàn)在是數(shù)據(jù)中心增長(zhǎng)的主要驅(qū)動(dòng)力，因此需要改變這些中心的設(shè)計(jì)和運(yùn)營(yíng)方式。

AI 計(jì)算嚴(yán)重依賴于圖形處理單元 (GPU)，它們專門(mén)用于并行處理。訓(xùn)練和運(yùn)行 AI 模型所需的處理能力通常超出單臺(tái)機(jī)器的能力，因此需要在服務(wù)器和機(jī)架之間互連多個(gè) GPU。這種設(shè)置在數(shù)據(jù)中心內(nèi)形成 AI 集群，帶來(lái)了獨(dú)特的布線挑戰(zhàn)和機(jī)遇。

架構(gòu)差異：AI 與傳統(tǒng)數(shù)據(jù)中心

傳統(tǒng)數(shù)據(jù)中心，尤其是超大規(guī)模設(shè)施，通常采用折疊式 Clos 架構(gòu)，也稱為“葉脊”架構(gòu)。在這種設(shè)置中，服務(wù)器機(jī)架連接到架頂式 (ToR) 交換機(jī)，然后通過(guò)光纖電纜連接到葉交換機(jī)。然而，AI 集群需要采用不同的方法，因?yàn)樗鼈儗?duì)服務(wù)器之間的連接要求更高，并且 GPU 服務(wù)器會(huì)產(chǎn)生大量電力和熱量。

報(bào)告中概述道：“GPU 服務(wù)器需要更多的服務(wù)器間連接，但由于功率和熱量限制，每個(gè)機(jī)架的服務(wù)器數(shù)量通常較少。因此，與傳統(tǒng)架構(gòu)相比，AI 數(shù)據(jù)中心架構(gòu)中的機(jī)架間布線更多。”這種布線復(fù)雜性的增加對(duì)于支持 AI 工作負(fù)載所需的更高數(shù)據(jù)傳輸速率是必要的，這些工作負(fù)載的傳輸速率范圍從 100G 到 400G，而銅纜無(wú)法支持這些傳輸距離。

實(shí)際示例：NVIDIA 的 AI 數(shù)據(jù)中心架構(gòu)

AI 硬件領(lǐng)域的領(lǐng)導(dǎo)者 NVIDIA 提供了 AI 數(shù)據(jù)中心架構(gòu)的一個(gè)典型示例。他們最新的 GPU 服務(wù)器 DGX H100 具有多個(gè)高速光纖端口用于連接。單個(gè) DGX SuperPOD（包含 32 臺(tái) GPU 服務(wù)器的集群）需要 384x400G 光纖鏈路用于交換結(jié)構(gòu)和存儲(chǔ)，以及 64 條銅纜鏈路用于管理。與傳統(tǒng)數(shù)據(jù)中心架構(gòu)相比，此設(shè)置說(shuō)明了光纖鏈路的大幅增加。

最大限度地減少 AI 集群中的延遲

延遲是 AI 和機(jī)器學(xué)習(xí) (ML) 算法中的一個(gè)關(guān)鍵因素，運(yùn)行大型訓(xùn)練模型所需的大部分時(shí)間都?xì)w因于網(wǎng)絡(luò)延遲。正如報(bào)告中所述，“一項(xiàng)估計(jì)聲稱，運(yùn)行大型訓(xùn)練模型的 30% 的時(shí)間花在網(wǎng)絡(luò)延遲上，70% 的時(shí)間花在計(jì)算時(shí)間上。”為了最大限度地減少延遲，AI 集群旨在讓 GPU 服務(wù)器保持緊密距離，幾乎所有鏈接都限制在 100 米范圍內(nèi)。

然而，并非所有數(shù)據(jù)中心都能適應(yīng)這種配置，尤其是功率容量較低的老舊設(shè)施。這些中心可能需要將 GPU 機(jī)架隔開(kāi)，這進(jìn)一步增加了布線要求。

選擇合適的收發(fā)器和光纖電纜

選擇合適的光收發(fā)器和光纖電纜對(duì)于成本和功率效率至關(guān)重要。該報(bào)告強(qiáng)調(diào)了并行光學(xué)的優(yōu)勢(shì)，它不需要波分復(fù)用 (WDM) 中使用的光復(fù)用器和解復(fù)用器。例如，帶有八光纖電纜的 400G-DR4 收發(fā)器比 400G-FR4 收發(fā)器更具成本效益。

此外，單模和多模光纖之間的選擇受成本和功率考慮的影響。雖然單模收發(fā)器變得更實(shí)惠，但多模收發(fā)器仍然更便宜，功耗更低。這種差異可以帶來(lái)顯著的節(jié)省，特別是在具有數(shù)百個(gè)收發(fā)器的大型 AI 集群中。

有源光纜與帶光纖電纜的收發(fā)器

有源光纜 (AOC) 通常用于 AI、ML 和高性能計(jì)算 (HPC) 集群。這些電纜集成了光發(fā)射器和接收器，提供一體化解決方案。然而，AOC 缺乏獨(dú)立收發(fā)器和光纖電纜的靈活性，因此不太適合未來(lái)的升級(jí)，而且更容易出現(xiàn)故障。

報(bào)告總結(jié)道：“仔細(xì)考慮 AI 集群布線將有助于節(jié)省成本、電力和安裝時(shí)間，使組織能夠充分受益于 AI。” 通過(guò)滿足 AI 數(shù)據(jù)中心獨(dú)特的布線需求，運(yùn)營(yíng)商可以確保其設(shè)施能夠滿足當(dāng)前和未來(lái) AI 工作負(fù)載的需求。

隨著 AI 繼續(xù)推動(dòng)數(shù)據(jù)中心的增長(zhǎng)，這些設(shè)施的架構(gòu)和布線必須不斷發(fā)展以應(yīng)對(duì)新的挑戰(zhàn)。通過(guò)采用最佳實(shí)踐和優(yōu)化布線基礎(chǔ)設(shè)施，數(shù)據(jù)中心可以提高性能、降低成本并支持下一代 AI 創(chuàng)新。