作為業(yè)內領先的社區(qū)平臺,小紅書始終致力于AI技術創(chuàng)新與應用,將AIGC深度融入內容推薦與智能創(chuàng)作場景,自2023年起基礎網絡團隊積極布局高性能網絡方案,探索創(chuàng)新的智算網絡架構,為大模型應用提供強有力的基礎設施支撐。
近日,國內領先的社區(qū)平臺小紅書攜手紫光股份旗下新華三集團,率先完成了國內首個基于DDC架構的智算網絡規(guī)?;炞C。本次驗證主要針對網絡帶寬和響應延遲性能、集合通信能力以及系統(tǒng)容災水平等維度展開,測試表現效果優(yōu)異,充分展現了DDC架構在支持大模型訓練和高性能AI算力網絡方面的技術優(yōu)勢,能夠為小紅書的AI業(yè)務創(chuàng)新提供高性能基礎設施支撐。
隨著大模型快速發(fā)展,智算網絡正面臨機間通信占比激增帶來的擁塞風險、低時延與高吞吐雙重壓力、以及動態(tài)流量模式導致傳統(tǒng)調優(yōu)失效三大主要挑戰(zhàn)。對此,新華三集團依托多年技術積累,重新定義DDC架構(Diversified Dynamic-Connectivity,多元動態(tài)聯接),推出新一代無損網絡解決方案并攜手小紅書率先在實際業(yè)務場景中完成規(guī)模化驗證。
針對此次規(guī)?;炞C,小紅書基礎網絡負責人程俊峰表示:“小紅書始終堅持網絡的開放性,將持續(xù)探索基于開放以太網的高性能網絡方案。此次與新華三聯合測試基于DDC架構的智算網絡方案,不僅驗證了新一代網絡架構的技術可行性,也為小紅書后續(xù)開展大模型訓練網絡優(yōu)化等創(chuàng)新性研究奠定了堅實基礎。該方案在先進性與普適性之間取得了良好平衡,為行業(yè)提供了高性能、低成本且易部署的網絡新選擇。”
DDC架構實現全局負載均衡與高速AI通信
DDC架構采用分布式設計,通過信元交換技術實現網絡100%負載均衡,并結合VOQ+Credit智能流量調度,實現訓練集群的無阻塞轉發(fā)和極速通信。該架構首次將信元交換與以太網協(xié)議融合,構建以太網原生的全局調度能力,實現端側完全解耦,兼容主流GPU廠商,并順應國產GPU趨勢,充分釋放硬件性能。此外,網絡具備免調參能力,大幅降低運維和部署復雜度。DDC架構還全面適配All-Reduce、All-to-All等主流集合通信,為Dense、MoE等大模型提供穩(wěn)定高效支撐,并保持對未來新興訓練范式的前瞻兼容性。
新華三集團高級副總裁、網絡產品線總裁喬剡表示:“我們很高興與小紅書合作完成DDC架構的規(guī)?;涞亍P氯A三一直致力于智算網絡技術的創(chuàng)新突破,DDC架構是我們面向AI大模型時代推出的革命性網絡解決方案。測試結果充分證明了DDC在性能、免調優(yōu)和運營成本等方面的綜合優(yōu)勢,這為大規(guī)模智算中心建設提供了新的選擇。我們期待與小紅書繼續(xù)深化合作,共同推動AI基礎設施的創(chuàng)新與發(fā)展,助力中國大模型生態(tài)繁榮。”
規(guī)?;炞C
DDC智算網絡高效、穩(wěn)定、免調參
在測試階段,雙方團隊根據小紅書智算業(yè)務高并發(fā)、大流量特點,開展了帶寬和延遲基準測試、All-to-All和All-Reduce集合通信測試,以及系統(tǒng)容災測試。結果顯示:DDC架構顯著提升網絡利用率,有效避免擁塞導致的時延和抖動。All to All場景中,GPU單卡吞吐量最高可達381.83Gbps,All Reduce場景中,GPU單卡吞吐量更可達到385.98Gbps。同時,架構可快速響應多種硬件故障,智能調度帶寬資源,實現即插即用和“網絡內免調參”,顯著簡化運維工作。
上線測試基于已部署完畢的DDC智算網絡集群,訓練網絡驗證環(huán)境使用了2臺NCF交換機,8臺NCP交換機,4臺GPU服務器。每臺GPU服務器配備8張卡,分別連到8臺NCP上,每臺NCP分別與兩臺NCF相連,確保每臺NCP和每臺NCF間連線數量一致,構成DDC集群。
此外,基于DDC架構的智算交換機H3C S12500AI系列也在實際部署中充分體現了其價值:它不僅提升了大規(guī)模智算網絡的負載能力,縮短了模型訓練時間,還為小紅書的AI應用提供了高效、可靠的算力基礎,推動AI與內容生態(tài)的深度融合,將大模型技術融入用戶的每一篇筆記和每一次搜索中。未來,小紅書技術團隊將與新華三集團持續(xù)深化合作,基于DDC架構的AI加速能力,在內容推薦算法優(yōu)化、智能創(chuàng)作工具開發(fā)和實時數據分析等領域共同探索,不斷提升用戶體驗和創(chuàng)作效率。
在驗收測試階段,雙方團隊通力協(xié)作。鑒于這是國內首個DDC集群落地項目,缺乏可借鑒的驗收標準。團隊以傳統(tǒng)RoCE網絡驗收方案為基礎,結合DDC實現無損網絡的技術特性,共同制定了針對性的驗收體系。通過系統(tǒng)調整集合通信庫、QP、ECN、PFC ratio、Headroom、PXN等參數,全面驗證了DDC集群的網絡性能,并基于業(yè)務場景對系統(tǒng)冗余性進行了深度測試,高效完成了DDC集群交付驗證及容災保障工作,確保集群上線和生產業(yè)務承載。首批設備上線當天即完成調試與基礎配置,為后續(xù)部署積累了標準化流程經驗,確保項目高質量如期完成。
我們相信,隨著大模型技術持續(xù)發(fā)展,這類創(chuàng)新網絡架構帶來的高性能、高開放度和免調優(yōu)特性,將成為用戶AI基礎設施建設中的網絡方案更優(yōu)選擇。
(來源:新華三)