AI算力集群正加速向萬卡、十萬卡級規(guī)模迭代,高速互連網(wǎng)絡(luò)作為算力高效釋放的“神經(jīng)樞紐”,其性能、擴展性與穩(wěn)定性直接決定集群整體效能。大規(guī)模集群組網(wǎng)需兼顧高帶寬、低延遲與無損傳輸,同時要適配算力指數(shù)級增長的擴展需求,還要控制組網(wǎng)成本與故障風(fēng)險,現(xiàn)有方案難以全面平衡這些核心訴求。
中科曙光歷經(jīng)三年攻堅推出的scaleFabric,作為國內(nèi)首款類InfiniBand原生無損RDMA高速網(wǎng)絡(luò),精準(zhǔn)直擊行業(yè)難點,為超大規(guī)模集群筑牢高效穩(wěn)定的網(wǎng)絡(luò)底座。
▍性能對標(biāo)國際主流,夯實組網(wǎng)硬實力
在技術(shù)指標(biāo)和性能層面,scaleFabric帶寬與延遲指標(biāo)對齊國際主流產(chǎn)品,交換芯片端口密度達80口400G,較同類產(chǎn)品提升25%,為scaleX萬卡超集群提供了高可擴展組網(wǎng)支撐。更關(guān)鍵的是,它沿用與IB一致的信用流控及鏈路層重傳機制,實現(xiàn)真正無損傳輸,相較RoCE網(wǎng)絡(luò)更適配超大規(guī)模智算場景,可做到即插即用,大幅降低用戶優(yōu)化成本。
▍生態(tài)兼容+擴展突破,釋放核心實用價值
在應(yīng)用生態(tài)上,scaleFabric提供原生RDMA verbs接口,完美兼容現(xiàn)有IB應(yīng)用生態(tài),讓并行計算、大模型訓(xùn)推等應(yīng)用無需修改代碼即可無縫遷移,實現(xiàn)應(yīng)用無感適配。在超大規(guī)模擴展能力上,它突破IB協(xié)議五萬卡級的局限,單子網(wǎng)支持超十萬卡擴展,通過多軌技術(shù),可實現(xiàn)百萬卡級集群部署,契合AI算力指數(shù)級增長需求,這一優(yōu)勢已在scaleX萬卡超集群中得到驗證,支撐系統(tǒng)總算力突破5EFlops。
▍自主創(chuàng)新賦能,兼顧可靠與成本優(yōu)勢
面對高端SerDes IP“卡脖子”困境,曙光自研112G PAM4高速SerDes IP,從底層保障復(fù)雜環(huán)境下的信號可靠性。針對光模塊故障痛點,研發(fā)毫秒級鏈路故障路由恢復(fù)技術(shù),且恢復(fù)時間不隨網(wǎng)絡(luò)規(guī)模增長而延長,配合數(shù)字孿生運維系統(tǒng),將集群可用性提升至99.99%。同時,依托端口密度優(yōu)勢,其組網(wǎng)成本較IB降低約30%,打破高端網(wǎng)絡(luò)高成本桎梏。
scaleFabric的發(fā)布,不僅填補了國內(nèi)原生RDMA網(wǎng)絡(luò)的技術(shù)空白,更開啟了IB網(wǎng)絡(luò)國產(chǎn)化替代的新篇章。曙光秉持開放架構(gòu)理念,向合作伙伴共享技術(shù)成果,推動產(chǎn)業(yè)鏈協(xié)同創(chuàng)新,加速我國超算與智算產(chǎn)業(yè)自主化進程。