5 月 30 日,華為宣布推出參數規模高達 7180 億的全新模型盤古 Ultra MoE,這是一個全流程在昇騰 AI 計算平臺上訓練的準萬億 MoE 模型。據悉,盤古團隊提出 Depth-Scaled Sandwich-Norm(DSSN)穩定架構和 TinyInit 小初始化的方法,在昇騰平臺上實現了超過 18TB 數據的長期穩定訓練。在訓練方法上,華為團隊首次披露在昇騰 CloudMatrix 384 超節點上打通大稀疏比 MoE 強化學習(RL)后訓練框架的關鍵技術,使 RL 后訓練進入超節點集群時代。
動點科技
前天