久久av网址,日韩不卡手机在线v区,亚洲精品国模,性欧美xxxx免费岛国不卡电影

首頁 > 人才就業 > 人才就業 > 小米AI新論文!雷軍千萬年薪要挖的DeepSeek天才少女署名

小米AI新論文!雷軍千萬年薪要挖的DeepSeek天才少女署名

發布時間:2025-10-17 21:09:53

10月14日,小米和北京大學聯合署名的論文發表于arXiv,曾被曝獲小米集團創始人兼CEO雷軍以千萬年薪招募的DeepSeek“天才少女”羅福莉,出現在了這篇論文的通訊作者之列,但值得注意的是,論文作者中并沒有標注羅福莉屬于小米大模型團隊

通訊作者中的羅福莉是95后,她本科就讀于北京師范大學計算機專業,碩士畢業于北京大學計算語言學研究所計算語言學專業。隨后羅福莉曾在阿里巴巴達摩院主導開發了多語言預訓練模型VECO,并推動了AliceMind的開源工作,2022年入職DeepSeek,參與了MoE大模型DeepSeek-V2的研發。去年年底,小米被曝以千萬年薪挖角DeepSeek-V2核心開發者之一羅福莉,使其沖上熱搜,但雙方至今都未公開聲明是否正式入職小米。

DeepSeek“天才少女”羅福莉(圖源:羅福莉個人公眾號)

這篇論文提出了提升MoE模型強化學習訓練的新方法Rollout Routing Replay(R3)。實驗結果證明,R3的整體性能優于GRPO、TIS這類強化學習領域提升模型性能的優化算法,且引入R3的所有組合方法全過程無崩盤,訓練過程中訓練-推理KL散度等始終較低,在不影響訓練速度的情況下,使得極端token比例減少一個量級。

當下,強化學習(RL)已成為提升大語言模型能力的關鍵方法。然而,在MoE模型中,路由機制往往會引入不穩定性,甚至導致強化學習訓練崩潰,但現有的引入重要性采樣機制等并不能提升訓練穩定性。不同于此前采取諸如丟棄差異較大的數據之類的變通方法,這篇論文的研究人員希望通過解決路由分布也就是R3來根本性解決這個問題。

論文地址:https://arxiv.org/pdf/2510.11370

一、破解強化學習崩潰的關鍵方法,小米團隊提出R3

強化學習已成為大語言模型后期訓練的基石,利用大規模強化學習,大模型更深入、更廣泛推理,獲得解決復雜問題所需的高級能力,但其面臨的關鍵挑戰是如何平衡效率和穩定性。

現代強化學習框架通常使用不同的引擎進行推理和訓練用于部署,但這種架構上的分離可能導致token概率出現分歧,甚至可能導致災難性的強化學習崩潰。然而,現有的改進方法并不能完全解決MoE模型上進行強化學習訓練時出現的強化學習離線策略問題。

研究人員提出的R3,其工作原理是在序列生成期間從推理引擎捕獲路由分布,并將其直接重放到訓練引擎中。這一過程可以縮小訓練和推理之間的差距,其顯著特征是不同引擎生成的邏輯向量的KL散度(量化兩個概率分布之間的差異程度,值越小說明兩個分布越接近)顯著降低,兩個階段之間概率差異顯著的token數量減少了大約一個數量級。

此外,該方法同時適用于在線策略(on-policy)和小批量(mini-batch)式離線策略強化學習(off-policy)場景。

論文提到了研究團隊的三大主要貢獻:

1、系統識別和分析了MoE模型中訓練和推理之間的路由分布差異,強調了它們在訓練不穩定性中的作用;

2、提出Rollout Routing Replay,它重用訓練引擎內部的推理時間路由分布,以協調訓練和推理之間的路由行為;

3、將R3應用于多種RL設置進行MoE強化學習,并表明R3在穩定性和整體性能方面優于GSPO和TIS。

二、可顯著縮小訓練-推理差異,對Agent任務大有裨益

R3的主要思路是在訓練前向傳播過程中重用推理路由掩碼I,同時仍將softmax應用于訓練邏輯以保持梯度流。

這種設計主要有兩個目的:一是對齊訓練和推理,確保訓練重放期間使用的專家與推理期間選擇的專家相匹配,從而消除專家選擇中的不匹配;二是保留梯度數據流,通過僅重放掩碼,梯度仍然可以流回logits而不會干擾計算圖,這有助于有效地優化路由器。

重放門控權重、重放輸出y的計算方式

具體來看,R3在效率優化上,通過路由掩碼緩存(Router Mask Caching)適配多輪對話場景,降低計算開銷

其論文提到,緩存的路由掩碼具有相似的屬性,對于相同的前綴token,MoE路由器應該產生相同的結果,因此來自推理引擎的路由掩碼可以與前綴KVCache一起緩存。

對于每個層和token前綴,相應的路由掩碼都存儲在KVCache中。當相同的前綴出現并命中緩存時,這些掩碼可以被重用,從而無需重新計算,這使得R3能夠與前綴緩存機制無縫集成。

研究人員稱,緩存路由掩碼在Agent場景中有較大應用空間。例如軟件工程和網頁瀏覽等Agent任務,都涉及自回歸生成和工具調用之間的多輪交互,為了提高效率,這些過程直接重用了前幾輪的KVCache,因此無需重新生成已計算的數據。路由掩碼緩存使R3能夠在強化學習代理任務中保持高效,而無需重新預填充以生成路由掩碼。

為了證明R3在縮小訓練-推理差異上的有效性,研究人員使用Qwen3-30B-A3B模型進行了驗證,其將推理過程中獲得的路由分布緩存在SGLang上,并在Megatron框架內重放它們。

使用Megatron進行兩次前向傳播獲得的概率

結果表明,應用R3后,訓練和推理之間的KL散度從1.5×10?³減小到7.5×10??,接近于稠密模型的6.4×10??水平,這表明其訓練-推理差異減少。

研究人員還繪制了使用R3的訓練-推理差異比率的累積分布圖,對于MoE模型,應用R3可將具有較大訓練推理差異的token的頻率降低一個數量級。

a、MoE模型中訓練-推理差異的說明,b、MoE+R3模型中訓練-推理差異的說明,c、稠密模型中訓練-推理差異的說明,d、極端token分布函數

三、實測三大能力提升:整體性能、訓練穩定、優化生成行為

為了評估R3對強化學習的性能改進,研究人員從BigMath、ORZ等開源數據集篩選約10萬道可驗證數學題,采用AIME24、AIME25、AMC23和MATH500作為基準數據集進行評估,并在單次訓練過程中每5個全局步驟測量一次模型性能。

其選擇的模型是Qwen3-30B-A3B-Base及其微調模型Qwen3-30B-A3B-SFT。

評估方式是每5個全局步驟記錄模型性能,最終報告最佳性能及對應訓練步驟,若模型后期性能驟降,同時追蹤訓練崩盤步驟”。

實驗結果表明,整體性能上,R3在多步更新場景,GRPO+R3平均得分68.05分,比GSPO高出1.29分;GSPO+R3進一步提升至69.00,比單獨GSPO高2.24分。

單步更新場景,SFT模型上,GRPO+R3平均得分71.83分,比GRPO(62.23)高9.6分,比GRPO+TIS(66.24)高5.59分;Base模型上,GRPO+R3平均得分70.73,比GRPO(61.69)高9.04分。

主要評估結果

研究人員還發現,將R3與TIS結合使用并不能帶來明顯的性能提升,甚至可能降低性能,例如在SFT模型的單小步設置下,TIS+R3的得分比單獨使用R3低1.69分。由于R3已經顯著降低了訓練和推理之間的策略差異,因此TIS的額外校正效果微乎其微。

訓練穩定性方面:如GRPO、GRPO+TIS等無R3的方法在單步更新場景中均出現崩盤,GRPO在60步崩盤、GRPO+TIS在105步崩盤。

引入R3后,所有組合方法均無崩盤,且訓練過程中訓練-推理KL散度等始終較低。

多步更新訓練-推理崩潰分析

優化與生成行為方面,在訓練過程中,R3還能增強優化穩定性、探索行為和生成動態。下圖是研究人員繪制的單步+基礎模型組訓練過程中的序列長度、梯度范數、生成熵和評估分數。

wen3-30B-A3B-Base訓練動態

結果顯示,R3具有更小的梯度范數、更平滑的序列增長模式和更穩定的熵。實驗中使用R3時,生成的序列長度在訓練開始時迅速上升,表明R3能夠快速捕捉到正確的優化方向,相比之下其他兩個訓練過程在第80步之后才緩慢上升,并且波動更為明顯;R3始終保持較低的梯度范數,表明優化過程更加穩定;實驗使用R3時,熵在大約第25步后開始穩步上升,表明模型更早地開始探索更優策略,不使用R3時,熵上升得更晚,并且波動較大。

結語:聚焦MoE模型訓練難題,小米提出新思路

MoE架構如今已成為擴展現代語言模型的基石,其采用門控網絡,對每個token稀疏地僅激活一部分專家參數,從而將模型的總參數數量與其推理成本分離開來,從而大幅提升了模型容量。然而,由于門控網絡的敏感性,MoE模型容易受到訓練不穩定性的影響,這使得路由穩健性成為有效模型收斂的核心挑戰。

在這篇論文中,研究人員在訓練過程中重用推理時的路由分布,以在保留梯度流的同時對齊專家選擇。這種思路或為行業提供了新的研究思路。

人才就業更多>>

奕派科技在開年首月實現銷量2.1萬輛,較去年同期大幅增長145%,成為當月增速最為迅猛的品牌之一 智元機器人在米蘭完成歐洲首秀,宣布進軍意大利 嵐圖汽車2026年1月交付數據出爐,單月銷量達10515輛,較去年同期增長31% 零跑汽車公布最新交付數據:1月,零跑全系交付32059臺,同比增長27% 勞斯萊斯首款純電SUV諜照 或于2026年發布 12月汽車行業利潤率跌破2%;理想汽車回應調整研發架構 奔馳經銷商承壓,工商聯三次致函要求整改 豐田2025年第四季度在日EV銷量首超日產 自主五車躋身燃油前十,海鷗52.9萬+領跑新能源丨2025年燃油車型/新能源車型銷量榜 2025,“蔚小理零”逃離斬殺線 美團與喜車未來智能科技公司在上海簽署合作協議,正式將汽車銷售納入其本地生活服務平臺 發掘掃地機器人品類的縱深前,石頭科技面對行業壓力,其敘事重心曾試著外移 消息稱華為Mate 80單品激活150萬,逆襲成年底國產旗艦第一 全新奇瑞QQ3純電車下月發布:靈犀座艙、獵鷹500智駕 我國移動網絡IPv6流量占比突破70%,多項關鍵指標位居世界首位 華為:不會用非車規級的芯片 也不會用低質量的器件 福特戰略掉頭!擁抱中國比亞迪,棄用韓國LG “到世界找敦煌——敦煌流散海外文物復制展”在和田地區博物館開展 郎卡杰唐卡創新藝術展亮相中國非遺館 呈現“紅色+非遺”實踐 “呂”音繞梁 “藝”臺好戲 唱響鄉村文化振興新篇章 馬斯克也服了?特斯拉開始測試華為鴻蒙數字車鑰匙了 最新手機芯片GPU跑分:聯發科首次超高通,小米3nm芯排第5 年終效率神器,華為MatePad Air 2025款助你輕松收官 大賺95億!拼了8年,虧了400多億后,中國內存殺到全球第4了 雷軍揚眉吐氣:SU7是20萬以上轎車第一,YU7是中大型SUV第一 馬斯克押注自動駕駛與機器人技術解鎖萬億薪酬 對標馬斯克!Rivian為CEO定制46億美元十年天價薪酬合約 嵐圖泰山下線,標志著東風汽車新能源轉型及沖刺年度新能源100萬銷量目標迎來重要節點 外資的新出路,學會當“配角”? 因電動車需求疲軟,豐田再次推遲電池工廠建設
久久av网址,日韩不卡手机在线v区,亚洲精品国模,性欧美xxxx免费岛国不卡电影
久久精品免费看| 日韩高清成人在线| 亚洲久久在线| 国产精品99久久精品| 在线视频免费在线观看一区二区| 国产精品久久久久久妇女| 午夜影院欧美| 国产专区精品| 天堂va在线高清一区| 久久青草久久| 国产精品videossex久久发布| 狠狠操综合网| 精品视频97| 日本亚洲欧洲无免费码在线| 岛国av在线播放| 日本在线不卡视频一二三区| 91精品国产乱码久久久久久久| 国产日韩欧美一区二区三区| 亚洲免费高清| 日韩欧美一区二区三区免费看| 国产一卡不卡| 综合国产在线| 婷婷亚洲综合| 日本不卡免费高清视频在线| 国产精品视频3p| 四虎精品一区二区免费| 激情久久五月| 日韩精品不卡一区二区| 欧美交a欧美精品喷水| 亚洲图片久久| 不卡av一区二区| 中文在线免费视频| 久久中文字幕一区二区三区| 亚洲日产av中文字幕| 亚洲激情五月| 成人精品中文字幕| 精品国产日韩欧美精品国产欧美日韩一区二区三区 | 日韩久久精品网| 国产精品久久久一区二区| 日韩中文字幕无砖| 亚洲一区不卡| 婷婷亚洲五月| 99精品网站| 亚洲精品.com| 免费在线小视频| 成人国产精品| 精品午夜久久| 福利一区在线| 成人影视亚洲图片在线| 久久香蕉网站| 久久超碰99| 免费看久久久| 精品三区视频| 91免费精品| 国产+成+人+亚洲欧洲在线| 美女视频黄 久久| 国产精品xvideos88| 日韩精彩视频在线观看| 免费国产亚洲视频| 日韩制服丝袜先锋影音| 视频一区视频二区在线观看| 国产精品日本| 国产视频一区免费看| 在线亚洲自拍| 美女久久一区| 亚洲91在线| 青青草精品视频| 国产伦精品一区二区三区千人斩| 国产欧美激情| 久久久精品区| 国产不卡人人| 色婷婷狠狠五月综合天色拍| 欧美在线观看视频一区| 国产99精品| 99在线|亚洲一区二区| 国产亚洲欧洲| 日本不卡视频在线| 国产欧美亚洲一区| 免费视频一区二区三区在线观看| 国产精品日本一区二区不卡视频| 久久久国产精品网站| 国产成年精品| 久久国产日韩| 免费日韩一区二区| 日韩av一区二| 久久精品国产99国产| 日韩久久精品网| 欧美另类综合| 视频一区二区三区中文字幕| 亚洲男人在线| 国产精品videosex极品| 黄色aa久久| 亚洲成人三区| 亚洲啊v在线免费视频| 欧美1区2区3| 日本精品影院| 视频一区国产视频| 国产乱码精品一区二区三区亚洲人| 精品一区91| 亚洲一级黄色| 亚洲人成精品久久久| 你懂的网址国产 欧美| 日韩欧美二区| 老色鬼久久亚洲一区二区| 欧美片网站免费| 日本免费久久| 亚洲精品伊人| 国产成人1区| 久久av在线| 麻豆中文一区二区| 欧美日韩精品一区二区视频| 日韩一区网站| 新版的欧美在线视频| 日韩中文字幕亚洲一区二区va在线| 国产情侣久久| 亚洲午夜精品久久久久久app| 日本在线观看不卡视频| 福利精品一区| 亚洲免费影视| 欧美极品中文字幕| 狠狠色狠狠色综合日日tαg| 91麻豆精品| 99精品综合| 久久精品超碰| 欧美不卡高清| 国产精品.xx视频.xxtv| 一区三区视频| 麻豆免费精品视频| 蜜臀久久99精品久久一区二区| 日韩欧美久久| 日韩中文欧美| 国产日本亚洲| 日韩午夜电影| 另类综合日韩欧美亚洲| 欧美中文字幕| 日韩黄色大片| 国产一卡不卡| 在线视频日韩| 在线天堂中文资源最新版| 婷婷精品在线| 91精品国产91久久久久久黑人| 国产调教一区二区三区| 1024精品一区二区三区| 欧美激情一区| 麻豆9191精品国产| 捆绑调教日本一区二区三区| 亚洲精品九九| 久久五月天小说| 国产伦理久久久久久妇女| 亚洲精品一区二区妖精| 久久亚洲国产精品尤物| 亚洲精品婷婷| 国产尤物精品| 黄色网一区二区| 青青国产91久久久久久| 欧美91精品| av免费不卡国产观看| 欧美在线91| 中文一区二区| 国产麻豆久久| 久久精品国内一区二区三区| 香蕉久久久久久| 激情偷拍久久| 国产66精品| 国产精品s色| 亚洲欧美网站在线观看| 亚洲成人日韩| 日韩一区二区三区免费| 精品一区电影| 国产伦精品一区二区三区千人斩| 蜜臀av亚洲一区中文字幕| 久久久久久久久久久9不雅视频| 国产精品色在线网站| 亚洲精品九九| 亚洲免费网址| 黑丝一区二区三区| 99精品美女| av高清一区| 精品欠久久久中文字幕加勒比| 日本精品一区二区三区在线观看视频| 婷婷丁香综合| 久久高清免费| 日韩免费高清| 日韩电影在线视频| 国产传媒在线| 国产福利片在线观看| 国产一区二区三区黄网站| 欧美激情aⅴ一区二区三区 | 视频一区二区国产| 亚洲女同中文字幕| 国产在线成人| 91tv亚洲精品香蕉国产一区| 成人午夜在线| 国产一区二区三区不卡av| 国产精品美女在线观看直播| 国产欧美日韩一区二区三区四区 | 精品一区在线| 自拍日韩欧美| 亚洲专区一区| 制服诱惑一区二区|