
【導語】大語言模型(LLM)能否真正推理,業內爭論不斷。現有強化學習(RL)方法雖能提升其推理能力,但存在獎勵信號弱、數據標注成本高、難以全麵平衡訓練效果等問題。清華大學KEG團隊提出ReST-RL新範式,有效兼顧推理能力、訓練效率與通用性,為LLM強化學習提供新思路,不過該方法仍存局限,有待進一步探索。

大語言模型(LLM)真的會推理嗎?業內對此爭論不休。
這是因為,當前的 LLM 在麵對複雜代碼、多步邏輯和抽象任務時依然經常“翻車”,表現出邏輯跳躍、步驟混亂、答非所問等諸多問題。
靠人教?太慢。靠獎勵?信號太弱。靠驗證?數據太貴。如何兼顧推理能力、訓練效率與通用性,已成為業內難題。
針對這些難題,清華大學計算機科學與技術係知識工程研究室(KEG)團隊提出了一種統一的 LLM 強化學習(RL)新範式——ReST-RL。該方法通過將改進的 GRPO 算法與精心設計的由價值模型(VM)輔助的測試時解碼方法相結合,在提升 LLM 推理能力的同時,也兼顧了效率、穩定性與可拓展性。

實驗結果顯示,在 APPS、BigCodeBench 和 Humanevals 等不同級別的知名編程基準上,ReST-RL 的性能優於其他強化訓練基線(如原始 GRPO 和 ReST-DPO),以及解碼和驗證基線(如 PRM-BoN 和 ORM-MCTS)。
這表明,ReST-RL 在增強 LLM 策略的推理能力方麵潛(qián)力(lì)巨(jù)大(dà),且(qiě)為(wèi) LLM 的(de)強(qiáng)化(huà)學(xué)習(xí)路徑提(tí)供(gōng)了(le)新(xīn)思(sī)路。
現(xiàn)有(yǒu)RL方(fāng)法(fǎ)難(nán)實(shí)現(xiàn)真(zhēn)正(zhèng)推(tuī)理(lǐ)
越(yuè)來(lái)越(yuè)多(duō)的(de)研(yán)究(jiū)表(biǎo)明(míng),RL 能(néng)夠(gòu)提(tí)升(shēng) LLM 的(de)推(tuī)理(lǐ)能(néng)力(lì),這(zhè)一(yī)方(fāng)向(xiàng)也(yě)成(chéng)為(wèi)當(dāng)前(qián)的(de)研(yán)究(jiū)熱(rè)點(diǎn)。
其(qí)中(zhōng)一(yī)些(xiē)方(fāng)法(fǎ)采用(yòng)在(zài)線(xiàn) RL,即(jí)數(shù)據(jù)采樣(yàng)與(yǔ)模(mó)型(xíng)更(gèng)新(xīn)同(tóng)步(bù)進(jìn)行(xíng),代(dài)表(biǎo)性(xìng)方(fāng)法(fǎ)為(wèi)群(qún)體(tǐ)相(xiāng)對(duì)策(cè)略(è)優(yōu)化(huà)(GRPO);其(qí)它(tā)方(fāng)法(fǎ)則(zé)主張(zhāng)通(tōng)過(guò)離(lí)線(xiàn)采樣(yàng)與(yǔ)篩(shāi)選(xuǎn)機(jī)製(zhì)獲(huò)取(qǔ)訓(xun)練(liàn)數(shù)據(jù),這(zhè)一(yī)範(fàn)式(shì)通(tōng)常(cháng)被(bèi)稱(chēng)為(wèi)自(zì)訓(xun)練(liàn),其(qí)代(dài)表(biǎo)方(fāng)法(fǎ)是(shì)強(qiáng)化(huà)自(zì)訓(xun)練(liàn)(ReST)。盡(jǐn)管(guǎn)訓(xun)練(liàn)機(jī)製(zhì)不(bù)同(tóng),這(zhè)兩(liǎng)類(lèi)方(fāng)法(fǎ)均(jūn)能(néng)有(yǒu)效(xiào)提(tí)升(shēng) LLM 的(de)推(tuī)理(lǐ)能(néng)力(lì)。
獎(jiǎng)勵(lì)模(mó)型(xíng)(RMs)因(yīn)其(qí)在(zài)輸(shū)出(chū)驗(yàn)證(zhèng)中(zhōng)的(de)重(zhòng)要(yào)作(zuò)用(yòng),正(zhèng)受(shòu)到(dào)越(yuè)來(lái)越(yuè)多(duō)的(de)關注(zhù)。已(yǐ)有(yǒu)研(yán)究(jiū)表(biǎo)明(míng),對(duì) LLM 最(zuì)終(zhōng)輸(shū)出(chū)進(jìn)行(xíng)驗(yàn)證(zhèng)的(de)結(jié)果(guǒ)獎(jiǎng)勵(lì)模(mó)型(xíng)(ORM)可(kě)以(yǐ)提(tí)升(shēng)推(tuī)理(lǐ)準確性。多種過程獎勵模型(PRMs)也被用於為中間步驟提供反饋,其驗證效果優於 ORM。
然而,這些方法仍存在不足。一方麵,以 GRPO 為代表的在線 RL 算法,常因獎勵信號差異微弱而導致訓(xun)練(liàn)效(xiào)果(guǒ)不(bù)理(lǐ)想(xiǎng)。盡(jǐn)管(guǎn)部(bù)分(fēn)研(yán)究(jiū)嚐(cháng)試(shì)通(tōng)過(guò)設(shè)計(jì)逐(zhú)步(bù)獎(jiǎng)勵(lì)或(huò)引(yǐn)入(rù)簡(jiǎn)單的動態采樣機製緩解該問題,但這往往帶來更高的計算成本與較差的泛化能力,也使 RL 算法更為複雜。另一方麵,盡管 PRMs 在驗證輸出方麵優於 ORMs,但其訓練過程通常依賴高質量的標注數據。由於數據標注成本較高,PRM 的訓練數據難以擴展,從而限製了其準確性與可靠性。
有研究提出通過蒙特卡洛模擬(Monte Carlo simulations)估計並收集過程獎勵。但是,這些方法難以推廣至更複雜的推理任務,其對結果匹配機製的依賴也限製了適用範圍。
總體來看,現有方法難以在數據采集成本、泛化能力、強化效果與訓練效率之間實現全麵平衡。
ReST-RL:訓練、推理雙重優化
ReST-RL 為解決訓練獎勵差異(yì)和(hé) PRM 準確性問題,提供了新的可能。該方法由兩個主要部分組成,分別是 ReST-GRPO(基於群體相對策略優化的強化自訓練方法) 和 VM-MCTS(基於價值模型的蒙特卡洛樹搜索)。

圖|ReST-RL 框架
ReST-GRPO 采用優化後的 ReST 算法執行 GRPO,從而提升策略在複雜推理任務中的能力。該方法利用策略本身對訓練數據進行篩選與組合,有效緩解了 GRPO 獎勵失效的問題,增強了策略生成可靠推理軌跡的能力。
LLM 的輸出解答及其對應的獎勵中蘊含著豐富信息,反映其在目標任務域中的優勢與短板,這些信息可用於過濾掉無效的訓練數據。
研究團隊采用標準差評估獎勵的多樣性。對於其所有解答的獎勵標準差低於預設閾值 σ₀ 的提示語,將其從訓練集中剔除。訓練過程聚焦於那些高獎勵的解答軌跡,並最終(zhōng)利用其部分解狀態構建新的訓練數據。
與普通 GRPO 相比,ReST-GRPO 能夠顯著提升訓練過程中的獎勵方差。

圖|策略訓練過程中組獎勵標準差的分布。
VM-MCTS 則用於 LLM 測試階段解碼。其中,價值模型(VM)的作用類似於 PRM,不僅提供驗證信號,還能引導 LLM 策略探索更有潛力的推理路徑。VM 的價值目標用於評估包含最後一步在內的整個部分狀態,而非單一動作或步驟。它自然地反映了策略從當前局部狀態到達高獎勵終態zan的潛力,可在解碼過程中為策略提供輔助。
在為 VM 收集訓練數據時,他們采用 MCTS 方法,以在探索不同推理路徑和利用高潛力中間狀態之間取得平衡。一(yī)旦(dàn)收(shōu)集到足夠的價值目標數據,即可訓練 VM 去預測各類狀態的價值。
使用該方法訓練得到的 VM 能夠準確預測當前策略下部分狀態的預期獎勵。該算法通過價值估計來決定應當探索和解碼哪些路徑,從而提高搜索的效率與準確性。
研究團隊通過大量編碼問題實驗,驗證了所提出 RL 範式及其各組成部分的有效(xiào)性(xìng),證明 ReST-RL 不僅能夠增強 LLM 策略的推理能力,同時在效率、成本和泛化性等方麵實現了較好的平衡。
結果表明,ReST-RL 及其組件在性能上全麵優於其他強化學習基線方法(如原始 GRPO 和 ReST-DPO),以及解碼與驗證基線方法(如 PRM-BoN 和 ORM-MCTS)。
在相同訓練步數下進行測試對比表明,ReST-GRPO 相較於原始 GRPO 和 DAPO 擁有更高的訓練效率。
在解碼驗證預算相同的條件下,VM-MCTS 及其 VM 在準確性方麵,優於此前基於公開數據訓練的 Math-Shepherd 風格 PRM 或 ORM。

圖|訓練效率與預算內驗證能力的測試。
局限與未來方向
盡管各項實驗證明了 ReST-RL 的有效性,但該方法仍存在一定的局限性。
例如,研究尚未在代碼推理以外的任務(如數學推理和常識推理)中對其進行驗證。雖然該方法框架並不局限於代碼任務,但在其他場景下的應用可能需要重新設計合適的獎勵機製和實驗超參數。
另外,部分實驗設置對最終結果的具體影響也尚未得到係統性分析。
研究團隊還表示,價值模型在域外任務中的準確性仍缺乏充分研究,後續工作將進一步探索 ReST-RL 在更廣泛任務中的泛化能力。
封麵圖為版權圖庫圖片,轉載使用可能引發版權糾紛
AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號