
【導語】思維鏈(CoT)提示技術曾被視為提升大語言模型(LLM)推理能力的關鍵突破,其模擬的人類推理步驟讓人深感AI正逐步邁向深思熟慮的智能。然而,亞利桑那州立大學的一項新研究揭示了CoT推理的脆弱本質:它更像是對訓練數據的模式匹配,而非真正的邏輯推理。這一發現引發了AI行業的廣泛討論,其中不乏對CoT本質及其局限性的深刻反思。本文將深入探討這一研究及其引發的爭議,帶您一窺AI推理的真實麵貌。

思維鏈(CoT)提示技術已被證明能提升大語言模型(LLM)在各類任務中的表現。采用該方法時,LLM 似乎會先生成類似人類的推理步驟(即 CoT 推理),再給出最終答案,這往往讓人覺得 LLM 正在進行深思熟慮的推理過程。
然而,亞利桑那州立大學團隊在一項新研究中指出:CoT 推理實為脆弱的幻象,一旦超出訓練分布範圍便會失效。
換句話說,CoT 推理的有效性並非源於模型的邏輯推演能力,而是對訓練數據模式的記憶與插值,其本質是高度結構化的模式匹配,而非真正可泛化的邏輯推理。
這一結論引發了人工智能(AI)行業從業者對 CoT 本質的重新審視。

研究團(tuán)隊(duì)表(biǎo)示(shì),這(zhè)項(xiàng)工(gōng)作(zuò)深(shēn)化(huà)了(le)人(rén)們(men)對(duì) CoT 推(tuī)理(lǐ)失(shī)效(xiào)原(yuán)因(yīn)與(yǔ)條(tiáo)件(jiàn)的(de)理(lǐ)解(jiě),凸(tū)顯(xiǎn)了(le)實現真正可泛化推理仍是持續麵臨的挑戰。
從何質疑?
越來越多的研究表明,LLM 往往依賴於表麵語義和線索,而非邏輯推理過程。
為此,他們通過提出數據分布的替代視角來質疑 CoT 推理,並進一步探究其失效的原因與時機。他們通過任務(task)、長度(length)和格式(format)三個維度對 CoT 推理進行了剖析。

圖|數據分布視角。CoT 推理的有效性從根本上受限於訓練數據與測試查詢之間的分布差異程度。
1.任務泛化
任務泛化能力是 CoT 推理麵臨的核心挑戰,它直接檢驗模型將學到的概念與推理模式應用於未知場景的能力。
任務泛化測試聚焦模型對“新任務新結構”的適應能力,包括變換泛化(Transformation Generalization)和元素泛化(Element Generalization)兩個維度。
1)變換泛化
在變換泛化實驗中,研究人員設計了四種分布偏移場景,從“ID”到“OOD”,逐步升級:
In-Distribution(ID):測試任務與訓練任務完全一致。例如,訓練與測試均為“f1∘f1”,此時模型精確匹配率為 100%;
Composition(CMP):測試任務為訓練過的基礎操作的新組合。例如,訓練“f1∘f2”“f2∘f1”,測試“f2∘f2”,此時精確匹配率降至 0.01%;
Partial Out-of-Distribution(POOD):測試任務包含至少一個未訓練的操作,此時精確匹配率直接將為零;
Out-of-Distribution(OOD):測試任務為全新操作組合。例如,訓練集隻見過“f1∘f1”,而測試集要處理“f2∘f2”,此時模型徹底失效。

表|不同場景下變換泛化能力的全鏈路評估。
另外,如下表,從 f1∘f2 到 f2∘f2,LLM 能夠正確回答 0.1% 的問題。但進一步檢查發現,這隻是一個巧合,如查詢元素為 A, N, A, N,恰好在這兩種操作中產生了相同的結果。
研究團隊將完整推理鏈分解為推理步驟與答案進行深入分析後發現,推理步驟與對應答案之間存在高度一致性。
例如,在組合泛化設置下,推理步驟在測試數據分布 f1∘f1 到 f2∘f2 上完全正確,但得出的答(dá)案(àn)卻(què)存(cún)在(zài)錯(cuò)誤(wù)。
同(tóng)樣(yàng),從(cóng) f1∘f2 泛(fàn)化(huà)到(dào) f2∘f1,LLM 能(néng)夠(gòu)生(shēng)成(chéng)正(zhèng)確(què)答(dá)案(àn),但(dàn)這(zhè)歸(guī)因(yīn)於(yú)兩(liǎng)種(zhǒng)正(zhèng)交(jiāo)變(biàn)換(huàn)之(zhī)間(jiān)的(de)可(kě)交(jiāo)換(huàn)性(xìng),而(ér)推(tuī)理(lǐ)路徑並(bìng)不(bù)可(kě)靠(kào)。

表|CoT 推理在變換泛化中的不同組件評估。
上述結果表明,CoT 推理無法泛化到新的變換,甚至無法泛化到新的組合變換。與其說 CoT 推理真正理解了文本,不如說它的表現更像是對訓練過程中習得模式的簡單複刻。
更進一步,研究團隊對少量未見數據進行了監督微調(SFT),從而探究 CoT 推理能否推廣至未見過的變換。這種方式能降低訓練集與測試集之間的分布差異,這可能有助於 LLM 對測試查詢進行泛化。

圖|在不同分布偏移程度下,采用SFT處理未見數據的性能表現。
結果顯示,隻需要極少量示例樣本,就能讓模型快速泛化到未見過的變換場景,大幅提升性能。這說明,LLM 非常擅長從數據中快速學習新模式,但也說明其能力範圍被見過的模式嚴格限定。
2)元素泛化
當試圖將 LLM 泛化(huà)到(dào)新(xīn)任(rèn)務(wu)時(shí),元(yuán)素(sù)泛(fàn)化(huà)是(shì)另(lìng)一(yī)個(gè)關鍵因(yīn)素(sù)。
研(yán)究(jiū)團(tuán)隊(duì)在(zài)固(gù)定(dìng)其(qí)他(tā)因(yīn)素(sù)後,設置了 ID、CMP 和 OOD 三種場景。其中,在 ID 場景中,測試元素與訓練元素使用相同的字母;CMP 場景中,測試元素是由訓練時接觸過的字母構成新的組合;在 OOD 場景中,測試元素是訓練時從未見過的字母。
在組合方麵,他們測試了當觀察到元素中的所有基本原子時,CoT 推理是否能夠泛化到新的組合,如 (A, B, C, D) → (B, C, D, A)。基於組合中的原子順序,CMP 可以進一步發展。而對於 OOD,構成元素(sù)的(de)原(yuán)子(zi)在(zài)訓(xun)練(liàn)期(qī)間(jiān)是(shì)完(wán)全未(wèi)見(jiàn)過(guò)的(de)。
結(jié)果(guǒ)顯(xiǎn)示(shì),與(yǔ)變(biàn)換(huàn)泛(fàn)化(huà)類(lèi)似(shì),當(dāng)模(mó)型(xíng)在(zài)所(suǒ)有(yǒu)變(biàn)換(huàn)中(zhōng)持(chí)續(xù)遭(zāo)遇(yù)分(fēn)布(bù)偏(piān)移(yí)時(shí),其(qí)性(xìng)能(néng)會(huì)急(jí)劇(jù)下(xià)降(jiàng)。從(cóng) ID 到(dào) CMP,再(zài)到(dào) OOD,在(zài)所有情況下,精確匹配度均從 1.00 逐步降至 0。

圖|不同場景和關係下的元素泛化結果。
他們通過 SFT 進一步探索 CoT 推理何時能夠泛化到新的元素,如下圖。結果顯示,當訓練數據中出現相似(n 較小)的例子時,性能迅速提高。有趣的是,當 n=3 時,CoT 推理的精確匹配率與性能下限一致,這可能表明 CoT 推理在新穎元素上的泛化能力非常有限,即使在下遊任務上進行 SFT 也是如此。
他們還發現,訓練過程中答案與推理步驟之間存在準確性不匹配的問題,這在某種程度上可能解釋了為什麽在某些情況下 CoT 推理不一致。
2.長度泛化
長度泛化研究模型在遇到與訓練分布長度不同的測試案例時,其 CoT 推理能力如何退化。
長度差異可能源於文本空間或問題推理空間。因此,研究團隊將長度泛化分解為兩個互補維度:文本長度泛化與推理步驟泛化。
1)文本長度泛化
文本長度泛化旨在評估當輸入文本長度與訓練示例不同時,CoT 推理的性能如何變化。考慮到 LLM 處理長文本的方式,這一維度至關重要,因為現實世界的問題通常涉及不同程度的複雜性,這些問題表現為問題陳述長度、上下文大小或信息密度的差異。
研究團隊在文本長度為 4 的數據集上預訓練 LLM,同時固定其他因素,並在多種長度上評估性能。
實驗結果顯示,模型僅在文本長度為 4 的訓練數據上表現優秀,精確匹配率達到 100%。隨著長度差異的增加,CoT 推理長度泛化的有效性會降低,精確匹配率也會降至 0。這表明 LLM 對輸入長度等統計特性極其敏感。

表|文本長度泛化評估。
他們還探討了使用不同填充策略減少訓練數據和測試案例之間的差異。他們發現,填充到最大長度對長度泛化沒有貢獻。然而,當他們使用分組(Group)策略用文本替換填充時,性能有所提高。

圖|不同填充策略下文本長度泛化的表現。
2)推理步驟泛化
推理步驟泛化旨在研究模型能否外推到與訓練時觀察到的不同步驟的推理鏈。這是多步驟推理任務中的常見設置。
與文本長度泛化類似,他們(men)使(shǐ)用推理步驟為 2 來預訓練 LLM,並在推理步驟為 1 或 3 的數據上進行評估。
結果表明,CoT 推理無法在需要不同推理步驟的數據集間泛化,存在泛化失敗(bài)的(de)現(xiàn)象(xiàng)。隨著未見數據比例的增加,目標數據集上的性能呈現提升趨勢。與此同時,由於訓練數據量不足,語言模型無法對原始訓練數據集進行泛化。這說明,模型的性能完全由訓練數據的分布構成決定,不存在超越數據分布的泛化。
圖|不同訓練數據組合下的推理步驟泛化測試性能。
3.格式泛化
格式泛化旨在評估 CoT 推理對測試查詢中表麵形式變化的魯棒性,這一維度對於確定模型是否已經內化了靈活的、可遷移的推理策略,或仍然依賴(lài)於(yú)訓(xun)練(liàn)期(qī)間(jiān)遇(yù)到(dào)的(de)具(jù)體(tǐ)模(mó)板(bǎn)和(hé)短(duǎn)語(yǔ)尤(yóu)為(wèi)重(zhòng)要(yào)。
為(wèi)此(cǐ),研(yán)究(jiū)團(tuán)隊(duì)通(tōng)過(guò)以(yǐ)下(xià)四(sì)種(zhǒng)擾(rǎo)動(dòng)模式來模擬真實場景:
插入(Insertion):在每個原始標記前插入噪聲 token;
刪除(Deletion):直接移除原始 token;
替換(Modification):用噪聲標記替代原始 token;
混合模式(Hybrid):融合多種擾動方式。
實驗結果表明,CoT 推理很容易受到格式變化的影響,無論是插入、刪除、修改,還(hái)是(shì)混(hùn)合(hé)模(mó)式,都會產生影響正確性的格式差異。他們進一步將查詢內容劃分為三個部分:元素、變換和提示詞。他們發現,元素和變換在格式中起著關鍵作用,而其他 token 的改動對結果影響不大。

圖|格式泛化性能表現。
反對質疑
基於以上研究結果,研究團隊得出結論:
CoT 並非真正的邏輯推理機製,而是一種高級的結構化模式匹配形式,其根本局限在於訓練階段所見的數據分布。一旦略微超出該分布範圍,其性能便會顯著下降,暴露出其"推理"過程的表麵性本質。
而且,他們還在論文中寫道,“盡管糖心免费视频的實驗采用了在受控環境中從頭開始訓練的模型,但所揭示的原理可擴展至大規模預訓練模型。”這似乎印證了“CoT 看似強大的推理能力本質上是一種脆弱的幻象”的說法。
然而,在國外軟件工程師 Sean Goedecke 看來,這項研究的實驗和論證存在一些局限性,並進行了反駁。
“不(bù)能(néng)單(dān)憑(píng)這(zhè)篇(piān)論(lùn)文裏(lǐ)的(de)‘小(xiǎo)兒(ér)科(kē)’例(lì)子(zi),就(jiù)對(duì)推(tuī)理(lǐ)模(mó)型(xíng)得(de)出(chū)如(rú)此(cǐ)寬(kuān)泛(fàn)的(de)結(jié)論(lùn)。”
原(yuán)文鏈(liàn)接(jiē):http://www.seangoedecke.com/real-reasoning/
針(zhēn)對(duì)這(zhè)篇(piān)論(lùn)文,他(tā)提(tí)出(chū)了(le)以(yǐ)下(xià)觀(guān)點(diǎn):
1.推理很可能需要語言的參與
即便是模擬出來的推理,也必須是在人類語言中進行的推理。推理是一項複雜的任務,需要像人類語言這樣複雜的工具。推理任務需要在多個不同選項之間做出選擇,不斷改變方向,但這篇論文裏的例子從結構上就不可能做到這一點。
2.模型規模太小製約了結論的普適性
小型模型難以湧現推理能力。一個 60 萬參數的模型,可能可以學會按順序應用轉換規則,但未必聰明到能將這些轉換分解成它們各自的組成部分。它沒有足夠的原始“腦力”來執行相關操作,所以研究結果很難推廣到一個 10 億、100 億或 1000 億參數的模型上。
3.缺少與人類推理的對比
這篇論文的核心論點,推理模型在超出其領域時會遇到困難,這對於強大的人類推理者來說也同樣成立。人類推理同樣依賴經驗模板,在陌生領域容易出錯。既然推理模型是在大量人類或類人的推理文本上訓練出來的,那麽它們的推理方式像人類,又何必驚訝呢?
此外,Goedecke 還給出了自己的一些建議——當糖心免费视频閱讀關於模型推理的論文時,需要使用以下啟發式方法:
如果它聲稱 AI 推理在某種程度上是“虛假”的,檢查是否有部分(至少)直接評估人類推理技能的質量,或者理想情況下提供“真實”推理的嚴格哲學定義。如果它指出 AI 模型在推理任務上失敗,請檢查任務本身是否真的需要推理(即考慮多種方法)或者是否僅僅需要計算(遵循固定算法)。
那麽,關於“CoT 推理並非真正可泛化的邏輯推理”這一說法,你怎麽看?
作者:小瑜
AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號