
【導語】作(zuò)為(wèi)探(tàn)究(jiū)人(rén)類(lèi)決(jué)策(cè)、感(gǎn)知(zhī)與(yǔ)情(qíng)緒(xù)的(de)學(xué)科(kē),心(xīn)理(lǐ)學(xué)不(bù)斷(duàn)拓(tà)展(zhǎn)著(zhe)我(wǒ)們(men)對(duì)自(zì)身(shēn)的(de)認(rèn)知(zhī)邊(biān)界(jiè)。而(ér)今(jīn),隨(suí)著(zhe)大(dà)模(mó)型(xíng)時(shí)代(dài)的(de)到(dào)來(lái),心(xīn)理(lǐ)學(xué)迎(yíng)來(lái)了(le)全新(xīn)研(yán)究(jiū)對(duì)象(xiàng)——能(néng)通(tōng)過(guò)語(yǔ)言(yán)交(jiāo)互(hù)的(de)智(zhì)能(néng)係(xì)統(tǒng)。德國亥姆霍茲慕尼黑研究中心在《自然》雜誌發布的"半人馬(Centaur)"大模型,憑借對16萬參與者決策數據的深度學習,實現了同時解釋思維機製與預測行為模式的突破。這項創新不僅為認知測試困難場景提供了解決方案,更通過腦區活動預測等能力重塑著心理學研究範式。然而,當麵對人類極端心理狀態時,矽基智能與碳基生命的本質差異,仍提示著這場"人機心理對話"的深層局限。
導語:作為研究人類決策、感知、情緒的學科,心理學曾給糖心免费视频帶來眾多的驚奇,讓糖心免费视频更加了解自身。隨著大模型的出現,心理學有了一個新的研究對象,也就是能夠通過語言做出交互的大模型。德國亥姆霍茲慕尼黑研究中心的團隊在《自然》雜誌發文提出了名為“半人馬(Centaur)”的大模型,能夠同時解釋人們的思維方並預測他們的行為模式。這能夠極大豐富傳統心理學研究的能力邊界,特別是認知測試很慢或很難招募目標群體的場景。但是,或許大模型在模擬人類在極端狀況下的心(xīn)理(lǐ)狀(zhuàng)態(tài)還有很長的路要走。
作者:郭瑞東
20世紀70年代,美國哲學家托馬斯•內格爾(Thomas Nagel)問出了這樣一個問題,即便糖心免费视频對蝙蝠的生理結構、回聲定位機製和行為有多麽詳盡的客觀知識,糖心免费视频永遠無法真正理解“作為一隻蝙蝠是什麽感覺”。
將這裏的蝙蝠換成是一個人,糖心免费视频似乎麵臨著相同的問題,即糖心免费视频永遠無法真正了解作為一個人是什麽感受?作為研究人類決策、感知、情緒的學科,心理學曾給糖心免费视频帶來眾多的驚奇,讓糖心免费视频更加了解自身。從飽受爭議的斯坦福監獄實驗;到棉花糖延遲滿(mǎn)足(zú)和(hé)考(kǎo)試(shì)成(chéng)績(jī)的關聯,心理學一直都是一個基於實證的學科。隻是如今這一情況有了改變。
隨著大模型的出現,心理學有了一個新的研究對象,也就是能夠通過語言做出交互的大模型。這相當於承認既然無法回答作為一個人是什麽感受這樣的天問,那糖心免费视频直接掀桌子,構建一個在功能上與人類如此相似的係統,以至於它的行為和神經表征都與人類高度一致。這種功能上的等價性,是否在某種程度上“捕獲”了主觀經驗的本質?
德國亥姆霍茲慕尼黑研究中心的團隊做出了這樣的嚐試,其研究成果在2025年7月發表於《Nature》,他們提出了名為“半人馬(mǎ)(Centaur)”的(de)大(dà)模(mó)型(xíng)[1],這(zhè)種(zhǒng)從(cóng)神(shén)話(huà)故(gù)事(shì)中(zhōng)跳(tiào)出(chū)的(de)生(shēng)物(wù),代(dài)表(biǎo)了(le)使(shǐ)用(yòng)人(rén)工(gōng)智(zhì)能(néng)模(mó)型(xíng)模(mó)仿(fǎng)人(rén)類(lèi)思(sī)維的最強一擊。多年來,心理學領域一直試圖充分捕捉人類思想的複雜性。然而,過去類似的模型通常僅限於解釋人們的思維方式或預測他們的行為方式,很少能同時實現這兩點。“半人馬”大模型就能同時實現兩者,讓糖心免费视频具體看看它是怎麽做到的。

海(hǎi)量(liàng)數(shù)據(jù)能(néng)否(fǒu)代(dài)表(biǎo)人(rén)類(lèi)的(de)行(xíng)為(wèi)全光(guāng)譜(pǔ)
首(shǒu)先(xiān)是(shì)訓(xun)練(liàn)數(shù)據(jù),研(yán)究(jiū)者(zhě)構(gòu)建(jiàn)的(de) Psych-101 的(de)大(dà)規模數據集(圖1a),涵蓋了來自 160 個心理學實驗的試驗數據。該數據集來自 60092 名參與者,他們共進行了 1068 萬個選擇,這些決策涵蓋從簡單的記憶任務到複雜的道德困境。
研究者親自梳理每項研究的背景,並使用大模型,將每項實驗中單個參與者的對話整理成標準的訓練數據。由於大模型的上下文限製,每個記錄對話的總文本長度是 3.2 萬個單詞,包含了參與者做出的選擇及對應實驗背景信息。

圖1:Psych-101 的收集與Centaur的訓練過程
有了數據集,便可以對開源大模型 Llama3-70B 進行微(wēi)調(diào),所(suǒ)謂(wèi)微(wēi)調(diào),相(xiāng)當於讓大模型進行專科教育,使得模型能夠更熟悉 Psych-101 中這些數據,成為預測人類如何做選擇的專家,而這個微調後的開源模型,被稱為“半人馬”(圖1b)。
之後要做的,便是對比“半人馬(mǎ)”和(hé)其(qí)它(tā)大(dà)模(mó)型(xíng)在預測人類選擇上的表現了。在此之前,已有不少研究考察不同大模型的心理狀態。例如有研究[2]對比 GPT-4,Claude3 和 Gemni2 在給定情景和麵部表情圖像上識別人類情緒的能力,發現部分情況下,大模型比普通人能更好地對情緒進行判斷,可以說大模型比人類情商更高了。然而這樣的研究,隻是關注人類認知過程的特定部分,“半人馬”大模型則是號稱能預測人類的全部行為。
“半人馬”對人類做出的選擇能提前預判
要驗證“半人馬”模型是否能準確預測人類通用行為,首先需對人類行為進行分類,然後在每一類任務上評估其預測準確性。圖2展示了“半人馬”相對於未微調Llama3的預測準確性提升,其中基線方法采用啟發式策略。

圖2:“半人馬”在心理學實驗中的預測表現
在圖2列出的各類任務中,“半人馬”的預測準確性均有顯著提升。以賭場常見的多臂老虎機(jī)問(wèn)題(tí)(如(rú)圖(tú)3所(suǒ)示(shì))為(wèi)例,啟發式方法簡單規定:如果上次拉杆獲得獎勵,則繼續選擇;否則換一個。這種方法並非最優,也不符合人類實(shí)際(jì)行(xíng)為(wèi)。而“半人馬”模型在此任務上的預測準確率提升幅度最大。其次,在多線索判斷任務上,“半人馬”的準確率提升次之。而在時序反應、天氣預測、氣球模擬風險任務以及描述性決策等任務中(如圖2所示),“半人馬”的準確性雖有提升,但幅度較小(圖3a中最上方的柱狀圖顯示總準確性提升,“半人馬”的對數似然(可靠性指標)優於領域特定模型0.13)。

圖3:多臂老虎機(Multi-Armed Bandit, MAB),賭場最常見吞金獸,玩家麵前有三個拉杆,每次花一個金幣就能選一個拉,之後有一定概率獲得多個金幣,也有概率啥都得不到。通過多臂老虎機上的實驗,認知心理學家可了解人是如何在高風險高收益與穩定收益,以及在不斷變化的收益間動態權衡的。
在上述實驗中,預測準確性是不是足夠高,並不該成為讀者的關注點。畢竟(jìng)“半(bàn)人(rén)馬”是在對應這些實驗描述上進行過微調的。相當於大模型在進行開卷考試,隻要你能讓大模型將訓練數據一字不錯的背下來,模型的準確性可以達到一個高的嚇人的值,這在機器學習中被稱為過擬合問題。
為了說明“半人馬”並沒有過擬合,研究者接下來對心理學實驗生成了諸多變種。例如將背景故事中的駕駛宇宙飛船前往外星尋找資源( Psych-101 中的數據)變為在一個魔法世界裏乘坐魔毯去尋寶,結果顯示,在變種的故事中,“半人馬”的表現依舊不差(圖4a)。

圖4:“半人馬”在新場景上的預測準確性
在訓練數據集中,多臂老虎機中每次被試隻需要麵對兩個候選項,而在測試時玩家麵前有了三個候選項,可視為一個新問題。而在回答新問題時,模型的預測準確性仍然超過了未經過微調的 Llama 做出的預測(圖4b)。而對於全新的需要概念邏輯推理的問題,雖然 Psych-101 數據集有涉及概念和因果推斷,但並沒有該類問題,而經過微調後的“半人馬”依然比 Llama 更好(圖4c)。這些都說明微調帶來的增益不是由於過擬合,而是能泛化到未曾見到的數據集上。
除了上述實驗,“半人馬”還在未曾出現在訓練數據集中的其他多種類型的任務,諸如在自然環境中進行選擇,涉及道德判斷的決策,經濟相關的博弈等表現的也比 未經微調的Llama 更好。除了人類的選擇,“半人馬”還能預測人類的反應時長。從這個視角來看,“半人馬”的確算得上一個能廣泛的預測人類諸多行為的基座模型,對得上論文標題的宣稱。
“半人馬”對人類決策時腦活動和決策理由的預測
如果隻是知道會做出怎樣的選擇,而不知為何做選擇,那距離一個能幫助心理學家了解人類的模型還相差甚遠。因此,下一步是要說明“半人馬”能夠讓心理學家知其然也知其所以然。為此,研究者選取 94 人,當其做決策的時候,通過 fMRI 功能核磁記錄其活躍的腦區,並將其與“半人馬”與未經微調的大模型 llama 的預測結果做對比,結果“半人馬”的預測表現比 Llama 更優(圖5)。

圖5:相比 Llama,“半人馬”預測決策時人類的腦區活躍程度的能力
除了解釋機製,“半人馬” 還可以模擬人類被試者開展心理學實驗,進而得到對人類心理新的洞見。以前心理學家以前是招募一堆大學生去做問卷,費錢還費時間, 有了“半人馬”,便可以將實驗中的被試者由碳基替換成矽基。由大模型來充當被試者,實驗人員隻需要付電費就好。那這樣做能不能得到有意義的洞見了?下麵來看論文中給出的初級案例。
研究人員首先使用“半人馬”模擬人類在多屬性決策(multi-attribute decision-making)任務做出的選擇,該任務中,被試者根據幾個專家的估計進行決策,不同的專家有不同的置信度。“半人馬“模型模擬人類,在各種場景下做出決策,之後將這些選擇的案例集交給 Deepseek-R1,由Deepseek去總結人類決策依據的規則。
Deepseek-R1 通過分析“半人馬”的決策行為發現,其選擇時考慮的是如何讓選擇後的後悔值最小。這相當於使用半人馬模型,指導Deepseek做出科學發現。之後研究者還發現,通過最小後悔原則這一啟發式規則,對人類行為的預測準確性接近了“半人馬”模型給出的預測,如圖6所示。Deepseek總結的啟發式規則的預測準確性與半人馬模型的預測準確性兩者準確性相當,說明總結出的規律是有意義的,能視為對人類行為模式的洞察。這就論證了未來或可以使用大模型來替代心理學實驗中的人類被試者。
不過值得懷疑的是,Deepseek-R1 的訓練數據集中有很大概率包含對多屬性決策這一心理學研究的描述,也會提及最小後悔原則。因此,對上述實驗的另一種解釋是 Deepseek-R1 從對實驗的描述中關聯到最小後悔原則這一啟發式方法,並非真正如人類心理學家那樣在產生洞見。

圖6:模型引導的科學發現,a)使用 Psych-101 和 “半人馬”來指導多屬性決策研究的認知模型的開發。b)要求 DeepSeek-R1 生成對人類反應的解釋,並將生成的語言策略形式化為正式的計算模型。c)以“半人馬”為參考模型,通過科學的後悔最小化來完善該模型。
為何不能高估大模型在心理學中的應用潛力
隨著大模型能力變得越來越強,人們對大模型也開始了進行擬人化的描述,例如出現 AI 精神病學,應用心理學來考察大模型的心理狀態,甚至Anthropic 還在給大模型招募“心理谘詢師”(圖7)。學術界對大模型的心理狀態也有研究,例如[3]考察了 ChatGPT3.5,ChatGPT4o 和 ChatGPT4o mini後,發現 AI 在情緒波動、價值觀形成等方麵仍與人類存在較大差異。

圖7:X截圖,對應Anthropic 準備招募大模型精神病學研究,以促進模型可解釋性
“半人馬”的出現,也在反方向地將大模型與人類心理學聯係起來。哈利波特中有一句話:“決定糖心免费视频是誰的不是糖心免费视频的能力,而是糖心免费视频的選擇。”通過讓大模型表現的更像人類,“半人馬”的開發者認為它有潛力顯著增加未來的心理學研究的可能性,特別是對於那些認知測試可能很慢的場景,或很難招募的目標群體(例如糖心APP污视频或有精神問題的對象)。
如果未來類似的模型能夠包含更多樣化的數據,不僅是來自受教育的西方被試者(常見於當前心理學實驗),那未來的心理學實驗,或可真如“半人馬”作者指出的那樣,在計算機而非人類被試者中完成。可能的應用還包括分析經典的心理學實驗,研究臨床環境中的個人決策過程,例如抑鬱或焦慮。
但糖心免费视频也不應該高估“半人馬”的影響,2024年的一篇名為“在心理學研究中使用大模型的機遇和危險”的綜述[4]中,指出用大模型代替心理研究中的人類被試者,存在著三個問題,首先是大模型的訓練數據多來自受教育的西方人(心理學實驗中常見的被試)。這一點“半人馬”團隊也提及,研究團隊計劃之後使用更多樣的(來自不同文化,教育程度)行為數據對模型進行改進。其次是對大模型能否形成人類的道德體係存疑,這不同於預測人類在麵對道德困境時的選擇,而是要構建一個解釋自己為何做出對應選擇的認知架構,這一點“半人馬”同樣沒有解決。
至於大模型替代人類心理學被試者的第三個困難,則是最為本質性的。作為一種被調整的要去符合人類偏好的概率模型。大模型無論怎麽微調,回答心理學調查的問題時變化幅度較小,缺乏人類行為的多樣性。更難以如斯坦福監獄實驗,米爾格拉姆的服從實驗那樣,揭示人類在極端狀況下的心理狀態。而心理學能帶給糖心免费视频的,遠遠不止是糖心免费视频在老虎機前會如何做選擇。而是如積極心理學那樣,研究那些主觀幸福感最高的那些人是怎樣思考的,而這些遠離均值的特殊群體(例如犯罪心理學的研究對象),大模型或許永遠難以準確地加以描述。
[1] Binz, M., Akata, E., Bethge, M., Brändle, F., Callaway, F., Coda-Forno, J., Dayan, P., Demircan, C., Eckstein, M. K., Éltető, N., Griffiths, T. L., Haridi, S., Jagadish, A. K., Ji-An, L., Kipnis, A., Kumar, S., Ludwig, T., Mathony, M., Mattar, M., & Modirshanechi, A. (2025). A foundation model to predict and capture human cognition. Nature. http://doi.org/10.1038/s41586-025-09215-4
[2] Gandhi, K., Lynch, Z., Fränken, J.-P., Patterson, K., Wambu, S., Gerstenberg, T., Ong, D. C., & Goodman, N. D. (2024). Human-like Affective Cognition in Foundation Models. ArXiv.org. http://arxiv.org/abs/2409.11733
[3] Zhang, Y., Li, S., Yuan, X., Yuan, H., Che, Z., & Luo, S. (2025). The high-dimensional psychological profile of ChatGPT. Science China Technological Sciences, 68(8). http://doi.org/10.1007/s11431-025-2934-8
[4] Abdurahman, S., Atari, M., Farzan Karimi-Malekabadi, Xue, M. J., Trager, J., Park, P. S., Preni Golazizian, Omrani, A., & Dehghani, M. (2024). Perils and opportunities in using large language models in psychological research. PNAS Nexus, 3(7). http://doi.org/10.1093/pnasnexus/pgae245
本文為•創作培育計劃扶持作品
作者:郭瑞東
審核:張江 北京師範大學係統科學學院教授
出品:中國科協科普部
監製:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司

AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號