
【導語】近年來AI進化迅猛,但要真正走進物理世界,具身智能麵臨“物理鴻溝”。近日北京人形機器人創新中心開源具身世界模型WoW,它以高質量交互數據為基,通過獨特構建思路與“自學方法”,實現從想象到執行的跨越,具備強大泛化能力,有望讓機器人成為人類探索、建設世界的夥伴。

近年來,AI的進化讓人目不暇接。從GPT係列“讀懂語言”,到Sora係列“看世界”,糖心免费视频一次次被AI驚人的能力所震撼。但一個更深刻的問題隨之而來:如果AI要真正走進物理世界,成為能洗衣、做飯、裝配的機器人,它需要什麽?
波士頓動力的機器人可以後空翻,北京人形(xíng)機(jī)器(qì)人創新中心(以下簡稱“北京人形”)的“具身天工Ultra”也能跑完半程馬拉鬆。這些“體能”上的飛躍肉眼可見。然而,讓機器人完成一個後空翻很難,但讓它“理解”麵前的水杯為什麽倒下後水會灑出來,或許更難。這,就是具身智能麵臨的“物理鴻溝”。
近日,“北京人形”開源了其全新的具身世界模型——WoW(World-Omniscient World Model)。“WoW就是為了讓機器人‘理解物理世界’,並且給到算法觸摸世界的雙手。”北京人形相關技術人員說。
為什(shén)麽(me)“以(yǐ)假(jiǎ)亂(luàn)真”還不夠?
Sora 2的出現,確實讓AI成了個出色的“電影導演”,它拍出的“大片”逼真到讓人驚歎。但在具身智能領域,一個機器人不能隻當“觀眾”或“導演”,它還要當“物理學家”,因為“看起來真實”和“物理上正確”是兩碼事。
**機器人需要的,是對“時序一致性”和“物理因果鏈”的統一。**比如一個東西被推了,它應該往哪兒倒;一個杯子倒了,水必須灑出來。Sora 2或許能生成一(yī)個(gè)“看(kàn)起(qǐ)來(lái)”很(hěn)酷(kù)的(de)機器人動作,但WoW要確保這個動作符合牛頓的規矩。
“相較於Sora 2,WoW具身世界模型在模擬機器人操作的時空一致性、物理推理能力表現更為出色。”北京人形相關技術人員表示。
在素材的對比測試中,無論是讓模型模擬“依次抓取火方塊、柔性方塊、水方塊”,還是“打開一本圖書”,WoW生成的模擬結果在物理交互的準確性上,都顯現出優勢。
這種差異的背後,源於WoW不同的構建思路。它不是一個單純的視頻生成器,而是一個被設計為“物理引擎+想象係統”的DiT(Diffusion Transformer)世界生成基座模型。**它的核心任務是根據環境狀態與曆史幀,預測未來場景、推演物理演化,並還原動態的因果鏈。要實現這一點,數據是關鍵。**WoW的學習材料並非來自互聯網上的海量視頻,而是來自一個更專注的數據庫。“北京人形”相關技術人員表示,他們從800萬條海量的“機器人與物理世界交互軌跡”中,通過自建的數據優化精煉管線,篩選出了200萬條高質量的訓練集。這種“交互數據”而非“觀察數據”,可能是WoW理解物理的關鍵。
此外,該團隊還驗證了模型規模與性能的“冪律增長”關係。他們訓練了從1.3B(“B”代表十億)、2B、7B到14B參數的全係列模型。研究結果證明:“隨著模型規模提升,物理一致性與生成穩定性以及泛化性呈顯著上升趨勢。”
如何讓模型“自己教自己”?
如果說龐大且高質量的交互數據是“教材”,那麽WoW的核心創新之一,就是一套名為SOPHIA(Solver-Critic-Refiner)的“自學方法”。“北京人形”在其研究中稱,這是“業內首次提出SOPHIA框架,讓世界模型‘自己教自己’。”
這套機製,試圖模擬人類“想象-驗證-修正-再想象”的核心智能特征。它由兩個關鍵部分組成,形成了一個“生成-批評-改進”的閉環優化過程。
但光會“想”還不行,機器人必須能“做”。WoW係統的另一大支柱,是FM-IDM逆動力學模型(Flow-Mask Inverse Dynamics)。這正是那雙“觸摸世界的雙手”。**它的作用,是將在“想象”中生成的視頻翻譯成真實世界中可執行的機器人指令。**通過給定連續兩幀預測視頻,FM-IDM能夠計算出機器人末端執行器的動作變化量,類似AI在腦子裏想好了“手從A點移動到B點”的畫麵,FM-IDM就能反推出“機械臂關節需要旋轉X度、Y度”的具體指令。技術人員解釋說,“這標誌著真正實現從生成到執行的跨越。”
開(kāi)源(yuán)一(yī)個(gè)“具(jù)身(shēn)大(dà)腦(nǎo)”意(yì)味(wèi)著(zhe)什(shén)麽(me)?
一(yī)個(gè)模(mó)型(xíng)是(shì)否(fǒu)真(zhēn)正(zhèng)理(lǐ)解(jiě)了(le)規(guī)律(lǜ),最(zuì)好(hǎo)的(de)檢(jiǎn)驗(yàn)標(biāo)準(zhǔn)是(shì)“泛(fàn)化(huà)能(néng)力(lì)”。“WoW不(bù)是(shì)在(zài)記(jì)憶(yì)訓(xun)練(liàn)場(chǎng)景(jǐng),而(ér)是(shì)在(zài)學(xué)習(xí)‘物(wù)理(lǐ)規律的抽象本質’。”“北京人形”在報告中強調,模型具備“跨機器人形態泛化、任務泛化、場景泛化全方位能力”。
“北京人形”相關技術人員表示,WoW的泛化能力體現在多個層麵。**在“域內”,它可以生成長程、複雜的任務視頻,例如“打開洗碗機”,乃至“依次按下紅色按鈕,收拾餐具,按下綠色開關”這樣的多步任務。在“域外”,它能將其學到的知識,應用到未曾見過的機器人本體和場景上。**例如,生成“具身天工2.0”機器人(未用於訓練)執行“把橙子放進盤子裏”“倒酒”等任務的視頻。
“糖心免费视频希望WoW能成為世界模型的研究基礎設施。”“北京人形”技術人員展望道。在他們看來,WoW一方麵可以實現“自我造數”(AI擁有“自我造數”能力),解決數據稀缺問題;另一方麵,它打通了“從視覺‘想象’中反推真實可執行的動作指令”的通路,使機器人在抓取、裝配等任務上的自主能力有望大幅提升。
“WoW通過係統性結合完成了‘想象世界→理解物理→生成視頻→執行動作→再學習’的邏輯閉環。”“北京人形”技術人員說。此前,該中心已經展示了其在“能跑”和“好用”方麵的實力,而WoW的開源,則補全了“大腦”層麵的關鍵拚圖。通過此次研究,也相信北京人形機器人將持續開源開放,助力行(xíng)業(yè)打(dǎ)造(zào)最(zuì)能(néng)跑(pǎo)最(zuì)好(hǎo)用(yòng)的(de)具(jù)身(shēn)智(zhì)能(néng)機(jī)器(qì)人(rén)。或(huò)許(xǔ)在(zài)不(bù)遠(yuǎn)的(de)將(jiāng)來(lái),AI不(bù)再(zài)隻(zhǐ)是(shì)“模(mó)擬(nǐ)人(rén)”,而(ér)是(shì)與(yǔ)人(rén)類(lèi)共(gòng)同(tóng)探(tàn)索(suǒ)世(shì)界(jiè)、建(jiàn)設(shè)世(shì)界(jiè)的(de)夥(huǒ)伴。
撰文:記者 段大衛
編輯:段大衛
AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號