AI懂後空翻，但懂“水會灑”嗎？北京這一模型專補“物理規律”課

作者：閱讀：262次　發布時間：2025-10-19 09:31:08

【導語】近年來AI進化迅猛，但要真正走進物理世界，具身智能麵臨“物理鴻溝”。近日北京人形機器人創新中心開源具身世界模型WoW，它以高質量交互數據為基，通過獨特構建思路與“自學方法”，實現從想象到執行的跨越，具備強大泛化能力，有望讓機器人成為人類探索、建設世界的夥伴。

近年來，AI的進化讓人目不暇接。從GPT係列“讀懂語言”，到Sora係列“看世界”，糖心免费视频一次次被AI驚人的能力所震撼。但一個更深刻的問題隨之而來：如果AI要真正走進物理世界，成為能洗衣、做飯、裝配的機器人，它需要什麽？

波士頓動力的機器人可以後空翻，北京人形(xíng)機(jī)器(qì)人創新中心（以下簡稱“北京人形”）的“具身天工Ultra”也能跑完半程馬拉鬆。這些“體能”上的飛躍肉眼可見。然而，讓機器人完成一個後空翻很難，但讓它“理解”麵前的水杯為什麽倒下後水會灑出來，或許更難。這，就是具身智能麵臨的“物理鴻溝”。

近日，“北京人形”開源了其全新的具身世界模型——WoW（World-Omniscient World Model）。“WoW就是為了讓機器人‘理解物理世界’，並且給到算法觸摸世界的雙手。”北京人形相關技術人員說。

為什(shén)麽(me)“以(yǐ)假(jiǎ)亂(luàn)真”還不夠？

Sora 2的出現，確實讓AI成了個出色的“電影導演”，它拍出的“大片”逼真到讓人驚歎。但在具身智能領域，一個機器人不能隻當“觀眾”或“導演”，它還要當“物理學家”，因為“看起來真實”和“物理上正確”是兩碼事。

**機器人需要的，是對“時序一致性”和“物理因果鏈”的統一。**比如一個東西被推了，它應該往哪兒倒；一個杯子倒了，水必須灑出來。Sora 2或許能生成一(yī)個(gè)“看(kàn)起(qǐ)來(lái)”很(hěn)酷(kù)的(de)機器人動作，但WoW要確保這個動作符合牛頓的規矩。

“相較於Sora 2，WoW具身世界模型在模擬機器人操作的時空一致性、物理推理能力表現更為出色。”北京人形相關技術人員表示。

在素材的對比測試中，無論是讓模型模擬“依次抓取火方塊、柔性方塊、水方塊”，還是“打開一本圖書”，WoW生成的模擬結果在物理交互的準確性上，都顯現出優勢。

這種差異的背後，源於WoW不同的構建思路。它不是一個單純的視頻生成器，而是一個被設計為“物理引擎+想象係統”的DiT（Diffusion Transformer）世界生成基座模型。**它的核心任務是根據環境狀態與曆史幀，預測未來場景、推演物理演化，並還原動態的因果鏈。要實現這一點，數據是關鍵。**WoW的學習材料並非來自互聯網上的海量視頻，而是來自一個更專注的數據庫。“北京人形”相關技術人員表示，他們從800萬條海量的“機器人與物理世界交互軌跡”中，通過自建的數據優化精煉管線，篩選出了200萬條高質量的訓練集。這種“交互數據”而非“觀察數據”，可能是WoW理解物理的關鍵。

此外，該團隊還驗證了模型規模與性能的“冪律增長”關係。他們訓練了從1.3B（“B”代表十億）、2B、7B到14B參數的全係列模型。研究結果證明：“隨著模型規模提升，物理一致性與生成穩定性以及泛化性呈顯著上升趨勢。”

如何讓模型“自己教自己”？

如果說龐大且高質量的交互數據是“教材”，那麽WoW的核心創新之一，就是一套名為SOPHIA（Solver-Critic-Refiner）的“自學方法”。“北京人形”在其研究中稱，這是“業內首次提出SOPHIA框架，讓世界模型‘自己教自己’。”

這套機製，試圖模擬人類“想象－驗證－修正－再想象”的核心智能特征。它由兩個關鍵部分組成，形成了一個“生成－批評－改進”的閉環優化過程。

但光會“想”還不行，機器人必須能“做”。WoW係統的另一大支柱，是FM-IDM逆動力學模型（Flow-Mask Inverse Dynamics）。這正是那雙“觸摸世界的雙手”。**它的作用，是將在“想象”中生成的視頻翻譯成真實世界中可執行的機器人指令。**通過給定連續兩幀預測視頻，FM-IDM能夠計算出機器人末端執行器的動作變化量，類似AI在腦子裏想好了“手從A點移動到B點”的畫麵，FM-IDM就能反推出“機械臂關節需要旋轉X度、Y度”的具體指令。技術人員解釋說，“這標誌著真正實現從生成到執行的跨越。”

開(kāi)源(yuán)一(yī)個(gè)“具(jù)身(shēn)大(dà)腦(nǎo)”意(yì)味(wèi)著(zhe)什(shén)麽(me)？

一(yī)個(gè)模(mó)型(xíng)是(shì)否(fǒu)真(zhēn)正(zhèng)理(lǐ)解(jiě)了(le)規(guī)律(lǜ)，最(zuì)好(hǎo)的(de)檢(jiǎn)驗(yàn)標(biāo)準(zhǔn)是(shì)“泛(fàn)化(huà)能(néng)力(lì)”。“WoW不(bù)是(shì)在(zài)記(jì)憶(yì)訓(xun)練(liàn)場(chǎng)景(jǐng)，而(ér)是(shì)在(zài)學(xué)習(xí)‘物(wù)理(lǐ)規律的抽象本質’。”“北京人形”在報告中強調，模型具備“跨機器人形態泛化、任務泛化、場景泛化全方位能力”。

“北京人形”相關技術人員表示，WoW的泛化能力體現在多個層麵。**在“域內”，它可以生成長程、複雜的任務視頻，例如“打開洗碗機”，乃至“依次按下紅色按鈕，收拾餐具，按下綠色開關”這樣的多步任務。在“域外”，它能將其學到的知識，應用到未曾見過的機器人本體和場景上。**例如，生成“具身天工2.0”機器人（未用於訓練）執行“把橙子放進盤子裏”“倒酒”等任務的視頻。

“糖心免费视频希望WoW能成為世界模型的研究基礎設施。”“北京人形”技術人員展望道。在他們看來，WoW一方麵可以實現“自我造數”（AI擁有“自我造數”能力），解決數據稀缺問題；另一方麵，它打通了“從視覺‘想象’中反推真實可執行的動作指令”的通路，使機器人在抓取、裝配等任務上的自主能力有望大幅提升。

“WoW通過係統性結合完成了‘想象世界→理解物理→生成視頻→執行動作→再學習’的邏輯閉環。”“北京人形”技術人員說。此前，該中心已經展示了其在“能跑”和“好用”方麵的實力，而WoW的開源，則補全了“大腦”層麵的關鍵拚圖。通過此次研究，也相信北京人形機器人將持續開源開放，助力行(xíng)業(yè)打(dǎ)造(zào)最(zuì)能(néng)跑(pǎo)最(zuì)好(hǎo)用(yòng)的(de)具(jù)身(shēn)智(zhì)能(néng)機(jī)器(qì)人(rén)。或(huò)許(xǔ)在(zài)不(bù)遠(yuǎn)的(de)將(jiāng)來(lái)，AI不(bù)再(zài)隻(zhǐ)是(shì)“模(mó)擬(nǐ)人(rén)”，而(ér)是(shì)與(yǔ)人(rén)類(lèi)共(gòng)同(tóng)探(tàn)索(suǒ)世(shì)界(jiè)、建(jiàn)設(shè)世(shì)界(jiè)的(de)夥(huǒ)伴。

撰文：記者段大衛

編輯：段大衛

【官網首頁】【返回列表】

上一篇：鎖子甲玩到納米級？這 “分子甲” 能扛極端環境

下一篇：首次捕獲！這一大國重器有重要發現

糖心免费视频,糖心APP官网进入,糖心APP污视频,成人糖心VLOG视频

🆔-AI智慧體育與城市空間數字化解決方案服務商