作者:呂鑫燚
出品:具身研習(xí)社
春晚聚光燈照亮了具身智能一個(gè)顯性的變化。
2025年,宇樹H1的亮相尚處于技術(shù)驗(yàn)證階段。彼時(shí),其僅能完成基礎(chǔ)舞蹈動(dòng)作,運(yùn)動(dòng)控制能力缺乏集中化展示,整機(jī)動(dòng)態(tài)軌跡的流暢度不足,且在自主移動(dòng)與地面適應(yīng)性上存在不足之處,表明人形機(jī)器人從實(shí)驗(yàn)室技術(shù)向?qū)嵱没a(chǎn)品轉(zhuǎn)型的階段性瓶頸。
進(jìn)入2026年馬年春晚,宇樹攜G1與H2兩款人形機(jī)器人重磅登場,以全球首次全自主人形機(jī)器人集群武術(shù)表演刷新行業(yè)認(rèn)知。16臺機(jī)器人組成的集群實(shí)現(xiàn)了快速跑位,完成醉拳、雙截棍、舞劍等高難度武術(shù)動(dòng)作,手持長棍與武術(shù)表演者精準(zhǔn)配合,并實(shí)現(xiàn)道具的快速更換與穩(wěn)定抓持。
短短一年間,無論是運(yùn)動(dòng)控制還是操作軌跡絲滑度和群體協(xié)同,具身智能都展現(xiàn)了質(zhì)的飛躍。
舞臺之外,具身智能的作業(yè)智能也邁過涌現(xiàn)時(shí)刻,核心突破在于長序列任務(wù)執(zhí)行與柔性物體操控兩大技術(shù)難點(diǎn)的規(guī)模化落地。尤其是已經(jīng)出色完成行業(yè)公認(rèn)的高難度任務(wù)動(dòng)作“疊衣服”。該動(dòng)作涉及柔性形變感知、時(shí)序動(dòng)作規(guī)劃、精細(xì)力控反饋等全鏈路挑戰(zhàn),是具身智能從結(jié)構(gòu)化場景走向非結(jié)構(gòu)化場景的關(guān)鍵壁壘。
在我們驚嘆于機(jī)器人高難度動(dòng)作時(shí),更值得穿透“炫技”表象,探究其背后的產(chǎn)業(yè)范式革命。最核心的疑問在于:機(jī)器人的能力躍升,僅僅是技術(shù)參數(shù)的堆砌嗎?
答案顯然是否定的。
無論是通過umi等方式緩解“數(shù)據(jù)饑渴”,還是借助閉環(huán)反饋填平“虛實(shí)鴻溝”,這些技術(shù)迭代都只是具身智能躍遷的“表層切面”。真正推動(dòng)行業(yè)質(zhì)變的,是底層思考邏輯的根本性重構(gòu)。機(jī)器人正在告別“照貓畫虎”的模仿學(xué)習(xí)路徑,轉(zhuǎn)向“理解世界、預(yù)判未來”的模式。
用一個(gè)通俗的熱梗形容,人形機(jī)器人乃至整個(gè)具身智能領(lǐng)域,正在集體“開智”。
不過,這場“開智”革命并非單一路徑的勝利。當(dāng)下,支撐這一范式轉(zhuǎn)變的技術(shù)路線已分化為幾大核心派系,不同技術(shù)邏輯的碰撞與融合,正共同定義著具身智能的產(chǎn)業(yè)走向。

“開智”的核心錨點(diǎn)在于其智能基座——模型。作為控制感知、決策與執(zhí)行的“神經(jīng)中樞”,模型的架構(gòu)設(shè)計(jì)直接決定機(jī)器人理解物理世界、適配復(fù)雜任務(wù)的能力邊界,而這場關(guān)于“如何讓機(jī)器人真正開智”的產(chǎn)業(yè)競賽,正圍繞VLA架構(gòu)的演進(jìn)與爭議進(jìn)入深水區(qū)。
行業(yè)曾形成明確共識:人形機(jī)器人的能力突破離不開端到端VLA(Vision-Language-Action,視覺-語言-動(dòng)作)架構(gòu)的核心驅(qū)動(dòng)。這種通過融合視覺感知、語言理解與動(dòng)作生成三大模態(tài),打破了傳統(tǒng)“感知-?規(guī)劃?-?控制”分層架構(gòu)的信息損耗難題,實(shí)現(xiàn)端到端閉環(huán)。

谷歌DeepMind、智元機(jī)器人等中外企業(yè)的技術(shù)落地,印證了其在結(jié)構(gòu)化場景中適配準(zhǔn)確率,也逐步成為人形機(jī)器人從實(shí)驗(yàn)室走向商業(yè)化的核心技術(shù)底座。
但隨著需求側(cè)向非結(jié)構(gòu)化場景、長序列復(fù)雜任務(wù)的延伸,VLA架構(gòu)的“萬金油”屬性逐漸失效。
例如,王興興就曾評價(jià)行業(yè)常見的VLA模型,屬于“傻瓜式架構(gòu)”,對這類模型持懷疑態(tài)度。此外,多個(gè)業(yè)內(nèi)人士也開始討論VLA模型究竟是具身智能的終局,還是一種階段性的過渡方案。
其實(shí)這些爭議看起來是“口水戰(zhàn)”,但其焦點(diǎn)最終匯聚于一個(gè)核心命題:“VLA中的?L(語言)是否必要?”這場行業(yè)思辨的蔓延,本質(zhì)是對具身智能底層邏輯的重新審視。
此前業(yè)內(nèi)過度關(guān)注語言的必要性,是從LLM中吸取的成功經(jīng)驗(yàn),但具身智能需要和物理世界進(jìn)行真正的交互,而這種交互的骨架是否依舊為語言,目前尚不得知。李飛飛在a16z播客訪談中曾提到,“語言從根本上來說是一種純粹生成的信號,世界上本沒有語言”
星海圖CTO?趙行表示,具身智能需要平行于大語言模型的“Large Action Model”,這類模型要以“動(dòng)作”為核心,而非語言。他解釋道,人類智能的進(jìn)化是“先有動(dòng)作、再有視覺、最后有語言”,機(jī)器人要適應(yīng)物理世界,也應(yīng)該遵循類似邏輯。
這場架構(gòu)之爭的本質(zhì),無關(guān)單一技術(shù)路線的優(yōu)劣,而指向一個(gè)更根本的產(chǎn)業(yè)命題:機(jī)器人到底該以何種方式理解世界?是通過人類語言這一“間接符號”,還是通過動(dòng)作與環(huán)境的 “直接交互”構(gòu)建認(rèn)知?或者是以世界模型為核心,讓機(jī)器人在自己世界里“腦補(bǔ)”動(dòng)作流,進(jìn)而更絲滑的在真實(shí)世界執(zhí)行?
業(yè)內(nèi)逐漸形成的共識是,具身智能的終局架構(gòu),必然是對物理世界認(rèn)知邏輯的精準(zhǔn)抽象。它可能保留VLA架構(gòu)的跨模態(tài)融合優(yōu)勢,也可能剝離冗余的語言中介,但其核心必須適配機(jī)器人作為物理實(shí)體的交互本質(zhì),實(shí)現(xiàn)“感知-決策-執(zhí)行”與物理世界規(guī)律的深度對齊。

由此可見,當(dāng)業(yè)內(nèi)在尋找下一個(gè)模型架構(gòu)時(shí),模型的打開方式成為重中之重。即我們該如何知道機(jī)器人究竟需要什么樣的模型架構(gòu)?
答案早已藏在機(jī)器人落地的底層邏輯中:那些真正轉(zhuǎn)化為生產(chǎn)力的人形機(jī)器人,無不是聽懂了場景訴求、從真實(shí)交互中生長而來;模型架構(gòu)的進(jìn)化,同樣需要回歸機(jī)器人與世界對話的原生方式。
說白了,機(jī)器人到底該如何理解世界,這個(gè)事機(jī)器人自己已經(jīng)給出答案了。
機(jī)器人在真實(shí)工作場景中,無論是疊衣服還是擰螺絲,其本質(zhì)都是要具備“長時(shí)序記憶與實(shí)時(shí)反饋能力”“動(dòng)態(tài)場景的隨機(jī)應(yīng)變能力”。這兩大能力的核心,絕非簡單的“記住過往數(shù)據(jù)”,而是“預(yù)判未來狀態(tài)”。
舉個(gè)例子,人類執(zhí)行疊衣服、裝配零件等任務(wù)時(shí),不會逐幀依賴視覺反饋,而是會基于物理常識預(yù)判下一步動(dòng)作的結(jié)果:疊襯衫時(shí)提前預(yù)判布料的褶皺走向,擰螺絲時(shí)預(yù)判扭矩達(dá)到閾值后的狀態(tài)。機(jī)器人要實(shí)現(xiàn)同樣的“絲滑操作”,關(guān)鍵便在于將“記憶”升級為“預(yù)測”,通過模型推演未來多幀的場景變化與動(dòng)作后果。
這些重點(diǎn)不在于“記住”而是“預(yù)測”。
誰能捏準(zhǔn)這個(gè)邏輯,誰才是真正把機(jī)器人模型架構(gòu)這個(gè)事玩明白了。螞蟻靈波開源的具身世界模型LingBot-VA,就是將“先預(yù)測、再動(dòng)作”?的架構(gòu)邏輯推向極致。
該模型創(chuàng)新性地提出自回歸視頻-動(dòng)作世界建模框架,核心突破在于將“預(yù)測世界狀態(tài)”?與?“生成動(dòng)作序列”?深度綁定,實(shí)現(xiàn)了“邊預(yù)測,邊動(dòng)作”。簡單來說就是,該模型不再是機(jī)械地執(zhí)行預(yù)設(shè)指令,而是在每一步操作時(shí),大腦都在實(shí)時(shí)推演接下來的畫面。

想象一下你在干精細(xì)活之前,是不是腦海里已經(jīng)知道每一個(gè)步驟該怎么做,也知道這個(gè)動(dòng)作完事后物體會有什么樣的變化。
LingBot-VA不止和人類思維模式相同。其工作中的特性,也和人類高度重合。能記住自己剛剛干了什么,還能真正擁有泛化,和人類一樣學(xué)會了洗盤子,就會洗碗,做到舉一反三。就連清洗細(xì)小的透明試管的高精度任務(wù),LingBot-VA加持下機(jī)器人已經(jīng)是可以輕松拿捏。
英偉達(dá)的DreamGen,也是同樣的路子,先生成視頻,再反推動(dòng)作。它把基礎(chǔ)模型架構(gòu)分為上下兩個(gè)部分,上半部分是一個(gè)視頻模型,負(fù)責(zé)預(yù)測未來;下半部分負(fù)責(zé)看著預(yù)測出來的視頻,反推并輸出動(dòng)作。
插個(gè)題外話,英偉達(dá)DreamGen推出時(shí),有業(yè)內(nèi)人士曾評價(jià)這是一條被寄予厚望的技術(shù)路線。不過從當(dāng)下的視角來看,其也沒有跑通閉環(huán)。
問題出在哪?現(xiàn)實(shí)世界是充滿變量的,一旦機(jī)器人在執(zhí)行中出現(xiàn)微小的物理偏差(比如手滑了一下),由于視頻是提前生成好的,模型無法實(shí)時(shí)修正畫面,機(jī)器人只能硬著頭皮按原計(jì)劃走,導(dǎo)致“腦子想的和手做的”徹底脫節(jié)。
不過,這并不代表DreamGen是一次失敗的嘗試。相反,它的出現(xiàn)從產(chǎn)業(yè)層面印證了一個(gè)關(guān)鍵判斷:世界模型是機(jī)器人在真實(shí)物理世界作業(yè)的核心支撐,只是在當(dāng)時(shí)尚未抵達(dá)產(chǎn)業(yè)臨界點(diǎn)。而LingBot-VA的問世,才真正補(bǔ)齊了最后一塊短板,成為具身世界模型完整閉環(huán)跑通的標(biāo)志性拐點(diǎn)。
歸根結(jié)底,“用機(jī)器人的視角打開世界”,本質(zhì)是讓模型架構(gòu)回歸物理世界的本質(zhì)規(guī)律,機(jī)器人不需要像人類一樣通過語言理解“重力”“摩擦力”,但需要通過預(yù)測能力感知這些物理規(guī)則;不需要記住每一個(gè)場景的操作參數(shù),但需要能推演不同場景下的動(dòng)作后果。
這種以“預(yù)測”為核心的架構(gòu)邏輯,恰好契合了機(jī)器人與物理世界交互的原生需求:擺脫對人類認(rèn)知中介(語言)的依賴,直接通過“預(yù)測-行動(dòng)”的閉環(huán),建立與世界的直接連接。
而這,正是具身智能走向“適配世界”的重要跨越。

從現(xiàn)在的視角來看,我們該思考的并不囿于LingBot-VA架構(gòu),而是這條架構(gòu)跑通后,具身智能將迎來什么樣的革新。
一個(gè)清晰的變化是,具身世界模型有望成為具身智能關(guān)鍵能力,也是具身智能的重要基座。
支撐這一轉(zhuǎn)變的是其融合了“世界模型”與 “物理動(dòng)作反饋閉環(huán)”。這并非簡單的技術(shù)疊加,而是深度融合。世界模型為機(jī)器人搭建起可預(yù)判、可推演的虛擬世界,提前模擬動(dòng)作后果與環(huán)境變化;物理動(dòng)作反饋則將現(xiàn)實(shí)交互中的數(shù)據(jù)實(shí)時(shí)回灌模型,持續(xù)校準(zhǔn)虛擬與現(xiàn)實(shí)的偏差,形成自進(jìn)化閉環(huán)。
它不僅從根源上重構(gòu)了機(jī)器人理解物理世界的底層邏輯,讓機(jī)器人擺脫對人工指令、標(biāo)注數(shù)據(jù)與固定軌跡的依賴,更成為破解非結(jié)構(gòu)化場景適配難、長時(shí)序任務(wù)穩(wěn)定性差、柔性操作精度不足等行業(yè)落地瓶頸的核心能力支柱。
站在產(chǎn)業(yè)視角審視,我們不應(yīng)該否認(rèn)VLA的貢獻(xiàn),也不能盲目推崇VA的未來。而是站在機(jī)器人的視角來看世界,聽機(jī)器人自己說需要什么樣的模型架構(gòu)。
這場模型架構(gòu)變革,是產(chǎn)業(yè)更清醒的信號之一,也是具身智能走向規(guī)?;逃玫年P(guān)鍵一躍。模型架構(gòu)的底層突破,直接決定了機(jī)器人的泛化能力、作業(yè)精度與落地成本,將推動(dòng)行業(yè)從舞臺化的技術(shù)展示,走向工業(yè)、家政、特種作業(yè)等真實(shí)場景的生產(chǎn)力釋放;也將為整機(jī)研發(fā)、場景方案、商業(yè)化落地劃定清晰的技術(shù)主線。
特別聲明:本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個(gè)人觀點(diǎn),不代表DoNews專欄的立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)