DoNews12月11日消息,在 8 月的 2025 年世界機器人大會上,宇樹科技 CEO 王興興表示當下火熱的 VLA 模型(視覺-語言-動作)是“相對比較傻瓜式的架構”,并表示“保持比較懷疑的態(tài)度”。這一觀點隨后引發(fā)了多方討論。
理想自動駕駛負責人郎咸朋 10 日發(fā)布長文,回應了王興興的質疑,表示他與王興興的觀點不同,他認為模型的關鍵是要與整個具身智能系統(tǒng)適配,在此基礎上,數據是起決定意義的。
在 2025 年成都國際汽車展覽會上,郎咸朋就表示:“VLA 分別代表視覺、語言和動作,與人類學習新知識、新能力的模式相同,具備學習藏在數據背后的邏輯推理能力,能夠像人一樣去思考、推理和解決問題,VLA 架構也將帶來更強大的能力和體驗提升?!?/p>
郎咸朋長文全文如下:
今年 8 月,我關注到宇樹科技創(chuàng)始人王興興提出對 VLA 的一些擔憂。當時沒有提出我的觀點,一是理想 VLA 司機大模型還沒正式發(fā)布,空口無憑;二是我們對具身機器人行業(yè),還處于密切關注階段。我跟王興興觀點最不一樣的地方在于,他認為模型架構更重要,但我認為模型的關鍵是要與整個具身智能系統(tǒng)適配,在此基礎上,數據是起決定意義的。
從今年 9 月 VLA 正式發(fā)布,到 12 月 6 日 OTA 8.1 的推送,經過兩個月多的“實踐出真知”后,我有兩點心得:第一,VLA 就是自動駕駛最好的模型方案,第二,具身智能最終拼的是整體的系統(tǒng)能力。
先說 VLA。
1)理想的 VLA 本質上就是生成式模型。我們是在用 GPT 的方式做自動駕駛,只不過生成的 Token 不是文本,而是軌跡和控制信號。從目前用戶使用的反饋看,在某些場景下理想的 VLA 已經具備了對物理世界的認知涌現。具體表現是用戶會越來越多的發(fā)現之前端到端沒有的擬人行為。
2)世界模型更適合做“考場”而不是“考生”。世界模型的高算力需求(訓練和推理都是)決定了它更適合在云端做數據生成和極度逼真的仿真測試和強化訓練,這也是理想目前正在做的,通過幾 E flops 的推理算力做仿真測試。這個算力水平,即使再強的車端芯片也無法做到。
3)空談架構不如看療效。在自動駕駛領域,脫離了海量真實數據談模型架構都是空中樓閣,我們之所以堅持 VLA,是因為我們擁有數百萬輛車構建的數據閉環(huán),這讓我們能在當前算力下,把駕駛水平做到接近人類。
再說具身智能。
要想做好自動駕駛,必須先把自動駕駛當作完整的具身智能系統(tǒng)對待,每一部分在研發(fā)過程中要相互配合才能將價值發(fā)揮出來。人類駕駛車輛并不需要特別強的能力,普通人都能學會。但這里講的普通人,是各部分都能相互協(xié)調的正常人。
再強的大腦,如果配的是高度近視的眼睛和不靈活的身體,是開不了車的。具身智能系統(tǒng)包括感知(眼睛)、模型(大腦)、操作系統(tǒng)(神經)、芯片(心臟)、本體(身體)。需要做到全棧自研,不僅僅是軟件棧,而是整體軟硬全棧。理想的自動駕駛團隊與基座模型、芯片、底盤團隊協(xié)同打造了整個的自動駕駛系統(tǒng)。
基座和芯片大家比較了解不多說了,底盤方面給一個簡單例子。底盤的 VMM(車輛運動管理)模塊會對自動駕駛的控制信號做精細化調校,在減速過程中區(qū)分卡鉗制動和液壓制動的使用策略,兼顧安全性和舒適體驗,實現“身體”和“大腦”的協(xié)同價值。
模型的關鍵是要與整個具身智能系統(tǒng)適配,在此基礎上,數據是起決定意義的。在機器人領域獲取數據相對困難,但在自動駕駛領域,特別是建立起數據閉環(huán)能力的車企來說并不是大問題。理想不僅可以從過去幾年積累的 10 幾億公里的存量數據里進行挖掘和篩選,更可以通過 150 萬車主的日常使用源源不斷的獲取新的數據。這與用數據采集車做數據是完全不同的,其質量和分布相比真實情況是有很大差距的。
另外,在篩選數據過程中,我們也發(fā)現很多有趣現象,比如有接近 40% 的人類駕駛數據都是偏一側開車的,也幾乎不會嚴格卡著限速值開車。我們認為其實這才是符合人類的駕駛行為,所以并沒有刻意刪除這些數據樣本。大家在使用 AD Max 時如果發(fā)現也有這些行為,那是模型跟各位學習到的習慣。
想哥在前兩天明確提到,未來五到十年,具身機器人核心將有兩種形態(tài):汽車類的具身機器人、人形類的具身機器人。理想的 VLA 不僅服務于現在的理想各類汽車產品形態(tài),也將服務于未來的汽車類具身機器人。
