91视频观看-91视频观看免费-91视频免费网址-91视频免费网站-国产日产欧产精品精品推荐在线-国产日产欧美a级毛片

關于ZAKER 合作
硅星人 3小時前

對話智源研究院王仲遠:做具身智能的“安卓系統”,而非專用的“ iOS ”

大模型的發展正在遭遇瓶頸。隨著互聯網文本數據被大規模消耗,基于數字世界訓練的 AI 模型性能提升速度明顯放緩。與此同時,物理世界中蘊藏著數字世界數百倍甚至千倍的多模態數據,這些數據遠未被有效利用,成為 AI 發展的下一個重要方向。

在 2025 北京智源大會上,智源研究院發布了 " 悟界 " 系列大模型,試圖推動 AI 從數字世界邁向物理世界,實現所謂的物理 AGI。這一系列包含原生多模態世界模型 Emu3、腦科學多模態通用基礎模型見微 Brain μ、跨本體具身大小腦協作框架 RoboOS 2.0 與具身大腦 RoboBrain 2.0 以及全原子微觀生命模型 OpenComplex2,覆蓋從宏觀到微觀的物理世界認知。

然而,物理 AGI 面臨著實實在在的技術困境。當前具身智能陷入一個 " 死循環 ":硬件不成熟導致數據稀缺,數據稀缺使得模型能力有限,模型能力弱又影響落地應用,最終阻礙產業規模化發展。如何破解這一循環?數據從何而來?跨本體泛化如何實現?

在智源大會前夕,硅星人與智源研究院院長王仲遠進行了深度對話,探討物理 AGI 從概念到現實需要跨越哪些關鍵門檻,以及智源的技術路徑能否為這一變革提供可行的解決方案。

打造具身智能的 " 安卓系統 "

1、從 ' 悟道 ' 到 ' 悟界 ' 的命名變化,反映了智源對大模型技術發展趨勢怎樣的判斷?這種轉變的底層邏輯是什么?

王仲遠:" 悟界 " 的 " 界 ",代表著對于虛實世界邊界的突破,代表對物理世界的賦能,是向物理 AGI 方向的邁進。

這種轉變背后有深層的技術判斷。我們堅定的認為大模型的技術還遠沒有到發展的盡頭。過往所說的 " 百模大戰 " 更多的是大語言模型的競爭,而大語言模型受限于互聯網數據的使用,基礎模型性能雖然還在提升,但提升速度不如以前。

解決大語言模型性能提升瓶頸的解法有很多。一是通過強化學習,在后訓練和推理上提升,例如 O1、O3、O4、R1。二是數據合成。還有一個方向就是多模態。我們堅定的認為在全世界范圍內,多模態數據是文字數據的百倍千倍乃至萬倍甚至更多,這些數據遠沒有被很有效利用。

在去年的智源大會上,我們已經對大模型的技術路線進行了預判,認為會從大語言模型往多模態,尤其是原生多模態世界模型的方向發展。原生多模態世界模型本質上是為了讓人工智能感知和理解物理世界,進而推進和物理世界的交互。

2、原生多模態模型的本質是構建 " 世界模型 " 么?是追求對物理規律的極致建模?還是構建具身智能的認知框架?

王仲遠:" 世界模型 " 在世界范圍內沒有共同的定義,有很多名稱 --" 空間智能 "、" 時空智能 " 等。我們將 Emu3 命名為 " 原生多模態世界模型 " 時,是認為它能通過單一模型捕捉世界的規律,不僅僅是物理世界的規律,還能融合豐富的多模態數據,例如人類與世界交互產生的腦電信號等,世界的多模態符號非常豐富,遠不止圖像、文字、聲音和視頻。智源的 " 原生多模態世界模型 " 代表的更多是人工智能對世界的探索。

" 讀萬卷書,更需要行萬里路 ",如果一個人從出生就沒有見過世界,即使讀到了博士,對世界的理解依然是片面的。大模型技術過往基于互聯網數據,尤其是互聯網文本數據訓練而來,固然對知識的理解很強,但對真實世界的運作規律并不理解。AI 從數字世界跨向物理世界時必須突破數字世界的隔閡,最重要的隔閡和邊界是空間和時間的感知。

3、物理世界的多模態是哪些模態?我看到見微 Brain μ 的模態就是收集神經信號,未來 AI 是否可以突破人類的感知限制?

王仲遠:當然," 世界模型 " 到底包含什么,除了時間和空間,還有不同模態數據,例如腦信號數據、各種傳感器數據等,真實世界模型復雜性更高。

見微 Brain μ 模型,將 fMRI、EEG、雙光子等神經科學與腦醫學相關的腦信號統一 token 化,實現多模態腦信號與文本、圖像等模態的多向映射,。

Brain μ 整合了神經科學領域多個大型公開數據集和多個合作實驗室的高質量神經科學數據,完成了超過100 萬單位的神經信號預訓練。

Brain μ 可同步處理多類編解碼任務,兼容多物種動物模型(包括小鼠 狨猴 獼猴)與人類數據,實現科學數據注釋、交互式科學結論解讀、大腦感覺信號重建及模擬刺激信號生成

具身智能領域會有更多的模態,比如說 3D 信號、時空信號等,都可以作為一種模態。各種傳感器的數據,這些都屬于物理世界的一種模態。真實的世界模型的復雜性會更強。

現在很多多模態模型,看到這個咖啡杯在桌子上,會描述 " 咖啡杯在桌上,這個咖啡杯是白色的,上面有一些文字 ",但是人類看到首先有空間的認知是 " 咖啡杯在桌子的邊緣,很危險 "。現在絕大部分多模態大模型不具備這樣的判斷能力。

機器人操作時就應該從邊緣往里拿,而不是從里往外拿,因為一碰就會跌落,這個跌落就包含時間序列的預測,咖啡杯有可能掉下去甚至弄臟地板,這就是時空智能預測,是智源所探索的多模態世界模型的能力。

4、RoboBrain 2.0 在技術架構上與其他具身智能模型的本質區別是什么?為什么選擇跨本體通用而非專用優化的路線?

王仲遠:智源具身大腦 RoboBrain 能夠跨本體,目前沒有幾家公司能夠真正做到這一點,就好比 IOS 系統只能在 iPhone 使用,但安卓系統能在不同的手機上運行。智源是一家科研機構,希望構建面向不同硬件本體使用的具身大模型,這是我們的理念。

RoboBrain 能夠適配各種構型的機器人,包括機械臂、輪式單臂、輪式雙臂、雙足、四足等等。RoboBrain 2.0 相比于 RoboBrain 1.0 的基于 Prompt 的多機任務規劃機制和初級空間理解能力,進一步擴展了基于多本體 - 環境動態建模的多機協同規劃能力,可實時構建包含本體定位的場景圖(Scene Graph),并自動完成跨本體的任務規劃。

當前,具身智能的 VLA 模型泛化性不夠,也許能把咖啡端得很好,但并不能很好地解決其他泛化任務。具身智能或者機器人 2.0 時代,最重要的是能突破專有任務,達到一定的泛化性,再到未來具備更通用、跨領域的泛化性,這需要一定的發展過程。我們堅定認為,人工智能正在加速從數字世界走向物理世界,而真正的物理 AGI 需要的是能夠跨越不同硬件平臺的通用智能。

很多具身智能的機器人創業公司不具備模型研發能力,因為模型研發的成本、對人才的需求極高。智源通過開源,和更多的產業方合作,能夠促進整個產業健康有序的發展。這就是智源做跨本體通用具身模型的價值所在。

從看視頻到學技能

5、我似乎聽到一個矛盾,您一直強調機器人模型需要泛化能力,但這需要大量數據支撐。現實中具身智能數據稀缺是公認難題,智源如何解決數據量不足與泛化需求的難題?

王仲遠:具身智能目前存在循環悖論,具身能力不足限制了真機數據的采集,數據稀缺導致模型能力弱、落地難,無法進一步提升能力。破解問題的方法有很多,不同的參與方有不同的解法。比如,硬件成本越來越低,如果能夠做到幾千塊錢一臺機器人,大家買的可能性比一百萬一臺機器人的可能性大很多。

真實世界的數據很重要,但是是否足以訓練出來一個有價值的模型,這在學術界是有爭議的,仿真數據是其中一條路徑。

智源走的是大模型的路線,更多依靠的是互聯網數據幫助機器人學習智能。例如,今年春節,我觀察一個小女孩是怎么學習的,她刷了很多短視頻,就學會了拆糖果、撕包裝紙,把 5 顆藍莓串在一根牙簽上,這是沒有任何大人教給她的。她通過視頻學習到可能的技能,再通過實踐即強化學習去嘗試,可能失敗了幾次繼續嘗試,最后成功完成了任務,這就是強化學習的本質。所以,學習海量已有的數據,再通過強化學習和少量真實世界的數據不斷訓練它的能力,不斷突破具身智能的發展上限,這和大模型發展路線不謀而合,基礎能力到一定程度后通過強化學習進一步激發它的智能。

6、從互聯網視頻數據學習具身技能,實際效果如何?像您舉得例子,簡單的動作可以學會,但到復雜的行動時,模型還能通過這種路徑實現么?

王仲遠:現在具身關注點聚焦在基礎模型的推理和深度思考的能力。

具身基礎模型意味著訓練時并不會考慮那么多任務,具體落地應用時可能針對特定的任務采集數據。

當小腦技能不那么強時,可能采集幾十條、上百條數據就能使其初步具備某種程度的泛化性。當然,理想狀態下是什么數據都不用采集就具備泛化能力,但是這個周期很更長,短期內無法實現。

VLA 以及真正意義上端到端具身大模型需要時間沉淀。

學習海量已有的數據,再通過強化學習和少量真實世界的數據不斷訓練模型能力,有可能突破具身智能的發展瓶頸,但需要一個發展過程。

開源路線和產業博弈

7、在智源大會中,智源推出 SaaS 平臺和 MCP 的產業價值是什么?背后呈現什么樣的系統思考?

王仲遠:跨本體具身大小腦協作框架 RoboOS 2.0 是全球首個具身智能 Saas 平臺,可實現無服務器一站式輕量化機器人本體部署;同時,RoboOS 2.0 是全球首個支持 MCP 的跨本體大小腦協同框架,旨在打造具身智能領域的 " 應用商店 ",相同型號的機器人本體可直接下載和部署不同開發者開發的小腦技能,基于 RoboOS 2.0 框架完成大小腦整合,小腦技能一鍵注冊無需開發適配,代碼開放量僅為原來的 1/10。

相對于 RoboOS 1.0,RoboOS 2.0 對端到端推理鏈路進行了優化,整體性能提升 30%,全鏈路平均響應時延低至 3ms 以下,,端云通信效率提升了 27 倍;在功能層面,RoboOS 2.0 新增了多本體時空記憶場景圖(Scene Graph)共享機制,支持動態環境下的實時感知與建模;同時引入多粒度任務監控模塊,實現任務閉環反饋,有效提升機器人任務執行的穩定性與成功率。RoboOS 采取的是端云協同策略,將具身大腦 RoboBrain 部署在云端,小腦模型部署在本體上。RoboBrain 2.0,除了 7B,還有 32B,模型更大,能力更強,但能夠繼續保持端云協同。當然,在一些實際場景里也需要將具身大腦部署在本體上。

8、當前具身智能賽道上,科研機構、大廠、創業公司各有什么優勢和局限?智源作為非營利科研機構,如何在這個競爭激烈的賽道中發揮獨特價值?

王仲遠:智源一直有明確的定位——做高校做不了,企業不愿意做的事情,預研和探索前沿技術路徑。

僅從探索的先進性來講,智源和國內很多科研機構以及國際大廠并沒有大的區別,也沒有明顯的劣勢,但是智源的獨特性在于,取得了原生多模態世界模型底層架構、腦科學多模態通用基礎模型的突破等。

具身智能領域,中國獨特的優勢在于制造業、豐富的場景、政策支持,使得產業加速發展。智源所做的具身大模型、多模態基礎模型,都正在促進整個產業更快地發展。

大語言模型相比去年發展勢頭更好,模型效果更佳,這是一個相對確定的技術路線,已經開始轉化成產業、場景,這都是中國的優勢。在一些新的方向,比如多模態、世界模型,各自有特點。

9、未來 3 年具身智能最可能在哪個領域產生突破性的規模化應用?

王仲遠:我覺得未來 3 年,具身智能最可能在工業制造和服務機器人這兩個領域產生突破性的規模化應用。

從技術成熟度來看,工業場景相對更容易實現突破。因為工業環境相對結構化,任務相對標準化,而且對成本的承受能力更強。我們現在看到很多具身智能創業公司都在往工業方向去做,這不是偶然的。

但我要強調的是,現在的具身智能還處在一個相對早期的階段。我們看到很多所謂的 VLA 模型,它不具備泛化性,能夠在某個特定任務上做得很好,但實際上并不能夠很好地去解決其他更加泛化的任務。

具身智能要突破專用任務,到具備一定的泛化性,再到未來能夠具備各種泛化性,這是一個需要發展的過程。我們堅定認為,人工智能正在加速從數字世界走向物理世界,但這個過程需要時間的沉淀。

相關標簽

相關閱讀

最新評論

沒有更多評論了
主站蜘蛛池模板: 国产成人18 | 久久夜色精品国产噜噜亚洲a | 欧美色成人tv在线播放 | 欧美在线一区二区三区欧美 | 久久国产中文字幕 | 亚洲高清免费观看 | 欧美在线视频一区 | 日韩亚洲一区中文字幕 | 久久成人18免费 | 国产21区 | 91精品久久久久久久久网影视 | 亚洲国产成人久久 | 久草欧美视频 | 能在线观看的一区二区三区 | 日韩欧美视频在线播放 | 日韩中文精品亚洲第三区 | 国产成人综合日韩精品婷婷九月 | 亚洲欧美第一 | 免费观看欧美一级特黄 | 精品国产高清毛片 | 欧美日韩精品一区二区三区视频在线 | 国产喷水女王在线播放 | 久久精品国产线看观看亚洲 | 成人午夜视频在线观 | 国产精品一国产精品免费 | 免费日本在线视频 | 亚洲精品综合久久中文字幕 | 久久影院一区二区三区 | 中文成人在线视频 | 国产的一级毛片完整 | 久久精品免费一区二区三区 | 久草精品视频 | 亚洲九九色 | 国产精品青草久久 | 99精品视频在线免费观看 | 九九九九精品视频在线播放 | 日本天堂网在线观看 | 久久99亚洲精品久久 | 中文字幕在线观看网址 | 亚洲伦理天堂 | 在线播放一级片 |