中國資本網(wǎng) > 熱點 > 正文
沙利文發(fā)布《2025年中國世界模型發(fā)展白皮書》
2025-09-23 09:46:19來源: 今日熱點網(wǎng)

世界模型正走向復(fù)雜智能行為生成的關(guān)鍵過渡期,正成為推動物理AI與虛擬世界融合的關(guān)鍵基礎(chǔ)設(shè)施,助力中國在全球AI競爭中占據(jù)領(lǐng)先地位。當前,世界模型在自動駕駛領(lǐng)域正從研發(fā)測試走向量產(chǎn)賦能,通過生成海量高保真場景,推動自動駕駛系統(tǒng)持續(xù)學(xué)習(xí)、自主驗證并快速迭代優(yōu)化,驅(qū)動L3/L4系統(tǒng)落地,大幅降低實車測試成本與時間。在具身智能領(lǐng)域,世界模型則作為合成數(shù)據(jù)引擎,破解物理交互數(shù)據(jù)短缺瓶頸,為機器人提供高效、安全的虛擬訓(xùn)練環(huán)境,加速其適應(yīng)真實世界任務(wù)。兩大應(yīng)用均凸顯世界模型通過仿真與生成,推動AI從感知向行動閉環(huán)演進的核心價值。

本報告聚焦“世界模型”(World Models)這一前沿人工智能技術(shù),分析其發(fā)展現(xiàn)狀、技術(shù)路徑、市場格局及未來趨勢。世界模型是理解現(xiàn)實世界動態(tài) (包括其物理和空間屬性) 的生成式 AI 模型。它們使用文本、圖像、視頻和運動等輸入數(shù)據(jù)來生成視頻。通過學(xué)習(xí),它們能夠理解現(xiàn)實世界環(huán)境的物理特性,從而對運動、應(yīng)力以及感官數(shù)據(jù)中的空間關(guān)系等動態(tài)進行表示和預(yù)測,加速物理AI的虛擬世界生成,生成可擴展的增強型數(shù)據(jù),從而消除數(shù)據(jù)瓶頸,實現(xiàn)更高效的基礎(chǔ)模型訓(xùn)練。本白皮書的研究目的在于全面梳理世界模型的發(fā)展歷程、現(xiàn)狀、核心技術(shù)及其在智能駕駛、具身智能中的應(yīng)用,并通過對不同廠商能力的對比分析,探討世界模型未來的發(fā)展趨勢。

01

2025年世界模型:從感知現(xiàn)實到?jīng)Q策未來的AI躍遷

世界模型(World Models)作為一種生成式AI模型,其核心在于通過構(gòu)建內(nèi)部表征來理解真實世界的動態(tài)規(guī)律(包括物理特性與空間屬性),并借助多模態(tài)輸入(文本、圖像、視頻、運動數(shù)據(jù)等)生成視頻內(nèi)容,實現(xiàn)對現(xiàn)實環(huán)境物理屬性的理解并通過生成環(huán)境及動作,從而模擬、指導(dǎo)及實施決策。World Labs創(chuàng)始人、斯坦福大學(xué)教授李飛飛指出“世界模型不僅應(yīng)當感知和建?,F(xiàn)實世界,還應(yīng)具備展望可能存在的未來狀態(tài)的能力,從而為決策提供指導(dǎo)?!比欢诎l(fā)展與現(xiàn)狀方面,世界模型仍處于早期階段,大多集中在感知層面的模擬與壓縮,尚未真正實現(xiàn)“感知-預(yù)測-決策”一體化的穩(wěn)定閉環(huán)。盡管在自動駕駛領(lǐng)域已有試點應(yīng)用,但多依賴特定環(huán)境與強先驗,不具備通用性與長期泛化能力。未來的發(fā)展方向?qū)⒓性谌齻€方面:一是通過多模態(tài)輸入增強對世界狀態(tài)的理解;二是引入因果建模與可控生成機制,提升預(yù)測準確性與行為規(guī)劃能力;三是將世界模型與具身智能系統(tǒng)深度融合,實現(xiàn)從“觀察世界”到“理解并參與世界”的躍遷。

資料來源:沙利文分析,頭豹研究院02

不同世界模型廠商根據(jù)其自身戰(zhàn)略與不同維度的技術(shù)優(yōu)勢,打造獨特的世界模型能力及相關(guān)產(chǎn)品

世界模型的技術(shù)能力建立在四大支柱之上。因果推理能力 (Causal Reasoning): 使AI能夠回答“如果A發(fā)生,B會怎樣?”的假設(shè)性問題,理解動作與結(jié)果之間的深層因果關(guān)系,從而提升在動態(tài)環(huán)境中的自主決策能力。時空一致性 (Spatiotemporal Consistency): 解決傳統(tǒng)視頻生成中物體扭曲、變形的問題。世界模型通過長期記憶機制、潛在空間建模、對象中心表征等技術(shù),在更高維度保持空間結(jié)構(gòu)穩(wěn)定和時間演化合理,生成穩(wěn)定、連貫的視頻序列。多模數(shù)據(jù)物理規(guī)則描述 (Physical Rule Description): 旨在模擬復(fù)雜的物理現(xiàn)象(如流體運動、物體碰撞)。世界模型預(yù)測的是遵循基本3D幾何和物理規(guī)則的3D場景結(jié)構(gòu),而非簡單像素,從而避免了“夢境般”的不真實感,為后續(xù)交互奠定基礎(chǔ)。執(zhí)行與實時反饋 (Execution & Real-time Feedback): 通過與強化學(xué)習(xí)結(jié)合,實現(xiàn)“感知→建?!?guī)劃→執(zhí)行→感知更新→模型修正”的動態(tài)循環(huán)。低延遲的實時反饋是實際應(yīng)用的基礎(chǔ),可通過輕量化技術(shù)與潛空間狀態(tài)生成實現(xiàn)。

行業(yè)通常采用FID、FVD、幀率、時長和一致性等指標來量化評估其性能。不同世界模型廠商根據(jù)其自身戰(zhàn)略與不同維度的技術(shù)優(yōu)勢,打造獨特的世界模型能力及相關(guān)產(chǎn)品。目前,技術(shù)路徑主要分為生成式與非生成式兩類,國際廠商如英偉達(COSMOS)、谷歌(Genie3)和Meta(V-JEPA2)推出了領(lǐng)先模型,而商湯(絕影開悟) 憑借其“首個高分辨率與稀疏控制的多視世界模型”等創(chuàng)新,在技術(shù)指標對比中與這些國際巨頭同臺競技,成為平臺賦能型的代表廠商。

資料來源:沙利文分析,頭豹研究院03

當前超過80%自動駕駛算法使用世界模型進行輔助訓(xùn)練,世界模型推動自動駕駛系統(tǒng)持續(xù)學(xué)習(xí)、自主驗證并快速迭代優(yōu)化。

當前,超過80%自動駕駛算法使用世界模型進行輔助訓(xùn)練。世界模型能通過生成多層復(fù)雜要素結(jié)合的場景,將傳統(tǒng)算法難以覆蓋的“高動態(tài)+高不確定性”場景轉(zhuǎn)化為可控問題,助力自動駕駛系統(tǒng)在產(chǎn)品性能和市場表現(xiàn)的雙重升級。一方面,世界模型能夠快速生成海量高保真場景,覆蓋長尾與極端事件,顯著增強系統(tǒng)魯棒性與安全保障。另一方面,世界模型通過高效仿真替代真實路測,不再依賴昂貴標注和地圖數(shù)據(jù),在降低研發(fā)成本體系的同時推動產(chǎn)品快速迭代和市場拓展。其通過構(gòu)建“真實數(shù)據(jù)→模型訓(xùn)練

→仿真場景驗證→模型部署”的閉環(huán)反饋機制,并提供統(tǒng)一的潛在世界狀態(tài)表征,從而為感知、預(yù)測、規(guī)劃、控制等模塊提供一致的認知語境。因此,世界模型能夠推動自動駕駛系統(tǒng)持續(xù)學(xué)習(xí)、自主驗證并快速迭代優(yōu)化,從而顯著提升端到端自動駕駛表現(xiàn)。世界模型是突破L4(如Robotaxi等)規(guī)?;渴鹌款i的加速器,是構(gòu)成自動駕駛智能體走向類人認知與判斷模式的關(guān)鍵基礎(chǔ)。

資料來源:沙利文分析,頭豹研究院04

世界模型是重塑具身智能開發(fā)范式的核心引擎,為具身智能提供高質(zhì)量、低成本、易擴展的合成數(shù)據(jù)生成路徑,解決當前數(shù)據(jù)瓶頸,未來世界模型將成為具身智能的“認知核心”

具身智能代表著AI從純粹的信息處理轉(zhuǎn)向物理世界的交互。其核心痛點在于物理交互數(shù)據(jù)的“千倍級缺口”,缺口超過99%。具身智能所需的數(shù)據(jù)需要整合文本指令、 多視角視覺、關(guān)節(jié)運動軌跡及物理交互等多維信號,復(fù)雜度遠超純文本或單一視覺模態(tài)。采集真實的物理交互數(shù)耗時長成本高,使得技術(shù)研發(fā)速度嚴重滯后。而世界模型能生成視覺逼真、物理精確的合成數(shù)據(jù),有效克服了傳統(tǒng)仿真數(shù)據(jù)與真實世界之間的差異。同時能夠大幅降低數(shù)據(jù)獲取的時間和經(jīng)濟成本,并輕松實現(xiàn)數(shù)據(jù)規(guī)模的擴展。通過世界模型生成的海量、多樣化合成數(shù)據(jù)進行訓(xùn)練,能顯著提升具身智能模型在未知環(huán)境中的適應(yīng)能力和任務(wù)執(zhí)行成功率。

當前,自動駕駛領(lǐng)域的世界模型應(yīng)用成熟度高于具身智能領(lǐng)域;而未來,世界模型將成為具身智能的“認知核心”。世界模型不僅為具身智能提供數(shù)據(jù)支持,更正在重塑其整個開發(fā)范式。世界模型作為平臺的預(yù)測與生成引擎,無縫整合了從數(shù)據(jù)合成、算法訓(xùn)練到仿真驗證的全流程,形成了一個高效的閉環(huán)迭代系統(tǒng)。通過提供集成化的工具鏈,消除了自行構(gòu)建基礎(chǔ)設(shè)施的復(fù)雜工程障礙,讓開發(fā)者能專注于算法與應(yīng)用創(chuàng)新,從而大幅提升研發(fā)效率。為“感知-決策-執(zhí)行”全流程提供安全、可解釋的閉環(huán)驗證,通過精確模擬物理交互,系統(tǒng)性提升智能體的適應(yīng)性和可靠性。深度整合開發(fā)工具鏈,消除了傳統(tǒng)割裂流程帶來的效率損耗,支持對主流模型進行高效的開發(fā)、訓(xùn)練和性能優(yōu)化。

資料來源:沙利文分析,頭豹研究院05

案例分析:商湯‘開悟世界模型’綜合能力在獨立第三方及主機廠中處于領(lǐng)先地位

商湯“開悟”世界模型綜合能力在獨立第三方及主機廠中處于領(lǐng)先地位,可以媲美世界領(lǐng)先的世界模型廠商。在智能駕駛方面,商湯為自動駕駛廠商提供低成本海量仿真數(shù)據(jù)與極端場景覆蓋,助力加速訓(xùn)練迭代與量產(chǎn)落地。與智己汽車共建端到端數(shù)據(jù)工廠,通過生成高風(fēng)險長尾場景補足訓(xùn)練和驗證數(shù)據(jù),顯著加快智駕量產(chǎn)落地。以及在上海自動駕駛實訓(xùn)場支撐數(shù)據(jù)到模型上車的全鏈路,規(guī)?;啥嘁暯欠抡鏀?shù)據(jù),降低數(shù)據(jù)成本并提升研發(fā)效率。

此外,商湯構(gòu)建了以商湯“開悟”世界模型為核心引擎的悟能具身智能平臺,實現(xiàn)視覺感知、精準導(dǎo)航與多模態(tài)交互,并通過端側(cè)與云側(cè)算力支撐,實現(xiàn)智能體在真實環(huán)境中的自主理解與行動。該平臺是首個支持高分辨率與稀疏控制的多視世界模型,突破了具身智能數(shù)據(jù)合成技術(shù)瓶頸。同時展現(xiàn)了其領(lǐng)先的合成數(shù)據(jù)能力,支持一鏈生成場景多樣性可控泛化場景要素可控耦合、任意編輯3D技術(shù)控制生成逼真軌跡。


關(guān)鍵詞:

相關(guān)新聞
專題新聞
  • LV推出充氣夾克多少錢?lv是什么檔次?
  • 三星手機業(yè)務(wù)換帥是哪一年?三星手機為什么撤出中國?
  • 股票配資是什么意思?個人做股票配資違法嗎?
  • 數(shù)據(jù)中心機房是干什么的?idc機房主要用于哪些工作?
  • 周樂偉接班董明珠真的嗎?格力集團是世界500強企業(yè)嗎?
  • 小米技術(shù)委員會厲害嗎?米家是不是小米旗下的公司?

京ICP備2021034106號-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com