http://bfqmb.cn 2025-08-14 10:12 來(lái)源:智元機(jī)器人
智元機(jī)器人重磅推出面向真實(shí)世界機(jī)器人操控的統(tǒng)一世界模型平臺(tái) --- Genie Envisioner(GE)。 不同于傳統(tǒng)“數(shù)據(jù)—訓(xùn)練—評(píng)估”割裂的流水線模式,GE將未來(lái)幀預(yù)測(cè)、策略學(xué)習(xí)與仿真評(píng)估首次整合進(jìn)以視頻生成為核心的閉環(huán)架構(gòu),使機(jī)器人在同一世界模型中完成從“看”到“想”再到“動(dòng)”的端到端推理與執(zhí)行。基于3000小時(shí)真機(jī)數(shù)據(jù),GE-Act不僅在跨平臺(tái)泛化和長(zhǎng)時(shí)序任務(wù)執(zhí)行上顯著超越現(xiàn)有SOTA,更為具身智能打開(kāi)了從視覺(jué)理解到動(dòng)作執(zhí)行的全新技術(shù)路徑。
🔹 Project pagehttps://genie-envisioner.github.io/
🔹 Arxivhttps://arxiv.org/abs/2508.05635
🔹Githubhttps://github.com/AgibotTech/Genie-Envisioner
當(dāng)前機(jī)器人學(xué)習(xí)系統(tǒng)普遍采用分階段開(kāi)發(fā)模式——數(shù)據(jù)收集、模型訓(xùn)練、策略評(píng)估,每個(gè)環(huán)節(jié)相互獨(dú)立,并需要專(zhuān)門(mén)的基礎(chǔ)設(shè)施和任務(wù)特定調(diào)優(yōu)。這種碎片化架構(gòu)增加了開(kāi)發(fā)復(fù)雜度,延長(zhǎng)了迭代周期,限制了系統(tǒng)的可擴(kuò)展性。GE平臺(tái)通過(guò)構(gòu)建統(tǒng)一的視頻生成世界模型,將這些分散的環(huán)節(jié)集成到一個(gè)閉環(huán)系統(tǒng)中。基于約3000小時(shí)的真實(shí)機(jī)器人操控視頻數(shù)據(jù),GE建立了從語(yǔ)言指令到視覺(jué)空間的直接映射,保留了機(jī)器人與環(huán)境交互的完整時(shí)空信息。
01/核心創(chuàng)新:視覺(jué)中心的世界建模范式
GE的核心突破在于構(gòu)建了基于世界模型的以視覺(jué)中心的建模范式。不同于主流VLA(Vision-Language-Action)方法依賴(lài)視覺(jué)-語(yǔ)言模型將視覺(jué)輸入映射到語(yǔ)言空間進(jìn)行間接建模,GE直接在視覺(jué)空間中建模機(jī)器人與環(huán)境的交互動(dòng)態(tài)。這種方法完整保留了操控過(guò)程中的空間結(jié)構(gòu)和時(shí)序演化信息,實(shí)現(xiàn)了對(duì)機(jī)器人-環(huán)境動(dòng)態(tài)更精確、更直接的建模。這一視覺(jué)中心的建模范式帶來(lái)了兩個(gè)關(guān)鍵優(yōu)勢(shì):
高效的跨本體泛化能力
基于強(qiáng)大的視覺(jué)空間預(yù)訓(xùn)練,GE-Act僅需極少量數(shù)據(jù)即可實(shí)現(xiàn)跨平臺(tái)遷移。在Agilex Cobot Magic和Dual Franka等全新機(jī)器人平臺(tái)上,GE-Act僅使用1小時(shí)(約250個(gè)演示)的遙操作數(shù)據(jù)就實(shí)現(xiàn)了高質(zhì)量的任務(wù)執(zhí)行。相比之下,即使是在多本體數(shù)據(jù)上有大規(guī)模預(yù)訓(xùn)練的π0和GR00T模型,在相同數(shù)據(jù)量下的表現(xiàn)也不如GE-Act。
這種高效泛化源于GE-Base在視覺(jué)空間中學(xué)習(xí)到的通用操控表征。通過(guò)直接建模視覺(jué)動(dòng)態(tài)而非依賴(lài)語(yǔ)言抽象,模型能夠捕捉到跨平臺(tái)共享的底層物理規(guī)律和操控模式,從而實(shí)現(xiàn)快速適配。
長(zhǎng)時(shí)序任務(wù)的精確執(zhí)行能力
更重要的是,視覺(jué)中心建模賦予了GE強(qiáng)大的未來(lái)時(shí)空預(yù)測(cè)能力。通過(guò)在視覺(jué)空間中顯式建模時(shí)序演化,GE-Act能夠規(guī)劃和執(zhí)行需要長(zhǎng)時(shí)序推理的復(fù)雜任務(wù)。
在折疊紙盒等超長(zhǎng)步驟任務(wù)中,GE-Act展現(xiàn)出了遠(yuǎn)超現(xiàn)有SOTA方法的性能。以紙盒折疊為例,這項(xiàng)任務(wù)需要精確執(zhí)行超過(guò)10個(gè)連續(xù)子步驟,每個(gè)步驟都依賴(lài)于前序動(dòng)作的準(zhǔn)確完成。GE-Act達(dá)到了76%的成功率,而專(zhuān)門(mén)針對(duì)柔性物體操控優(yōu)化的π0僅為48%,UniVLA和GR00T則完全無(wú)法完成(0%成功率)。
這種長(zhǎng)時(shí)序執(zhí)行能力的提升不僅源于GE的視覺(jué)世界建模,同時(shí)也得益于我們創(chuàng)新設(shè)計(jì)的sparse memory模塊。通過(guò)這樣的模塊設(shè)計(jì),能夠幫助機(jī)器人選擇性地保留關(guān)鍵歷史信息,從而在長(zhǎng)時(shí)序任務(wù)中保持精確的上下文理解。通過(guò)預(yù)測(cè)未來(lái)的視覺(jué)狀態(tài),GE-Act能夠"預(yù)見(jiàn)"動(dòng)作的長(zhǎng)期后果,從而生成更連貫、更穩(wěn)定的操控序列。相比之下,基于語(yǔ)言空間的方法在長(zhǎng)時(shí)序任務(wù)中容易出現(xiàn)誤差累積和語(yǔ)義漂移。
02/技術(shù)架構(gòu):三大核心組件
基于視覺(jué)中心建模理念,GE平臺(tái)包含三個(gè)緊密集成的組件:
GE-Base:多視角視頻世界基礎(chǔ)模型
GE-Base是整個(gè)平臺(tái)的核心基礎(chǔ),采用自回歸視頻生成框架,將輸出分割為離散的視頻塊(video chunks),每塊包含N幀。模型的關(guān)鍵創(chuàng)新在于其多視角生成能力和稀疏記憶機(jī)制。通過(guò)同時(shí)處理來(lái)自頭部相機(jī)和雙臂腕部相機(jī)的三路視角輸入,GE-Base能夠保持空間一致性并捕捉完整的操控場(chǎng)景。稀疏記憶機(jī)制通過(guò)隨機(jī)采樣歷史幀來(lái)增強(qiáng)長(zhǎng)時(shí)序推理能力,使模型能夠在保持時(shí)序連貫性的同時(shí)處理長(zhǎng)達(dá)數(shù)分鐘的操控任務(wù)。
訓(xùn)練采用兩階段策略:首先在3-30Hz的多分辨率采樣下進(jìn)行時(shí)序適應(yīng)訓(xùn)練(GE-Base-MR),使模型對(duì)不同運(yùn)動(dòng)速度具有魯棒性;隨后在5Hz固定采樣率下進(jìn)行策略對(duì)齊微調(diào)(GE-Base-LF),與下游動(dòng)作建模的時(shí)序抽象保持一致。整個(gè)訓(xùn)練基于AgiBot-World-Beta數(shù)據(jù)集的約3000小時(shí)、超100萬(wàn)條真機(jī)數(shù)據(jù),使用32塊A100 GPU訓(xùn)練約10天完成。
GE-Act:平行流匹配動(dòng)作模型
GE-Act作為即插即用的動(dòng)作模塊,通過(guò)160M參數(shù)的輕量級(jí)架構(gòu)將GE-Base的視覺(jué)潛在表征轉(zhuǎn)換為可執(zhí)行的機(jī)器人控制指令。其設(shè)計(jì)巧妙地與GE-Base的視覺(jué)主干平行設(shè)計(jì),采用與GE-Base相同網(wǎng)絡(luò)深度的DiT塊但使用更小的隱層維度以提高效率。通過(guò)交叉注意力機(jī)制,動(dòng)作路徑能夠充分利用視覺(jué)特征中的語(yǔ)義信息,確保生成的動(dòng)作與任務(wù)指令保持一致。
GE-Act的訓(xùn)練分為三個(gè)階段:動(dòng)作預(yù)訓(xùn)練階段將視覺(jué)表征投射到動(dòng)作策略空間;任務(wù)特定視頻適應(yīng)階段更新視覺(jué)生成組件以適應(yīng)特定任務(wù);面向特定任務(wù)的動(dòng)作微調(diào)完整模型以捕捉細(xì)粒度控制動(dòng)態(tài)。特別值得注意的是其異步推理模式:視頻DiT以5Hz運(yùn)行進(jìn)行單步去噪,而動(dòng)作模型以30Hz運(yùn)行進(jìn)行5步去噪,這種"慢-快"雙層優(yōu)化使得系統(tǒng)能在機(jī)載RTX 4090 GPU上以200毫秒完成54步動(dòng)作推理,實(shí)現(xiàn)實(shí)時(shí)控制。
GE-Sim:層次化動(dòng)作條件仿真器
GE-Sim將GE-Base的生成能力擴(kuò)展為動(dòng)作條件的神經(jīng)仿真器,通過(guò)層次化動(dòng)作條件機(jī)制實(shí)現(xiàn)精確的視覺(jué)預(yù)測(cè)。該機(jī)制包含兩個(gè)關(guān)鍵組件:Pose2Image條件將7維末端執(zhí)行器姿態(tài)(位置、姿態(tài)、夾爪狀態(tài))投影到圖像空間,通過(guò)相機(jī)標(biāo)定生成空間對(duì)齊的姿態(tài)圖像;運(yùn)動(dòng)向量計(jì)算連續(xù)姿態(tài)間的運(yùn)動(dòng)增量,編碼為運(yùn)動(dòng)令牌并通過(guò)交叉注意力注入到每個(gè)DiT塊中。
這種設(shè)計(jì)使GE-Sim能夠精確地將低層控制指令轉(zhuǎn)換為視覺(jué)預(yù)測(cè),支持閉環(huán)策略評(píng)估。在實(shí)際應(yīng)用中,策略模型生成的動(dòng)作軌跡被GE-Sim轉(zhuǎn)換為未來(lái)的視覺(jué)狀態(tài),這些生成的視頻再反饋給策略模型產(chǎn)生下一步動(dòng)作,形成完整的仿真閉環(huán)。通過(guò)分布式集群并行化,GE-Sim可實(shí)現(xiàn)每小時(shí)數(shù)千次的策略rollout評(píng)估,為大規(guī)模策略?xún)?yōu)化提供了高效的評(píng)估平臺(tái)。更重要的是,GE-Sim還能作為數(shù)據(jù)引擎,通過(guò)在不同初始視覺(jué)環(huán)境下執(zhí)行相同動(dòng)作軌跡來(lái)生成多樣化的訓(xùn)練數(shù)據(jù)。
這三個(gè)組件緊密協(xié)作,構(gòu)成了完整的視覺(jué)中心機(jī)器人學(xué)習(xí)平臺(tái):GE-Base提供強(qiáng)大的視覺(jué)世界建模能力,GE-Act實(shí)現(xiàn)從視覺(jué)到動(dòng)作的高效轉(zhuǎn)換,GE-Sim支撐大規(guī)模策略評(píng)估和數(shù)據(jù)生成,共同推動(dòng)了具身智能的發(fā)展。
EWMBench: 世界模型評(píng)測(cè)套件
此外,為了評(píng)估面向具身任務(wù)的世界模型質(zhì)量,團(tuán)隊(duì)在GE核心組件之外開(kāi)發(fā)了EWMBench評(píng)測(cè)套件。它從場(chǎng)景一致性、軌跡精度、運(yùn)動(dòng)動(dòng)力學(xué)一致性,到語(yǔ)義對(duì)齊,全方位打分。多名專(zhuān)家的主觀評(píng)級(jí)與GE-Bench排名高度一致,驗(yàn)證了其對(duì)機(jī)器人任務(wù)相關(guān)性評(píng)測(cè)的可靠性。在與Kling、Hailuo、OpenSora等先進(jìn)模型的對(duì)比中,GE-Base在多項(xiàng)體現(xiàn)視覺(jué)建模質(zhì)量的關(guān)鍵指標(biāo)上均取得最優(yōu)成績(jī),且與人類(lèi)判斷高度一致。
開(kāi)源計(jì)劃與未來(lái)展望
團(tuán)隊(duì)將開(kāi)源全部代碼、預(yù)訓(xùn)練模型和評(píng)測(cè)工具。GE通過(guò)視覺(jué)中心的世界建模,為機(jī)器人學(xué)習(xí)開(kāi)辟了新的技術(shù)路徑。GE的發(fā)布,標(biāo)志著機(jī)器人從被動(dòng)執(zhí)行向主動(dòng)‘想象—驗(yàn)證—行動(dòng)’的轉(zhuǎn)變。未來(lái),將擴(kuò)展更多傳感器模態(tài),支持全身移動(dòng)與人機(jī)協(xié)作,持續(xù)推動(dòng)智能制造與服務(wù)機(jī)器人的落地應(yīng)用。