當前,具身智能無疑是科技領域最炙手可熱的詞匯之一。從波士頓動力的驚艷展示,到各路巨頭紛紛布局,人形機器人似乎正從科幻走向現(xiàn)實。在2025世界機器人大會的舞臺上,具身智能無疑是引人矚目的焦點。在這片繁榮景象之下,具身智能的商業(yè)化落地之路卻并非坦途,仍面臨諸多痛點、難點:
數(shù)據(jù)荒漠化與數(shù)據(jù)質量參差不齊:盡管大語言模型取得了重要突破,但對于需要與物理世界交互的具身智能而言,高質量、長程、多模態(tài)的動作數(shù)據(jù)仍然極度稀缺?,F(xiàn)有的數(shù)據(jù)集往往規(guī)模小、質量低,難以支撐模型的有效訓練。
模型泛化能力不足:現(xiàn)有模型在特定場景下表現(xiàn)良好,但面對復雜多變、開放式的真實物理世界,其泛化能力亟待提升。尤其是跨本體、跨任務的遷移學習能力,是制約其大規(guī)模應用的關鍵瓶頸。
軟硬件深度耦合與一體化挑戰(zhàn):具身智能并非簡單的“AI+機器人”疊加,而是“機器人+AI”的深度融合。這意味著從本體設計、傳感器選型、執(zhí)行器控制到數(shù)據(jù)采集、算法訓練、應用落地,都需要緊密耦合、協(xié)同優(yōu)化,對企業(yè)的全棧能力提出了極高要求。
場景落地與高價值應用匱乏:盡管具身智能在實驗室中展現(xiàn)出諸多可能性,但真正能夠在經(jīng)濟效益和社會效益上產(chǎn)生積極影響的高價值應用場景仍相對有限。如何找到真正的市場需求,實現(xiàn)規(guī)模化落地,是所有從業(yè)企業(yè)面臨的共同難題。
工程化與量產(chǎn)一致性不足:機器人從實驗室走向工廠、走向千家萬戶,需要克服嚴苛的工程化挑戰(zhàn),包括硬件的穩(wěn)定性、魯棒性、成本控制,以及傳感器的一致性標定、多機協(xié)同等,這些都直接影響著產(chǎn)品的可靠性和可復制性。
智元機器人聯(lián)合創(chuàng)始人兼具身業(yè)務部總裁姚卯青
這些挑戰(zhàn)相互交織,共同構成了具身智能發(fā)展道路上的“攔路虎”。然而,挑戰(zhàn)也意味著機遇,正如智元機器人聯(lián)合創(chuàng)始人兼具身業(yè)務部總裁姚卯青所言,“智元機器人正通過其獨特的‘本體、數(shù)據(jù)、算法、應用’飛輪,為破局之路提供了一條可借鑒的路徑。”
從數(shù)據(jù)荒漠到綠洲:智元如何“種樹造林”
智元機器人,這家成立于2023年2月的年輕公司,卻在短短兩年半內(nèi),憑借其“機器人+AI的融合,并以此依托本體打造通用具身智能產(chǎn)品和生態(tài)”的清晰定位,展現(xiàn)出了令人矚目的全棧能力。姚卯青介紹,“正是圍繞智元機器人如何驅動“本體、數(shù)據(jù)、算法、應用”的飛輪,實現(xiàn)了創(chuàng)新突破。”
正如大語言模型的核心是海量高質量數(shù)據(jù),具身智能的崛起也同樣離不開“數(shù)據(jù)”這一基石。姚卯青形象地將具身智能的數(shù)據(jù)現(xiàn)狀比喻為“數(shù)據(jù)荒漠”,并強調(diào)智元機器人正在做“在沙漠里種樹”的開創(chuàng)性工作。
智元機器人邁出的第一步是,于2024年底向全球開源了AgiBot World數(shù)據(jù)集。這是一個百萬條機器人數(shù)軌跡構成的大規(guī)模、高質量數(shù)據(jù)集。它擁有工業(yè)級數(shù)據(jù)質量,數(shù)據(jù)經(jīng)過端云系統(tǒng)自動化校驗與人工逐幀審核,確保了工業(yè)級的質量標準,解決了過往學術數(shù)據(jù)集質量參差不齊的問題。并以真實場景導向,數(shù)據(jù)采集涵蓋生活起居、服務業(yè)(如餐飲)、辦公環(huán)境、工廠等多種現(xiàn)實場景,而非簡單的桌面級操作。
具備長程任務設計,任務由十幾步原子動作組合而成,有助于訓練機器人對模糊指令的精確拆解、理解、推理與規(guī)劃能力。數(shù)據(jù)集一推出就受到了社區(qū)廣泛關注: AgiBot World 在 GitHub和Hugging Face上均獲得了極高關注度,被英偉達、Google DeepMind、Physical Intelligence等國內(nèi)外頂尖團隊廣泛使用,甚至有社區(qū)主動開發(fā)了相關工具,形成了良好的生態(tài)反哺。
姚卯青特別提到,英偉達在今年3月的GTC大會上發(fā)布的具身基座模型GROOT N1和機器人推理模型Cosmos Reason,其80%的訓練數(shù)據(jù)都來源于AgiBot World。這充分證明了AgiBot World在行業(yè)中的領先地位和影響力,它為具身智能領域提供了一片亟需的“綠洲”。
創(chuàng)新數(shù)據(jù)采集方式:對抗式與自主進化式
擁有如此大規(guī)模、高質量的預訓練數(shù)據(jù)集,是由于智元機器人在數(shù)據(jù)采全生命周期上的創(chuàng)新。其引入了后訓練數(shù)據(jù)集以及自主進化式的數(shù)據(jù)采集的方式。在后訓練階段,對抗式采集是在常規(guī)的示教操作過程中引入干擾。姚卯青生動地將其比喻為:“讓工作人員‘搗亂’,使機器人在相同采集時間內(nèi)訪問到更多物理狀態(tài)和語言指令(如中途改變指令)。”這種方式取得了極好的效果:大幅提升了數(shù)據(jù)的信息密度,使得模型迭代和收斂速度提高數(shù)倍。
自主進化式采集則是針對機器人自主執(zhí)行中遇到的長尾失效場景,在失效瞬間進行及時接管、回退,并以人為方式引導機器人順利完成任務。這種方式能將“難場景、高價值”的數(shù)據(jù)不斷補充回訓練集,拓展了數(shù)據(jù)分布邊界,提升了機器人能力的上限,使模型可以持續(xù)進化。這與模仿學習中的DAgger(Dataset Aggregation)概念異曲同工,旨在讓數(shù)據(jù)集能夠“自主進化”。
這兩種數(shù)據(jù)采集方式的創(chuàng)新,展現(xiàn)了智元機器人對數(shù)據(jù)質量和效率的極致追求。通過有策略地制造“沖突”和及時捕獲“異常”,能夠以更高效的方式獲取到機器人真正需要學習的、能夠提升其魯棒性和泛化能力的“真數(shù)據(jù)”。
算法:構建具身智能“大腦”的核心引擎
有了高質量的數(shù)據(jù)滋養(yǎng),算法作為具身智能的“大腦”,其創(chuàng)新至關重要。智元機器人在這方面也取得了顯著進展,推出了具身智能基座模型GO-1,成功率提升了10%-30%,并積極探索世界模型方向。智元機器人于今年3月率先推出的具身智能基座模型GO-1(Genie Operator-1),在架構上引入了創(chuàng)新元素。
智元提出了Vison-Language-Latent-Action(ViLLA)創(chuàng)新架構,由VLM基礎模型+MoE混合專家架構構成。第一個專家是隱式動作專家,基于海量異構數(shù)據(jù)(互聯(lián)網(wǎng)文本、圖文、異構機器人本體數(shù)據(jù)、第一視角人類操作數(shù)據(jù)、仿真數(shù)據(jù)、真機數(shù)據(jù))進行自監(jiān)督生成式學習,形成一種在“隱式空間”中通用的動作表達,類似一種離散式的“動作碼表”。這種方式能夠有效融合多種數(shù)據(jù)源,形成金字塔式的數(shù)據(jù)利用機制。
第二個專家顯式動作專家,負責將通用動作描述和環(huán)境表征,精準地映射到特定機器人本體的控制上。這解決了機器人本體多樣性導致的控制復雜性問題。Go-1模型在真實場景(生活、零售、工業(yè))的評測中,成功率相比當時海內(nèi)外開源模型提升了10%至30%。這表明其獨特的架構設計在實際應用中展現(xiàn)出了更優(yōu)越的性能。
為了驗證物理AI也具備類似大語言模型的“數(shù)據(jù)量、計算量、模型參數(shù)提升,效果隨之提升”的 Scaling Law 規(guī)律。智元機器人也做了大量探索,并在近期發(fā)布了關于機器人Scaling Law的研究。他們發(fā)現(xiàn)了兩個重要的結論:
第一,數(shù)據(jù)絕對數(shù)量和數(shù)據(jù)多樣性具有同等重要性: 訓練數(shù)據(jù)的質量越高越好,數(shù)據(jù)的絕對數(shù)量越多越好,此外,數(shù)據(jù)的多樣性同樣也很重要。在訓預訓練階段引入多任務的數(shù)據(jù)混合在一起做預訓練效果更好。
第二,單本體預訓練的泛化能力:僅用智元G1機器人進行預訓練,可以在后訓練階段僅用1-2小時(100-200條)的數(shù)據(jù),就在松林、方舟、Franka等從未在預訓練階段見過的異構機器人本體上實現(xiàn)高效的疊衣服任務。這比傳統(tǒng)需要數(shù)千小時疊衣服數(shù)據(jù)才能達到相同效果的方法,效率大幅提升。因此, AgiBot World這種單一本體預訓練數(shù)據(jù),其后訓練遷移效果反而優(yōu)于Google OXE(Open X-embodiment)等多本體預訓練數(shù)據(jù)。姚卯青認為這可能與智元模型設計中引入的自監(jiān)督生成式預訓練,使其能脫離本體學習通用動作表征有關。
這一發(fā)現(xiàn)顛覆了許多人認為“一腦多行”必須在預訓練階段引入更多本體類型的觀念,進一步驗證了數(shù)據(jù)場景的多樣性和數(shù)據(jù)質量的可靠性才是機器人預訓練最本質的重要性。這意味著企業(yè)在初期投入時,可以更聚焦于高質量、多樣化的數(shù)據(jù)采集,而非盲目追求多本體的預訓練。
世界模型:讓機器人學會“想象”與“推演”
正如理查德·費曼所說“只要我不能創(chuàng)造的,就代表我還不理解。”充分詮釋了人類之所以能夠創(chuàng)造的核心原因。然而如何讓具身智能像人一樣,實現(xiàn)更精準的環(huán)境感知、決策優(yōu)化及行為預測,智元機器人也在積極探索世界模型這一前沿方向。
姚卯青認為解決問題的核心思想是“生成理解一體化”。即對于機器人而言,這意味著它需要像人類一樣,在執(zhí)行任務前能在“腦海中”進行清晰的規(guī)劃和完整的推演。
智元的世界模型框架命名為Genie Envisioner,它包含幾個關鍵組件:GE-Base、GE-Act(World Action Model)、GE-Bench以及GE-Sim。
GE-Base是基于AgiBot World及其他機器人數(shù)據(jù)預訓練的基礎生成式模型。它強調(diào)物理真實性,不穿模、不違反物理規(guī)律、具備長程性和多相機視角一致性的4D世界模型。
GE-Act (World Action Model)則根據(jù)輸入動作序列,能夠像模擬器一樣精準推演出后續(xù)事件、環(huán)境變化和自身變化。通過給定初始環(huán)境和指令,能夠規(guī)劃出精準的動作(關節(jié)控制或末端位置規(guī)劃),并部署到真機執(zhí)行。在智元自身機器人本體以及Franka、松林等異構本體上,GE Acter在疊衣服、組裝紙盒等復雜任務中展現(xiàn)了優(yōu)異的遷移效果,并相比現(xiàn)有模型有顯著提升。尤其在動態(tài)場景中,其長時序推演能力帶來了更高的抓取定位精度。
GE-Bench 是針對機器人場景的世界模型,智元發(fā)布了圍繞動作遵循度、時空一致性、語義合理性等方面的全維度評測標準,并應用于今年的IROS挑戰(zhàn)賽。
GE-Sim則是一個基于神經(jīng)網(wǎng)絡的生成式仿真器,它能以動作序列作為輸入,精準渲染出后續(xù)將要發(fā)生的事情。智元通過對比真機執(zhí)行和GE-Sim推理,發(fā)現(xiàn)兩者效果高度一致,甚至量化成功率也極為接近。這意味著GE-Sim可以極大地加速機器人策略的迭代和模型研發(fā)周期,降低測試成本和風險,是機器人研發(fā)領域的一大突破。
世界模型的探索,標志著具身智能正從“模仿學習”邁向“理解世界”,未來將賦予機器人更強大的自主決策和應變能力。
本體與應用:飛輪的起點與終點
“飛輪”的轉動,離不開堅實的本體支撐,也最終要落腳于實際應用。姚卯青在實踐中也得出了不少“苦澀教訓”。他認為本體(硬件)的尤其重要,執(zhí)行器是根本。高控制頻率、低跟隨延時、高重復定位精度或絕對精度的執(zhí)行器是機器人能力的基礎。
采用多模態(tài)傳感器來來了一致性問題。視覺、激光雷達、觸覺、力覺、超聲波、毫米波等多種傳感器是未來趨勢,但同時帶來了精準調(diào)教、時間同步、空間標定和量產(chǎn)一致性的巨大挑戰(zhàn)。
智能體的構型上,人形是最大公約數(shù)。擬人本體可帶來更高的數(shù)據(jù)采集效率,并在為人類設計的作業(yè)環(huán)境中更高效。姚卯青以超市撿貨為例,闡述了類人靈活手腕的優(yōu)勢。
具身智能是“機器人+AI”而非“AI+機器人”。姚卯青認為,絕不可能是有“一個大模型后就可以隨便安個本體能行的”。好的本體構型及其高自由度難以被模型取代,模型必須圍繞本體設計才能進化迭代。
復雜系統(tǒng)上的誤差累積尤為可怕。設計、生產(chǎn)、制造、軟件、數(shù)據(jù)、模型處理等鏈路上所有的誤差,最終都會逐級放大,成為巨大的枷鎖。追求量產(chǎn)和一致性,將誤差減到最小,是數(shù)據(jù)共享和規(guī)?;涞氐幕A。
這些“苦澀的教訓”深刻揭示了具身智能研發(fā)的復雜性與系統(tǒng)性,希望以此警示行業(yè)不能盲目追求算法模型,而忽視了硬件本體的根基作用。
新一代產(chǎn)品:AgiBot G2即將面世
有了基于這些經(jīng)驗教訓和場景理解,智元機器人將在下半年推出新一代產(chǎn)品AgiBot G2。這款平臺被定義為“工業(yè)級的交互式具身智能作業(yè)的全球標桿平臺”,將引入更靈巧的本體設計、更高標準的傳感器執(zhí)行器,并搭載英偉達Thor高算力控制器。這表明智元機器人正致力于打造軟硬件一體化、具備工業(yè)級穩(wěn)定性和可靠性的通用具身智能平臺,為后續(xù)的大規(guī)模商業(yè)化落地奠定基礎。
其解決專用設備無法解決的、需要人工完成的精度高、力控強、泛化性要求高的操作場景。這意味著具身智能將成為傳統(tǒng)工業(yè)自動化的有力補充,拓展自動化邊界。
通過具身智能的通用機器人與現(xiàn)有專用自動化設備的配合,解決柔性、雜亂、傳統(tǒng)視覺規(guī)劃難以完成的物體分揀難題,實現(xiàn)端到端執(zhí)行,甚至具備一定思考能力(如翻轉條碼)。這展示了通用機器人與專用設備協(xié)同的巨大潛力。在安檢崗點人力清零、電力通信機房巡檢場景下可替代人力,實現(xiàn)降本增效,同時具備對機柜操作等靈巧任務能力。
這些實際應用場景的展示,讓人們看到了具身智能并非遙不可及的未來,而是正在逐步滲透到各行各業(yè),解決實際問題,創(chuàng)造真實價值。
智元機器人在具身智能領域的創(chuàng)新與經(jīng)驗為我們勾勒出了一個清晰的發(fā)展路徑。從破解數(shù)據(jù)荒漠到構建智能大腦,再到推動本體進化與賦能千行百業(yè),展示出具身智能從概念走向現(xiàn)實的可能。
(智能網(wǎng)原創(chuàng),轉載請注明出處)