清華大學(xué)開源具身大模型RDT-1B：國內(nèi)最大雙臂機(jī)器人操作任務(wù)擴(kuò)散基礎(chǔ)模型

ainet.cn 2024年12月24日

國產(chǎn)具身大模型 Robotics Diffusion Transformer (RDT) 1B 是一款先進(jìn)的擴(kuò)散基礎(chǔ)模型，專為雙臂操作任務(wù)設(shè)計(jì)，推動(dòng)了具身智能機(jī)器人操作領(lǐng)域的發(fā)展。該模型基于創(chuàng)新的Diffusion Transformers架構(gòu)，采用擴(kuò)散生成算法，專注于提升機(jī)器人在復(fù)雜環(huán)境中的雙臂協(xié)調(diào)與精確操作能力。RDT 1B通過優(yōu)化機(jī)器人在動(dòng)態(tài)、未知環(huán)境中的任務(wù)執(zhí)行，展現(xiàn)出卓越的多模態(tài)感知、任務(wù)適應(yīng)性和操作精度，特別是在雙手協(xié)作和物體操控方面。作為國內(nèi)領(lǐng)先的擴(kuò)散模型，RDT 1B為具身智能機(jī)器人技術(shù)提供了強(qiáng)大的支持，推動(dòng)了雙臂操作的技術(shù)進(jìn)步，為該領(lǐng)域樹立了新的技術(shù)標(biāo)桿。

RDT全名：Robotics Diffusion Transformer (RDT) 1B: a Diffusion Foundation Model for Bimanual Manipulation)，是具身智能機(jī)器人操作方向基于Diffusion Transformers 擴(kuò)散雙臂操作的擴(kuò)散模型。

Robotics Diffusion Transformer(RDT)是由清華大學(xué)計(jì)算機(jī)AI研究院TSAIL團(tuán)隊(duì)推出的全球最大的雙臂機(jī)器人操作任務(wù)擴(kuò)散基礎(chǔ)模型。RDT具備1.2B參數(shù)量，能在無需人類操控的情況下，自主完成復(fù)雜任務(wù)，如調(diào)酒和遛狗。RDT基于模仿學(xué)習(xí)人類動(dòng)作，展現(xiàn)出強(qiáng)大的泛化能力和操作精度，能處理未見過的物體和場景。

RDT概述

RDT框架

將各種機(jī)器人的異構(gòu)動(dòng)作空間嵌入到統(tǒng)一的動(dòng)作空間中，用于跨機(jī)器人模型訓(xùn)練。輸入：低維本體感受 z t、噪聲動(dòng)作塊ã t:t+T a、控制頻率 c 和擴(kuò)散時(shí)間步長 k，作為去噪輸入;圖像和語言輸入，作為條件。輸出：去噪動(dòng)作塊a t:t+T a。模型基于擴(kuò)散，擴(kuò)散模型是一類基于概率擴(kuò)散過程的生成模型，通過逐步去噪的方法生成高質(zhì)量的數(shù)據(jù)樣本。RDT模型以擴(kuò)散模型作為基礎(chǔ)，能夠有效地表示多峰的人類動(dòng)作分布，并采用可擴(kuò)展的Transformer架構(gòu)來處理異構(gòu)的多模態(tài)輸入，捕捉機(jī)器人數(shù)據(jù)中的非線性和高頻特性。為了確保模型的可擴(kuò)展性，研究者選擇了Transformer作為骨干網(wǎng)絡(luò)，并進(jìn)行了以下關(guān)鍵調(diào)整：

應(yīng)對(duì)極端值問題：由于機(jī)器人傳感器可能出現(xiàn)失靈等情況，數(shù)據(jù)中往往包含極端值，這些極端值可能引發(fā)梯度不穩(wěn)定或數(shù)值溢出等問題。為此，研究者采用了更先進(jìn)的QKNorm和RMSNorm方法來緩解這一問題。

增強(qiáng)非線性處理能力：機(jī)器人的動(dòng)作通常遵循非線性動(dòng)力學(xué)規(guī)律。為了提高模型在非線性近似上的表現(xiàn)，研究者將最終層的線性解碼器替換為非線性的多層感知機(jī)(MLP)解碼器，以增強(qiáng)模型的非線性建模能力。

處理圖像與文本模態(tài)不平衡：圖像的維度通常遠(yuǎn)大于文本，這可能導(dǎo)致在將兩種模態(tài)輸入到主干網(wǎng)絡(luò)時(shí)，圖像信息淹沒文本，從而削弱模型的指令遵循能力。為了解決這一問題，研究者采用了交替注入的策略，將圖像和文本交替地輸入網(wǎng)絡(luò)，確保兩種模態(tài)得到均衡的處理。

數(shù)據(jù)集優(yōu)勢

RDT在迄今為止最大的多機(jī)器人數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，并將其擴(kuò)展到1.2B參數(shù)，這是最大的基于擴(kuò)散機(jī)器人操作基礎(chǔ)模型。在自建多任務(wù)雙手?jǐn)?shù)據(jù)集上對(duì)RDT進(jìn)行微調(diào)，數(shù)據(jù)集包含超過6K+集，改進(jìn)其操作能力。RDT擁有目前最大的雙臂微調(diào)數(shù)據(jù)集，清華團(tuán)隊(duì)構(gòu)建了包括300+任務(wù)和6K+條演示的數(shù)據(jù)集。

為了在多種機(jī)器人數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，研究者首先統(tǒng)一了數(shù)據(jù)的格式。

具體來說，研究者構(gòu)建了一個(gè)標(biāo)準(zhǔn)化的動(dòng)作空間，該空間的每個(gè)維度都具有明確的物理意義。這樣，模型能夠從不同類型的機(jī)器人數(shù)據(jù)中學(xué)習(xí)到共享的物理規(guī)律。

在統(tǒng)一數(shù)據(jù)格式后，研究者成功地將各類機(jī)器人數(shù)據(jù)匯聚成一個(gè)龐大的數(shù)據(jù)集，成為目前規(guī)模最大的數(shù)據(jù)集之一，包含超過100萬條演示數(shù)據(jù)。

正是通過在如此龐大的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，RDT模型獲得了出色的泛化能力，能夠有效適應(yīng)不同的任務(wù)和環(huán)境。

此外，研究者還采集了當(dāng)前質(zhì)量最高的雙臂微調(diào)數(shù)據(jù)集，用于進(jìn)一步微調(diào)RDT，以提升其雙臂操作能力。該數(shù)據(jù)集具有以下特點(diǎn)：

● 數(shù)量龐大：包含超過6,000條演示數(shù)據(jù)。

● 任務(wù)范圍廣泛：覆蓋了300多個(gè)任務(wù)，從簡單的抓取到精細(xì)操作，甚至包括如黑板解數(shù)學(xué)題等高難度操作。

● 多樣化：包括100多種不同類型的物體、15種不同房間及光照條件，確保了模型在各種場景下的適應(yīng)性和魯棒性。

泛化性與操作精度

研究團(tuán)隊(duì)設(shè)計(jì)了7個(gè)具有挑戰(zhàn)性的任務(wù)，從多個(gè)維度評(píng)估了RDT的泛化能力和操作精度。

清洗杯子任務(wù)：此任務(wù)考驗(yàn)的是雙手協(xié)調(diào)能力和物體泛化能力。具體而言，機(jī)器人需要拿起一個(gè)未見過的杯子，用一只手打開水龍頭，利用另一只手清洗杯子，倒掉其中的水并關(guān)閉水龍頭。對(duì)于單臂機(jī)器人而言，這樣的任務(wù)幾乎無法完成，因?yàn)樾枰獌芍皇值木芘浜吓c物體識(shí)別能力。

遙控機(jī)器狗操作：該任務(wù)對(duì)雙手協(xié)調(diào)性和極高的操作精度提出了更高要求。機(jī)器人需要一只手持遙控器，另一只手操控遙桿推動(dòng)機(jī)器狗向前移動(dòng)。相較于清洗杯子，這項(xiàng)任務(wù)要求更高的精度，因?yàn)檫b控器的迷你搖桿長度不到2厘米，稍有偏差就可能導(dǎo)致機(jī)器狗偏離預(yù)定路線。

而如果把 RDT 換成其他模型，就會(huì)導(dǎo)致機(jī)器狗會(huì)走彎路、甚至見墻就撞。

這兩項(xiàng)任務(wù)的設(shè)計(jì)充分展示了RDT在處理復(fù)雜、精細(xì)操作時(shí)的強(qiáng)大能力，既考驗(yàn)了模型的泛化性，又挑戰(zhàn)了其操作精度。

消融研究

對(duì) RDT 的各個(gè)組成部分進(jìn)行了消融研究，以了解其重要性?？紤]了以下變體：

RDT(我們的)：原始的 RDT。

RDT(回歸)：無擴(kuò)散建模的 RDT。它采用 MSE 回歸訓(xùn)練目標(biāo)。

RDT(小)：沒有大參數(shù)的 RDT。它只有 166M 個(gè)參數(shù)。

RDT(scratch)：沒有預(yù)訓(xùn)練的 RDT。在微調(diào)過程中從頭開始訓(xùn)練。

結(jié)果表明，所有組件對(duì)于 RDT 的成功都至關(guān)重要。

該項(xiàng)目由清華大學(xué)計(jì)算機(jī)系TSAIL課題組團(tuán)隊(duì)主導(dǎo)，該團(tuán)隊(duì)在擴(kuò)散模型的基礎(chǔ)理論和關(guān)鍵技術(shù)方面有著深厚的積累。團(tuán)隊(duì)提出了首個(gè)將擴(kuò)散模型與Transformer結(jié)合的架構(gòu)U-ViT，并聯(lián)合開發(fā)了全球首個(gè)在性能上全面對(duì)標(biāo)Sora的高清視頻生成大模型Vidu。部分研究成果榮獲國際表示學(xué)習(xí)大會(huì)(ICLR 2022)杰出論文獎(jiǎng)，并被華為、OpenAI、蘋果、Stable Diffusion等國際領(lǐng)先企業(yè)的文生圖大模型所采用。

特別地，TSAIL團(tuán)隊(duì)基于“擴(kuò)散策略”，并在此基礎(chǔ)上持續(xù)進(jìn)行擴(kuò)散策略構(gòu)建算法的研究。在ICLR、NeurIPS、ICML等頂級(jí)國際會(huì)議上，團(tuán)隊(duì)已連續(xù)發(fā)表了多篇相關(guān)論文，其中包括擴(kuò)散策略模型的動(dòng)作重采樣方法SfBC、獎(jiǎng)勵(lì)函數(shù)引導(dǎo)采樣算法CEP、高效擴(kuò)散策略梯度蒸餾算法SRPO、以及擴(kuò)散策略對(duì)齊算法EDA等。

（來源：PNP機(jī)器人）

標(biāo)簽：PNP機(jī)器人

我要反饋

2024年11月19-20日，以“創(chuàng)新驅(qū)動(dòng)·技術(shù)融合”為主題的中國人形機(jī)器人電機(jī)暨微特電機(jī)技術(shù)融合年會(huì)在常州舉辦。包括清能德創(chuàng)在內(nèi)眾多人形機(jī)器人領(lǐng)域的各方業(yè)界精英匯聚... [詳情]

2024年12月24日清能德創(chuàng)

勱微機(jī)器人榮登2024年全球開放式創(chuàng)新百強(qiáng)榜單POC 50

由璞躍中國（PlugandPlayChina）與清華大學(xué)技術(shù)創(chuàng)新研究中心共同策劃的2024年全球開放式創(chuàng)新百強(qiáng)榜單，在開放式創(chuàng)新領(lǐng)域，勱微機(jī)器人成功入選了備受矚目的2024年全球開放式創(chuàng)新百強(qiáng)榜... [詳情]

2024年12月24日勱微機(jī)器人

智改數(shù)轉(zhuǎn) | 舍弗勒長春基地再獲吉林省智能工廠稱號(hào)

近日，吉林省工信廳公布2024年度吉林省智能工廠名單，舍弗勒長春基地再次上榜。這充分肯定了在數(shù)字技術(shù)與制造業(yè)融合發(fā)展的趨勢下，舍弗勒長春基地在加速智能化、數(shù)字化、綠色化轉(zhuǎn)型方... [詳情]

2024年12月24日舍弗勒

資訊熱點(diǎn)

伊頓推出新一代 800V 直流電力架構(gòu)，助力構(gòu)建新型 AI 工廠基礎(chǔ) 2025沈陽機(jī)器人大會(huì)盛大開幕華為與吉林省高速公路集團(tuán)簽署戰(zhàn)略合作協(xié)議免費(fèi)借測！億萬克全新一代分布式存儲(chǔ)發(fā)布 ABB與LandingAI合作，推動(dòng)生成式AI賦能機(jī)器人視覺商湯科技與寒武紀(jì)達(dá)成戰(zhàn)略合作新華三與香港寬頻簽署Aolynk區(qū)域戰(zhàn)略合作協(xié)議共創(chuàng)港澳市場新局星宇股份與節(jié)卡股份簽署戰(zhàn)略合作協(xié)議，深化具身智能在汽車智造及機(jī)器人產(chǎn)業(yè)的融合創(chuàng)新萊迪思推出業(yè)界首款支持后量子加密的FPGA系列：MachXO5-NX TDQ

專題報(bào)道

2025全景工博會(huì)

第二十五屆中國國際工業(yè)博覽會(huì)（簡稱“中國工博會(huì)，CIIF”）將于今年9月23至27日在國家會(huì)展中心（上海）舉行。 [更多]

智能制造標(biāo)桿企業(yè)展播

為了講述我國實(shí)體經(jīng)濟(jì)推進(jìn)高質(zhì)量發(fā)展的鮮活實(shí)例，發(fā)揮好典型企業(yè)實(shí)施智能制造的示范作用，提振廣大制造業(yè)企業(yè)推進(jìn)轉(zhuǎn)型升級(jí)的信心... [更多]

2025世界人工智能大會(huì)

2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議（簡稱“WAIC 2025”）將于7月在上海世博中心和世博展覽館舉行... [更多]

視頻

/resupload/guangzhi/AS00012420/1735897073649_1.jpg

大幅降低廢品率！蔡司掃描儀搭配ZEISS INSPECT 軟件，一文學(xué)會(huì)虛擬裝配非夕科技：自適應(yīng)機(jī)器人驅(qū)動(dòng)智能未來伊頓平頂山制造中心：以智能制造驅(qū)動(dòng)綠色未來 2025儲(chǔ)能生態(tài)對(duì)接會(huì)（珠三角專場）圓滿舉辦，共繪“儲(chǔ)能&智能制造”新藍(lán)圖探館 | 金升陽：以創(chuàng)新電源技術(shù)，助力工業(yè)高效智能升級(jí) 探館 | 研祥集團(tuán)：“AI+工業(yè)”驅(qū)動(dòng)，打造新型工業(yè)化新引擎探館 | 深化“雙元本地化”戰(zhàn)略，博世力士樂以全球首發(fā)新品兌現(xiàn)承諾

顶级欧美丰满熟妇XXXXX视频,中文字幕亚洲精品乱码,久久黑国产,中文字幕一区二区三区日韩精品 ,色九月亚洲综合网

清華大學(xué)開源具身大模型RDT-1B：國內(nèi)最大雙臂機(jī)器人操作任務(wù)擴(kuò)散基礎(chǔ)模型