人類只需要演示五次,英偉演示就能讓機器人學會一項復雜技能。達團隊機
英偉達實驗室,器訓器生提出了機器人訓練數(shù)據(jù)缺乏問題的練新新解決方案 ——DexMimicGen。五次演示之后,僅次DexMimicGen 就可以直接模仿出 1000 個新的讓機 demo。
而且可用性強,英偉演示用這些新 demo 訓練出的達團隊機機器人,在仿真環(huán)境中的器訓器生任務成功率可以高達 97%,比用真人數(shù)據(jù)效果還要好。練新
參與此項目的僅次英偉達科學家范麟熙(Jim Fan)認為,這種用機器訓練機器的讓機方式,解決了機器人領域最大的英偉演示痛點(指數(shù)據(jù)收集)。
同時,達團隊機Jim Fan 還預言:
機器人數(shù)據(jù)的器訓器生未來是生成式的,整個機器人學習流程的未來也將是生成式的。
值得一提的是,DexMimicGen 三名共同一作都是李飛飛的“徒孫”,具體說是德克薩斯大學奧斯汀分校(UT 奧斯汀)助理教授朱玉可(Yuke Zhu)的學生。
而且三人均為華人,目前都在英偉達研究院實習。
5 次演示,生成 1000 條數(shù)據(jù)
如前所述,DexMimicGen 可以僅根據(jù)人類的 5 次演示,生成 1000 個新 DEMO。
在整個實驗中,作者設置了 9 個場景,涵蓋了 3 種機器人形態(tài),共進行了 60 次演示,獲得了 21000 多個生成 DEMO。
在仿真環(huán)境當中,用 DexMimicGen 生成數(shù)據(jù)訓練出的策略執(zhí)行整理抽屜這一任務,成功率可達 76%,而單純使用人工數(shù)據(jù)只有 0.7%。
對于積木組裝任務,成功率也從 3.3% 提升到了 80.7%。
成功率最高的任務是罐子分類,更是高達 97.3%,只用人工數(shù)據(jù)的成功率同樣只有 0.7%。
整體來看,在仿真環(huán)境中,生成數(shù)據(jù)讓機器人在作者設計的九類任務上的成功率均明顯增加。
相比于 baseline 方法,用 DexMimicGen 生成的數(shù)據(jù)也更為有效。
遷移到真實環(huán)境之后,作者測試了易拉罐分揀的任務,結果僅用了 40 個生成 DEMO,成功率就達到了 90%,而不使用生成數(shù)據(jù)時的成功率為零。
除此之外,DexMimicGen 還展現(xiàn)了跨任務的泛化能力,使訓練出的策略在各種不同任務上表現(xiàn)良好。
針對初始狀態(tài)分布變化,DexMimicGen 也體現(xiàn)出了較強的魯棒性,在更廣泛的初始狀態(tài)分布 D1 和 D2 上測試時,仍然能夠擁有一定的成功率。
將仿真方法遷移到現(xiàn)實
DexMimicGen 是由 MimicGen改造而成,MimicGen 也出自英偉達和 UT 奧斯汀的聯(lián)合團隊。
朱玉可和范麟熙都參與過 MimicGen 的工作,該成果發(fā)表于 CoRL 2023。
MimicGen 的核心思想,是將人類示范數(shù)據(jù)分割成以目標物體為中心的片段,然后通過變換物體相對位置和姿態(tài),在新環(huán)境中復現(xiàn)人類示范軌跡,從而實現(xiàn)自動化數(shù)據(jù)生成。
DexMimicGen 則在 MimicGen 系統(tǒng)的基礎上,針對雙臂機器人靈巧操作任務做了改進和擴展,具體包括幾個方面:
引入并行、協(xié)調、順序三種子任務類型,以適應雙臂靈巧操作任務的需求;
對應三種子任務類型,設計了異步執(zhí)行、同步執(zhí)行和順序約束等機制,以實現(xiàn)雙臂的獨立動作、精密協(xié)同和特定順序操作;
實現(xiàn)了“現(xiàn)實-模擬-現(xiàn)實”的框架,通過構建數(shù)字孿生,將 DexMimicGen 拓展到了實際機器人系統(tǒng)的應用。
工作流程上,DexMimicGen 會首先對人類示范進行采集和分割。
研究人員通過佩戴 XR 頭顯,遠程控制機器人完成目標任務,在這一過程中就會產生一小批示范數(shù)據(jù),作者針對每個任務采集了 5~10 個人類示范樣本。
這些人類示范樣本會按照并行、協(xié)調、順序三種子任務定義被切分成片段 ——
并行子任務允許兩臂獨立執(zhí)行;
協(xié)調子任務要求兩臂在關鍵時刻同步動作;
順序子任務則規(guī)定了某些子任務必須在另一些子任務完成后才能執(zhí)行。
總之,在示范數(shù)據(jù)被切分后,機器人的每個手臂會得到自己對應的片段集合。
在數(shù)據(jù)生成開始時,DexMimicGen 隨機化模擬環(huán)境中物體的位置、姿態(tài)等數(shù)據(jù),并隨機選擇一個人類示范作為參考。
對于當前子任務,DexMimicGen 會計算示范片段與當前環(huán)境中關鍵物體位置和姿態(tài)的變換。
之后用該變換對參考片段中的機器人動作軌跡進行處理,以使執(zhí)行這一變換后的軌跡能夠與新環(huán)境中物體位置匹配。
生成變換后,DexMimicGen 會維護每個手臂的動作隊列,手指關節(jié)的運動則直接重放示范數(shù)據(jù)中的動作。
在整個過程中,系統(tǒng)不斷檢查任務是否成功完成,如果一次執(zhí)行成功完成了任務,則將執(zhí)行過程記錄下來作為有效的演示數(shù)據(jù),失敗則將數(shù)據(jù)丟棄。之后就是將生成過程不斷迭代,直到獲得足夠量的演示數(shù)據(jù)。
收集好數(shù)據(jù)后,作者用 DexMimicGen 生成的演示數(shù)據(jù)訓練模仿學習策略,策略的輸入為 RGB 相機圖像,輸出為機器人動作。
最后是模擬到現(xiàn)實的遷移,同樣地,作者使用 DexMimicGen 在數(shù)字孿生環(huán)境中生成的大規(guī)模演示數(shù)據(jù),訓練模仿學習策略。
之后作者對在數(shù)字孿生環(huán)境中評估訓練得到的策略進行調優(yōu),以提高其泛化性能和魯棒性,并遷移到實際機器人系統(tǒng)中。
作者簡介
DexMimicGen 的共同一作有三人,都是 UT 奧斯汀的華人學生。
并且三人均出自李飛飛的學生、浙大校友朱玉可(Yuke Zhu)助理教授門下,他們分別是:
博士生 Zhenyu Jiang,本科就讀于清華,2020 年進入 UT 奧斯汀,預計將于明年畢業(yè);
碩士生 Yuqi Xie(謝雨齊),本科是上海交大和美國密歇根大學聯(lián)培,預計畢業(yè)時間也是明年;
博士生 Kevin Lin,本科和碩士分別就讀于 UC 伯克利和斯坦福,今年加入朱玉可課題組讀博。
朱玉可的另一重身份是英偉達的研究科學家,團隊的另外兩名負責人也都在英偉達。
他們分別是 Ajay Mandlekar 和范麟熙(Jim Fan),也都是李飛飛的學生,Mandlekar 是整個 DexMimicGen 項目組中唯一的非華人。
另外,Zhenjia Xu 和 Weikang Wan 兩名華人學者對此項目亦有貢獻,整個團隊的分工如下:
項目主頁:
https://dexmimicgen.github.io/
論文地址:
https://arxiv.org/abs/2410.24185
參考鏈接:
[1]https://x.com/SteveTod1998/status/1852365700372832707
[2]https://x.com/DrJimFan/status/1852383627738239324
本文來自微信公眾號:量子位(ID:QbitAI),作者:克雷西,原標題《英偉達團隊機器訓練新方法!僅 5 次演示讓機器生成 1000 個新 demo,李飛飛高徒與徒孫聯(lián)手出品》