世界上第一個(gè) VR 端 3D 版的端D端到端V都角色扮演 AI 就在剛剛誕生了!
AI 角色扮演類游戲(如 C.AI、角色Talkie)從發(fā)布以來(lái),扮演一直都是發(fā)布人們最喜歡的 AI 產(chǎn)品之一。雖然廣受歡迎,模型但不少用戶提出,驅(qū)動(dòng)期待和這些角色在 VR 中有更進(jìn)一步的唱跳交流。
近日,陪玩來(lái)自南洋理工大學(xué)的端D端到端V都研究團(tuán)隊(duì)在 VR 中實(shí)現(xiàn)了第一個(gè) 3D 版角色扮演 AI 系統(tǒng) SOLAMI,并公開(kāi)其詳細(xì)的角色技術(shù)報(bào)告。沒(méi)錯(cuò),扮演這意味著和各種角色在 VR 中沉浸式聊天已經(jīng)是發(fā)布可實(shí)現(xiàn)的!
項(xiàng)目主頁(yè):https://solami-ai.github.io/
技術(shù)報(bào)告:https://arxiv.org/abs/2412.00174
完整介紹視頻:
從技術(shù)報(bào)告中我們可以看到,模型SOLAMI 支持多種角色,驅(qū)動(dòng)有超級(jí)英雄蝙蝠俠,唱跳小可愛(ài)機(jī)器人,二次元老婆,香蕉貓……
SOLAMI 驅(qū)動(dòng)的 AI 角色能識(shí)別用戶的肢體語(yǔ)言,從而去關(guān)心和理解用戶:
想讓角色跳個(gè)舞?只要說(shuō)句話,角色就能聽(tīng)懂做到:
還可以和角色玩游戲,比如跟著用戶節(jié)奏動(dòng)起來(lái),或者剪刀石頭布:
那么 SOLAMI 提出的動(dòng)機(jī)是什么?模型是怎么工作的?使用了什么樣的數(shù)據(jù)訓(xùn)練的?
研究背景
大家有沒(méi)有想過(guò)和一個(gè)虛擬角色進(jìn)行面對(duì)面的深度對(duì)話?不僅僅是簡(jiǎn)單的語(yǔ)言交流, 而是能像現(xiàn)實(shí)社交一樣, 觀察對(duì)方的面部表情、自然的身體語(yǔ)言, 甚至是細(xì)微的情緒變化。
心理學(xué)研究表明,在社交互動(dòng)中,沉浸程度越高,用戶體驗(yàn)就越好。但目前的 AI 角色(如 Character.ai 等) 仍然局限于文本或者語(yǔ)音的交互。這促使我們思考:如何構(gòu)建具有更豐富模態(tài)的 3D 自主角色呢?
要實(shí)現(xiàn)這個(gè)目標(biāo),主要面臨兩個(gè)挑戰(zhàn):
1. 3D 角色需要準(zhǔn)確觀察和理解用戶行為信息,并基于上下文和角色設(shè)定通過(guò)語(yǔ)音、肢體動(dòng)作和表情做出合適的回應(yīng)。這已經(jīng)超越了之前的單一任務(wù)(動(dòng)作理解,動(dòng)作生成,語(yǔ)音驅(qū)動(dòng)肢體等)的范疇。
2. 數(shù)據(jù)稀缺的問(wèn)題。人和 3D 角色進(jìn)行多模態(tài)交互的數(shù)據(jù)極其稀缺,收集這類數(shù)據(jù)需要復(fù)雜的設(shè)備和巨大成本。
傳統(tǒng)的 LLM-Agent 框架雖然在高層次任務(wù)(如規(guī)劃和記憶)表現(xiàn)不錯(cuò),但在理解用戶行為和提供及時(shí)的肢體語(yǔ)言反饋上存在局限。這是因?yàn)橛梦谋咀鳛樽幽K之間聯(lián)系的媒介會(huì)丟失很多細(xì)微的信息。
有趣的是,機(jī)器人領(lǐng)域的研究給了我們啟發(fā):對(duì)于低層次的操作任務(wù), 基于 LLM 構(gòu)建的端到端視覺(jué)-語(yǔ)言-行為(Vision-Language-Action,VLA)模型表現(xiàn)更好。數(shù)字角色本質(zhì)上就是虛擬人形態(tài)的機(jī)器人,那么構(gòu)建一個(gè)偏向于社交互動(dòng)的 VLA 模型會(huì)不會(huì)是一個(gè)有潛力的方向?
Social VLA 模型
如圖所示,SOLAMI 中所有角色的驅(qū)動(dòng)都是由一個(gè)統(tǒng)一的端到端 VLA 多模態(tài)模型驅(qū)動(dòng)。給定角色的設(shè)定,模型以用戶的語(yǔ)音和動(dòng)作作為輸入,將這兩種模態(tài)通過(guò) Motion Tokenizer 和 Speech Tokenizer 分別編碼為 LLM 新的詞表中的 token,LLM 基座會(huì)自回歸輸出角色的語(yǔ)音和動(dòng)作 token,再通過(guò)解碼器分別解碼為角色的 3D 動(dòng)作和語(yǔ)音,來(lái)驅(qū)動(dòng)角色做出反應(yīng)。
與 GPT-4o 相比,這個(gè)模型多了個(gè)用戶動(dòng)作的模態(tài),用于理解用戶的肢體語(yǔ)言,生成角色的動(dòng)作。
在這里,用戶的動(dòng)作以 SMPL-X 的 3D 旋轉(zhuǎn)進(jìn)行表示,動(dòng)作被拆為三個(gè)部分:相對(duì)于 3D 角色的相對(duì)位置,肢體動(dòng)作,和手部動(dòng)作。分別經(jīng)過(guò) 3 個(gè) VQVAE 進(jìn)行編碼。用戶的語(yǔ)音使用 RVQ-VAE 結(jié)構(gòu)進(jìn)行編碼,使用的 SoundStorm 進(jìn)行解碼,在解碼過(guò)程中,只要輸入小段角色的語(yǔ)音作為 prompt,就可以實(shí)現(xiàn)聲音克隆。
模型的訓(xùn)練主要分為兩個(gè)階段:多任務(wù)預(yù)訓(xùn)練和指令微調(diào)訓(xùn)練。
多任務(wù)預(yù)訓(xùn)練階段主要使用動(dòng)作-文本、語(yǔ)音-文本相關(guān)的數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練任務(wù)包括 text-to-speech, automatic speech recognition,speech-to-speech,motion understanding,motion generation,interactive motion generation 六個(gè)任務(wù)。目的在于讓 SOLAMI 學(xué)習(xí)動(dòng)作、語(yǔ)音和文本之間的關(guān)聯(lián)。
指令微調(diào)階段主要訓(xùn)練模型進(jìn)行多輪多模態(tài)對(duì)話的能力。使用合成的數(shù)據(jù)集,模型被要求學(xué)習(xí)基于角色設(shè)定和用戶輸入該如何做出語(yǔ)音和動(dòng)作的反饋。
數(shù)據(jù)收集
用于訓(xùn)練模型的數(shù)據(jù)是相當(dāng)稀缺的。畢竟,很少人能和蝙蝠俠面對(duì)面說(shuō)過(guò)話。因此,研究人員考慮使用現(xiàn)有不同模態(tài)的數(shù)據(jù)進(jìn)行合成。
首先,研究人員基于公開(kāi)的動(dòng)作-文本數(shù)據(jù)集構(gòu)建了一個(gè)大規(guī)模的帶有語(yǔ)義標(biāo)注的動(dòng)作庫(kù),包含 4 萬(wàn)多個(gè)人體動(dòng)作,然后使用 GPT-4o 生成角色和用戶對(duì)話的純文本的臺(tái)詞劇本。
根據(jù)生成的劇本動(dòng)作,從動(dòng)作庫(kù)檢索最合適的已有動(dòng)作,根據(jù)檢索到的動(dòng)作修繕好對(duì)應(yīng)的臺(tái)詞。這樣生成的文字劇本能和合成數(shù)據(jù)中的動(dòng)作較好吻合。最后,通過(guò)聲音克隆合成角色特有聲音。這樣,一個(gè)低成本可用的合成數(shù)據(jù)集得以實(shí)現(xiàn)。
VR 工程實(shí)現(xiàn)
研究人員基于 Oculus Quest 3 開(kāi)發(fā)了一個(gè)完整的 VR 交互系統(tǒng)。
前端支持用戶與 3D 虛擬角色的沉浸式交互,后端由 2 塊 H800 GPU 提供計(jì)算支持,可以支持多種模型和方法。
在交互時(shí),VR 頭顯會(huì)實(shí)時(shí)捕捉用戶的語(yǔ)音和全身動(dòng)作,發(fā)送給后端。后端運(yùn)行 SOLAMI 模型,生成角色的語(yǔ)音、肢體動(dòng)作和面部表情響應(yīng),發(fā)送給前端來(lái)驅(qū)動(dòng)角色。
實(shí)驗(yàn)結(jié)果
在本工作中,研究人員希望探討兩個(gè)問(wèn)題:與純語(yǔ)音相比,3D 角色與動(dòng)作是否會(huì)給 AI 角色扮演帶來(lái)體驗(yàn)提升?與 LLM-Agent 結(jié)構(gòu)相比,端到端的 VLA 結(jié)構(gòu)是否在交互質(zhì)量和延遲上有體驗(yàn)提升?
為此,研究人員選擇了兩種對(duì)比方法:LLM+Speech,DLP(MoitonGPT)。前者是純語(yǔ)音的交互,后者是 LLM-Agent 結(jié)構(gòu)驅(qū)動(dòng)的數(shù)字角色。為了保證公平,這些方法的基座模型都是 llama2-7B,并使用 vLLM 部署進(jìn)行加速。
定量實(shí)驗(yàn)結(jié)果表明,SOLAMI 在動(dòng)作質(zhì)量和語(yǔ)音質(zhì)量上表現(xiàn)都優(yōu)于對(duì)比方法,并且有較低的事件延遲。消融實(shí)驗(yàn)也表明,多任務(wù)的預(yù)訓(xùn)練對(duì)模型最終效果有重要提升。
除了定量試驗(yàn)外,研究人員還做了用戶實(shí)驗(yàn),通過(guò)讓用戶在 VR 頭顯中跟各種角色互動(dòng),并且根據(jù)體驗(yàn)進(jìn)行打分??梢园l(fā)現(xiàn) SOLAMI 體驗(yàn)明顯好于純語(yǔ)音方法和 LLM-Agent 結(jié)構(gòu)方法。有趣的是,雖然純語(yǔ)音方法在對(duì)話內(nèi)容上比 LLM-Agent 結(jié)構(gòu)方法好,但是總體體驗(yàn)上還是弱于后者,這印證了角色和肢體語(yǔ)言在 AI 角色扮演中對(duì)于體驗(yàn)的重要性。
總結(jié)
研究人員在這篇工作中,提出了一個(gè) Social VLA 的端到端建模 3D 數(shù)字角色的技術(shù)框架,一種從現(xiàn)有不完備模態(tài)的數(shù)據(jù)合成多模態(tài)社交互動(dòng)數(shù)據(jù)的管線,和一個(gè)支持用戶和角色進(jìn)行沉浸式互動(dòng)的 VR 交互系統(tǒng)。
當(dāng)然,作為一個(gè)新的方向,研究者們指出了一些值得探索的方向,比如輸入輸出模態(tài)的設(shè)定、數(shù)據(jù)搜集方式、跨具身問(wèn)題、長(zhǎng)短時(shí)記憶問(wèn)題、技能學(xué)習(xí)方法等。感興趣的朋友可以參考技術(shù)報(bào)告。
參考資料:
https://solami-ai.github.io/
本文來(lái)自微信公眾號(hào):新智元(ID:AI_era),原標(biāo)題《首個(gè) VR 端 3D 角色扮演 AI 發(fā)布!南洋理工公開(kāi) SOLAMI 技術(shù)報(bào)告,端到端 VLA 模型驅(qū)動(dòng),唱跳都能陪你玩》