国产少妇精品视频一区二区,久久久久国产精品片区无码直播,18禁成人精品一区二区三区

世界上第一個(gè) VR 端 3D 版的端D端到端V都角色扮演 AI 就在剛剛誕生了！

首個(gè) VR 端 3D 角色扮演 AI 發(fā)布：端到端 VLA 模型驅(qū)動(dòng)，唱跳都能陪你玩

AI 角色扮演類游戲（如 C.AI、角色Talkie）從發(fā)布以來(lái)，扮演一直都是發(fā)布人們最喜歡的 AI 產(chǎn)品之一。雖然廣受歡迎，模型但不少用戶提出，驅(qū)動(dòng)期待和這些角色在 VR 中有更進(jìn)一步的唱跳交流。

近日，陪玩來(lái)自南洋理工大學(xué)的端D端到端V都研究團(tuán)隊(duì)在 VR 中實(shí)現(xiàn)了第一個(gè) 3D 版角色扮演 AI 系統(tǒng) SOLAMI，并公開(kāi)其詳細(xì)的角色技術(shù)報(bào)告。沒(méi)錯(cuò)，扮演這意味著和各種角色在 VR 中沉浸式聊天已經(jīng)是發(fā)布可實(shí)現(xiàn)的！

項(xiàng)目主頁(yè)：https://solami-ai.github.io/
技術(shù)報(bào)告：https://arxiv.org/abs/2412.00174
完整介紹視頻：

從技術(shù)報(bào)告中我們可以看到，模型SOLAMI 支持多種角色，驅(qū)動(dòng)有超級(jí)英雄蝙蝠俠，唱跳小可愛(ài)機(jī)器人，二次元老婆，香蕉貓……

SOLAMI 驅(qū)動(dòng)的 AI 角色能識(shí)別用戶的肢體語(yǔ)言，從而去關(guān)心和理解用戶：

想讓角色跳個(gè)舞？只要說(shuō)句話，角色就能聽(tīng)懂做到：

還可以和角色玩游戲，比如跟著用戶節(jié)奏動(dòng)起來(lái)，或者剪刀石頭布：

那么 SOLAMI 提出的動(dòng)機(jī)是什么？模型是怎么工作的？使用了什么樣的數(shù)據(jù)訓(xùn)練的？

研究背景

大家有沒(méi)有想過(guò)和一個(gè)虛擬角色進(jìn)行面對(duì)面的深度對(duì)話？不僅僅是簡(jiǎn)單的語(yǔ)言交流, 而是能像現(xiàn)實(shí)社交一樣, 觀察對(duì)方的面部表情、自然的身體語(yǔ)言, 甚至是細(xì)微的情緒變化。

心理學(xué)研究表明，在社交互動(dòng)中，沉浸程度越高，用戶體驗(yàn)就越好。但目前的 AI 角色（如 Character.ai 等) 仍然局限于文本或者語(yǔ)音的交互。這促使我們思考：如何構(gòu)建具有更豐富模態(tài)的 3D 自主角色呢？

要實(shí)現(xiàn)這個(gè)目標(biāo)，主要面臨兩個(gè)挑戰(zhàn)：

1. 3D 角色需要準(zhǔn)確觀察和理解用戶行為信息，并基于上下文和角色設(shè)定通過(guò)語(yǔ)音、肢體動(dòng)作和表情做出合適的回應(yīng)。這已經(jīng)超越了之前的單一任務(wù)（動(dòng)作理解，動(dòng)作生成，語(yǔ)音驅(qū)動(dòng)肢體等）的范疇。
2. 數(shù)據(jù)稀缺的問(wèn)題。人和 3D 角色進(jìn)行多模態(tài)交互的數(shù)據(jù)極其稀缺，收集這類數(shù)據(jù)需要復(fù)雜的設(shè)備和巨大成本。

傳統(tǒng)的 LLM-Agent 框架雖然在高層次任務(wù)（如規(guī)劃和記憶）表現(xiàn)不錯(cuò)，但在理解用戶行為和提供及時(shí)的肢體語(yǔ)言反饋上存在局限。這是因?yàn)橛梦谋咀鳛樽幽K之間聯(lián)系的媒介會(huì)丟失很多細(xì)微的信息。

有趣的是，機(jī)器人領(lǐng)域的研究給了我們啟發(fā)：對(duì)于低層次的操作任務(wù), 基于 LLM 構(gòu)建的端到端視覺(jué)-語(yǔ)言-行為（Vision-Language-Action，VLA）模型表現(xiàn)更好。數(shù)字角色本質(zhì)上就是虛擬人形態(tài)的機(jī)器人，那么構(gòu)建一個(gè)偏向于社交互動(dòng)的 VLA 模型會(huì)不會(huì)是一個(gè)有潛力的方向？

Social VLA 模型

SOLAMI 推理圖

如圖所示，SOLAMI 中所有角色的驅(qū)動(dòng)都是由一個(gè)統(tǒng)一的端到端 VLA 多模態(tài)模型驅(qū)動(dòng)。給定角色的設(shè)定，模型以用戶的語(yǔ)音和動(dòng)作作為輸入，將這兩種模態(tài)通過(guò) Motion Tokenizer 和 Speech Tokenizer 分別編碼為 LLM 新的詞表中的 token，LLM 基座會(huì)自回歸輸出角色的語(yǔ)音和動(dòng)作 token，再通過(guò)解碼器分別解碼為角色的 3D 動(dòng)作和語(yǔ)音，來(lái)驅(qū)動(dòng)角色做出反應(yīng)。

與 GPT-4o 相比，這個(gè)模型多了個(gè)用戶動(dòng)作的模態(tài)，用于理解用戶的肢體語(yǔ)言，生成角色的動(dòng)作。

在這里，用戶的動(dòng)作以 SMPL-X 的 3D 旋轉(zhuǎn)進(jìn)行表示，動(dòng)作被拆為三個(gè)部分：相對(duì)于 3D 角色的相對(duì)位置，肢體動(dòng)作，和手部動(dòng)作。分別經(jīng)過(guò) 3 個(gè) VQVAE 進(jìn)行編碼。用戶的語(yǔ)音使用 RVQ-VAE 結(jié)構(gòu)進(jìn)行編碼，使用的 SoundStorm 進(jìn)行解碼，在解碼過(guò)程中，只要輸入小段角色的語(yǔ)音作為 prompt，就可以實(shí)現(xiàn)聲音克隆。

SOLAMI 訓(xùn)練過(guò)程

模型的訓(xùn)練主要分為兩個(gè)階段：多任務(wù)預(yù)訓(xùn)練和指令微調(diào)訓(xùn)練。

多任務(wù)預(yù)訓(xùn)練階段主要使用動(dòng)作-文本、語(yǔ)音-文本相關(guān)的數(shù)據(jù)集進(jìn)行訓(xùn)練，訓(xùn)練任務(wù)包括 text-to-speech, automatic speech recognition，speech-to-speech，motion understanding，motion generation，interactive motion generation 六個(gè)任務(wù)。目的在于讓 SOLAMI 學(xué)習(xí)動(dòng)作、語(yǔ)音和文本之間的關(guān)聯(lián)。

指令微調(diào)階段主要訓(xùn)練模型進(jìn)行多輪多模態(tài)對(duì)話的能力。使用合成的數(shù)據(jù)集，模型被要求學(xué)習(xí)基于角色設(shè)定和用戶輸入該如何做出語(yǔ)音和動(dòng)作的反饋。

數(shù)據(jù)收集

用于訓(xùn)練模型的數(shù)據(jù)是相當(dāng)稀缺的。畢竟，很少人能和蝙蝠俠面對(duì)面說(shuō)過(guò)話。因此，研究人員考慮使用現(xiàn)有不同模態(tài)的數(shù)據(jù)進(jìn)行合成。

首先，研究人員基于公開(kāi)的動(dòng)作-文本數(shù)據(jù)集構(gòu)建了一個(gè)大規(guī)模的帶有語(yǔ)義標(biāo)注的動(dòng)作庫(kù)，包含 4 萬(wàn)多個(gè)人體動(dòng)作，然后使用 GPT-4o 生成角色和用戶對(duì)話的純文本的臺(tái)詞劇本。

根據(jù)生成的劇本動(dòng)作，從動(dòng)作庫(kù)檢索最合適的已有動(dòng)作，根據(jù)檢索到的動(dòng)作修繕好對(duì)應(yīng)的臺(tái)詞。這樣生成的文字劇本能和合成數(shù)據(jù)中的動(dòng)作較好吻合。最后，通過(guò)聲音克隆合成角色特有聲音。這樣，一個(gè)低成本可用的合成數(shù)據(jù)集得以實(shí)現(xiàn)。

SOLAMI 合成數(shù)據(jù)管線

VR 工程實(shí)現(xiàn)

SOLAMI VR 工程框架

研究人員基于 Oculus Quest 3 開(kāi)發(fā)了一個(gè)完整的 VR 交互系統(tǒng)。

前端支持用戶與 3D 虛擬角色的沉浸式交互，后端由 2 塊 H800 GPU 提供計(jì)算支持，可以支持多種模型和方法。

在交互時(shí)，VR 頭顯會(huì)實(shí)時(shí)捕捉用戶的語(yǔ)音和全身動(dòng)作，發(fā)送給后端。后端運(yùn)行 SOLAMI 模型，生成角色的語(yǔ)音、肢體動(dòng)作和面部表情響應(yīng)，發(fā)送給前端來(lái)驅(qū)動(dòng)角色。

實(shí)驗(yàn)結(jié)果

在本工作中，研究人員希望探討兩個(gè)問(wèn)題：與純語(yǔ)音相比，3D 角色與動(dòng)作是否會(huì)給 AI 角色扮演帶來(lái)體驗(yàn)提升？與 LLM-Agent 結(jié)構(gòu)相比，端到端的 VLA 結(jié)構(gòu)是否在交互質(zhì)量和延遲上有體驗(yàn)提升？

為此，研究人員選擇了兩種對(duì)比方法：LLM+Speech，DLP（MoitonGPT）。前者是純語(yǔ)音的交互，后者是 LLM-Agent 結(jié)構(gòu)驅(qū)動(dòng)的數(shù)字角色。為了保證公平，這些方法的基座模型都是 llama2-7B，并使用 vLLM 部署進(jìn)行加速。

定量實(shí)驗(yàn)結(jié)果

定量實(shí)驗(yàn)結(jié)果表明，SOLAMI 在動(dòng)作質(zhì)量和語(yǔ)音質(zhì)量上表現(xiàn)都優(yōu)于對(duì)比方法，并且有較低的事件延遲。消融實(shí)驗(yàn)也表明，多任務(wù)的預(yù)訓(xùn)練對(duì)模型最終效果有重要提升。

實(shí)驗(yàn)定性分析與 VR 使用流程

除了定量試驗(yàn)外，研究人員還做了用戶實(shí)驗(yàn)，通過(guò)讓用戶在 VR 頭顯中跟各種角色互動(dòng)，并且根據(jù)體驗(yàn)進(jìn)行打分?？梢园l(fā)現(xiàn) SOLAMI 體驗(yàn)明顯好于純語(yǔ)音方法和 LLM-Agent 結(jié)構(gòu)方法。有趣的是，雖然純語(yǔ)音方法在對(duì)話內(nèi)容上比 LLM-Agent 結(jié)構(gòu)方法好，但是總體體驗(yàn)上還是弱于后者，這印證了角色和肢體語(yǔ)言在 AI 角色扮演中對(duì)于體驗(yàn)的重要性。

消融實(shí)驗(yàn)結(jié)果

總結(jié)

研究人員在這篇工作中，提出了一個(gè) Social VLA 的端到端建模 3D 數(shù)字角色的技術(shù)框架，一種從現(xiàn)有不完備模態(tài)的數(shù)據(jù)合成多模態(tài)社交互動(dòng)數(shù)據(jù)的管線，和一個(gè)支持用戶和角色進(jìn)行沉浸式互動(dòng)的 VR 交互系統(tǒng)。

當(dāng)然，作為一個(gè)新的方向，研究者們指出了一些值得探索的方向，比如輸入輸出模態(tài)的設(shè)定、數(shù)據(jù)搜集方式、跨具身問(wèn)題、長(zhǎng)短時(shí)記憶問(wèn)題、技能學(xué)習(xí)方法等。感興趣的朋友可以參考技術(shù)報(bào)告。

參考資料：

https://solami-ai.github.io/

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era），原標(biāo)題《首個(gè) VR 端 3D 角色扮演 AI 發(fā)布！南洋理工公開(kāi) SOLAMI 技術(shù)報(bào)告，端到端 VLA 模型驅(qū)動(dòng)，唱跳都能陪你玩》

欧美在线专区-欧美在线伊人-欧美在线一区二区三区欧美-欧美在线一区二区三区-pornodoxxx中国妞-pornodoldoo欧美另类

研究背景

Social VLA 模型

數(shù)據(jù)收集

VR 工程實(shí)現(xiàn)

實(shí)驗(yàn)結(jié)果

總結(jié)

Related articles

**2026年美國(guó)國(guó)際暖通空調(diào)及制冷展Refri

我丟是什么意思真正含義我丟是什么意思

云上舞陽(yáng)

Popular articles

1皂角米燕窩

2諾森德飛行解鎖在哪

3中國(guó)羽毛球大師賽深圳

4穆西亞拉和貝林厄姆誰(shuí)厲害穆西亞拉

5會(huì)使用電控玻璃的地方就是陽(yáng)光屋,行業(yè)資訊