近日,靈初智能發(fā)布的靈初的分層端到端VLA+強(qiáng)化學(xué)習(xí)算法模型Psi-R1,已實現(xiàn)機(jī)器人在開放環(huán)境中的長程靈巧操作能力,達(dá)成了30分鐘+持續(xù)CoAT超長任務(wù)時長,同時驗證了三重復(fù)合交互能力(人-機(jī)交互、機(jī)-機(jī)交互、發(fā)布分層機(jī)-環(huán)境交互),體現(xiàn)出VLA的端到端超強(qiáng)推理能力和RL超越人類上限的思考、操作能力。強(qiáng)化

理論上,只有具備L3(即基于Chain of Action Thought(CoAT)框架的學(xué)習(xí)自主推理系統(tǒng))的長程CoAT靈巧操作能力,才能理解世界,并將學(xué)到的知識遷移到新的環(huán)境中落地。靈初智能憑借其分層端到端VLA+強(qiáng)化學(xué)習(xí)算法模型Psi-R1,以麻將為場景,展現(xiàn)了機(jī)器人在開放環(huán)境中的算法長程靈巧操作能力,達(dá)成了30分鐘+持續(xù)CoAT超長任務(wù)時長,同時驗證了三重復(fù)合交互能力(人-機(jī)交互、機(jī)-機(jī)交互、模型機(jī)-環(huán)境交互),體現(xiàn)出VLA的靈初超強(qiáng)推理能力和RL超越人類上限的思考、操作能力。發(fā)布分層
這項突破性成果標(biāo)志著具身智能從單一動作執(zhí)行向完成復(fù)雜物理世界感知、端到端推理和執(zhí)行閉環(huán)的強(qiáng)化關(guān)鍵躍遷,為具身智能真正進(jìn)入商業(yè)場景提供了可落地的技術(shù)范式。
在24年成立之初,靈初智能率先提出分層端到端快慢腦架構(gòu)技術(shù)路線,如今已成為行業(yè)共識;而此次發(fā)布的學(xué)習(xí)Psi-R1快慢腦架構(gòu),不僅可實現(xiàn)模態(tài)對齊,結(jié)合強(qiáng)化學(xué)習(xí)達(dá)到具身Aha Moment,更是回應(yīng)了并一定程度解決了Nvidia機(jī)器人高級總監(jiān)及華盛頓大學(xué)教授 Deiter Fox對快慢腦架構(gòu)存在兩個核心問題(即,如何連接快慢腦、實現(xiàn)慢腦規(guī)劃和快腦操作的算法模態(tài)對齊;如何突破模仿學(xué)習(xí)的瓶、訓(xùn)練豐富技能)。模型
靈初R1模型已首度成功驗證VLA Test-Time Scaling
靈初智能R1快慢腦系統(tǒng)具備L3能力,可在開放環(huán)境下自主推理決策,完成長程復(fù)雜操作,其技術(shù)得以廣泛應(yīng)用并已與制造業(yè)、靈初商超零售、跨境物流等行業(yè)龍頭企業(yè)展開合作,梯次布局高價值商業(yè)化場景,從泛工業(yè)向泛零售物流,再最終邁向家庭應(yīng)用,并進(jìn)一步探索具身智能的未知領(lǐng)域。