近日,靈初智能發布的靈初的分層端到端VLA+強化學習算法模型Psi-R1,已實現機器人在開放環境中的長程靈巧操作能力,達成了30分鐘+持續CoAT超長任務時長,同時驗證了三重復合交互能力(人-機交互、機-機交互、發布分層機-環境交互),體現出VLA的端到端超強推理能力和RL超越人類上限的思考、操作能力。強化

理論上,只有具備L3(即基于Chain of Action Thought(CoAT)框架的學習自主推理系統)的長程CoAT靈巧操作能力,才能理解世界,并將學到的知識遷移到新的環境中落地。靈初智能憑借其分層端到端VLA+強化學習算法模型Psi-R1,以麻將為場景,展現了機器人在開放環境中的算法長程靈巧操作能力,達成了30分鐘+持續CoAT超長任務時長,同時驗證了三重復合交互能力(人-機交互、機-機交互、模型機-環境交互),體現出VLA的靈初超強推理能力和RL超越人類上限的思考、操作能力。發布分層
這項突破性成果標志著具身智能從單一動作執行向完成復雜物理世界感知、端到端推理和執行閉環的強化關鍵躍遷,為具身智能真正進入商業場景提供了可落地的技術范式。
在24年成立之初,靈初智能率先提出分層端到端快慢腦架構技術路線,如今已成為行業共識;而此次發布的學習Psi-R1快慢腦架構,不僅可實現模態對齊,結合強化學習達到具身Aha Moment,更是回應了并一定程度解決了Nvidia機器人高級總監及華盛頓大學教授 Deiter Fox對快慢腦架構存在兩個核心問題(即,如何連接快慢腦、實現慢腦規劃和快腦操作的算法模態對齊;如何突破模仿學習的瓶、訓練豐富技能)。模型
靈初R1模型已首度成功驗證VLA Test-Time Scaling
靈初智能R1快慢腦系統具備L3能力,可在開放環境下自主推理決策,完成長程復雜操作,其技術得以廣泛應用并已與制造業、靈初商超零售、跨境物流等行業龍頭企業展開合作,梯次布局高價值商業化場景,從泛工業向泛零售物流,再最終邁向家庭應用,并進一步探索具身智能的未知領域。