讓虛擬角色更自然地穿衣服,研究員用AI解決角色和服裝之間復雜交互
由于角色和服裝之間的復雜交互,制作角色穿衣動畫十分具有挑戰(zhàn)性。由喬治亞理工學院博士生與教授,以及Google Brain研究人員組成的團隊采用了深度強化學習(deepRL)來自動發(fā)現(xiàn)由神經(jīng)網(wǎng)絡表示的穩(wěn)定穿衣控制策略。盡管deepRL在學習復雜運動技能方面已經(jīng)取得了一些成功,但學習算法的數(shù)據(jù)要求性質與穿衣任務所需的高昂布料模擬計算成本不一致。
名為《Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning(學習穿衣:通過深度強化學習來合成人類穿衣運動》的論文于日前正式發(fā)布,并首次證明通過適當設計的輸入狀態(tài)空間和回報函數(shù),研究人員可以將布料模擬整合至deepRL框架并學習穩(wěn)定的穿衣控制策略。研究人員引入了觸覺信息的顯著呈現(xiàn)來引導穿衣過程,并在訓練期間將其用于回報函數(shù)以提供學習信號。
1. 理解穿衣問題
我們每天都會穿衣搭配,比如說穿上T恤或夾克。但對于機器執(zhí)行或計算機模擬而言,這是計算成本高昂且復雜的任務。論文描述的解決方案通過物理模擬和機器學習技術來合成動畫。物理引擎用于模擬角色運動和布料運動。另一方面,神經(jīng)網(wǎng)絡上的深度強化學習則用來產(chǎn)生角色運動。
2. 物理引擎和神經(jīng)網(wǎng)絡上的強化學習
論文作者提出了一種觸覺信息的突出呈現(xiàn)以引導穿衣過程。然后當訓練神經(jīng)網(wǎng)絡時,在回報函數(shù)中使用這種觸覺信息來提供學習信號。由于任務過于復雜無法一次執(zhí)行,因此穿衣任務將分成若干子任務,從而實現(xiàn)更好的控制。
為了匹配從一個任務的輸出狀態(tài)分布到下一個任務的輸入分布,研究人員提出了一種policy sequencing algorithm(策略排序算法)。相同的方法用于生成用于各種穿著任務的角色控制器,例如穿著T恤和穿著夾克。
3. 穿衣是一項復雜的任務,所以將其分成多個子任務
研究人員的方法將穿衣任務分成了一系列的子任務。接下來,狀態(tài)機將引導任何的進行。例如,穿著夾克由四個子任務組成:
第一個手臂穿過袖筒。
將第二個手臂移到后面,為第二個袖筒定位。
第二個手臂穿過第二個袖筒。
最后,身體恢復至正常狀態(tài)。
為了學習控制策略,研究人員為每個子任務制定了單獨的強化學習問題。
Policy Sequencing Algorithm可以確保單獨的控制策略可以引導系統(tǒng)按順序執(zhí)行穿衣序列。算法將一個子任務的初始狀態(tài)與序列中前一個子任務的最終狀態(tài)進行匹配。通過應用所得到的控制策略,系統(tǒng)可以生成各種成功的穿衣動作。
穿衣任務中的每個子任務都進行了公式化,編程為部分可觀察的馬爾可夫決策過程(Markov Decision Process;POMDP)。借助動態(tài)動畫和機器人工具包(Dynamic Animation and Robotics Toolkit;DART),以及基于NVIDIA PhysX的布料動力學,系統(tǒng)可以模擬角色動力學。
4. 總結和提升空間
通過深度強化學習和物理模擬,研究人員成功創(chuàng)建了一個學習如何制作角色穿衣動畫的系統(tǒng)。從子任務中,系統(tǒng)單獨學習每個子任務,然后將它們與狀態(tài)機連接。結果發(fā)現(xiàn),優(yōu)選布料觀察和回報函數(shù)是方法成功的重要因素。
系統(tǒng)目前僅適用于上半身穿衣。對于下半身,系統(tǒng)需要在控制器中保持平衡。當使用包含記憶的控制策略架構時,子任務的數(shù)量可能會減少。這將有助于生成所學的技能。
文章來源:映維網(wǎng) 如轉載請標明出處
原文鏈接 : https://yivian.com/news/53033.html
未經(jīng)授權,禁止轉載,違者必將追究法律責任。