29.5 C
Taipei
星期四, 30 6 月, 2022
Home科技新聞AI人工智慧Google 開發編舞用人工智慧「FACT」,任何音樂都能生成對應舞蹈!

Google 開發編舞用人工智慧「FACT」,任何音樂都能生成對應舞蹈!

人工智慧學編舞,動作搭配音樂複雜度高

Google 正進行一項人工智慧研究,開發稱為「FACT (Full-Attention Cross-modal Transformer)」的模型,可以模仿、理解舞蹈動作,甚至可提高個人的編舞能力。Google 研究團隊為了訓練該模型,也隨之發布一個大規模、多模態的 3D 舞蹈動作資料庫「AIST++」,包含長達 5.2 小時的 1408 個 3D 舞蹈動作序列,涵蓋 10 種舞蹈類型。都包含了已知相機位置的多視角影片,可生成逼真流暢的 3D 舞蹈動作。

Google 提到:雖然隨著音樂節拍編排出動作,是人類的本能;然而舞蹈是「需要練習」的藝術形式。專業的舞者都需要經過大量的、包含各式各樣舞步的曲目來訓練,才有編舞能力。這樣的訓練,對人類來說已不容易;對 ML(Maching Learning,機器學習)來說更是難上加難。因為要使用人工智慧來實現編舞,需要生成動力複雜度高的連續動作,同時還要捕捉動作與配樂間的非線性關係。

人工智慧如何學舞?Google修正AIST舞蹈資料庫成教材

Google 從現有的 AIST 舞蹈影片資料庫(一組帶有音樂伴奏的舞蹈影片,但無任何 3D 信息)生成 3D 動作資料庫。AIST 包含 10 種舞蹈類型:Old School(地板舞 Breaking、機械舞 Popping、鎖舞 Locking 和 Waack)以及 New School(Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz 和 Ballet Jazz),雖然包含了許多舞者的多視角影片,但鏡頭都沒有經過校準。 Google 依研究人員的需求,根據常用的 SMPL 3D模型參數,修復 AIST 影片的拍攝校準正後的數值和 3D 人體動作,重建為「AIST++ 數位資料庫」,包含與音樂搭配的各種 3D 動作,並將上述十種舞蹈均勻地呈現在動作中、以每分鐘節拍 (BPM) 為單位涵蓋各種音樂節奏。每種舞蹈類型都含 85% 的基本動作和 15% 的進階動作(舞者自由設計的更長編舞)。

未經修正的 AIST 舞蹈影片資料庫如下所示:

Google 依研究人員的需求,根據常用的 SMPL 3D 模型參數,修復 AIST 影片的拍攝校準正後的數值,以及 3D 人體動作,重建為「AIST++」數位資料庫。重建後的「AIST++」包含與音樂搭配的各種 3D 動作,並將上述十種舞蹈均勻地呈現在動作中、以每分鐘節拍 (BPM) 為單位涵蓋各種音樂節奏。每種舞蹈類型都含 85% 的基本動作和 15% 的進階動作(舞者自由設計的更長編舞)。

AIST++ 數位資料庫還包括多視角同步圖片資訊,以便於應用在其他研究(如 2D/3D人體姿勢評估)。就我們所知,含有 1408 個序列、30 個主題和 10 個舞蹈流派的 AIST++ 是當前最大的 3D 人類舞蹈資料庫。

Google 使用 SMPL 3D 模型參數,將 AIST 舞蹈影片資料庫(上圖左)重建為具有 3D 動作的「AIST++」數位資料庫(上圖右)

AIST 資料庫原作為教學使用,記錄了多個真人舞者以相同的編舞搭配不同配樂的舞蹈影片——這是舞蹈中的常見作法。由於模型需要學習音樂和動作間的一對多布局,因此在跨模型序列到序列生成(cross-modal sequence-to-sequence generation)中,斷定是獨一無二的挑戰!Google 在 AIST++ 上仔細構建了非重疊訓練(non-overlapping train)和測試子集,以確保在子集間既不共享編舞、也不共享音樂。

人工智慧編舞一把罩:FACT 模型

Google 使用上述的 AIST 資料庫,訓練 FACT 模型從音樂生成 3D 舞蹈。該模型先使用動作轉換器與音頻轉換器,分別對一段音樂與一個短的(2 秒)種子動作(seed motion)進行編碼。之後再將嵌入碼連接、發送到跨模型轉換器,該轉換器學習兩種模型之間的對應關係,並生成 N 個未來的動作序列。

然後使用這些序列以自我監督的方式訓練模型。在測試時,Google 將此模型用於自回歸框架,其中所預測的動作則作為下一個生成步驟的輸入。因此,FACT 模型能夠一個框架接著一個框架地,生成長時間的舞蹈動作。

FACT 網絡接收音樂片段 (Y) 和 2 秒的種子運動序列 (X),然後生成與輸入音樂相關的長期未來動作。|圖片出處:Google AI Blog

Google 用三指標評估 FACT 的性能

Google 依據以下所述之三個指標,評估人工智慧 FACT 的性能:

動作品質:我們計算 AIST++ 資料庫中的「真實舞蹈動作序列」與 40 個「模型生成的動作序列」之間的 Frechet 起始距離(FID),每個序列具有 1200 幀鏡頭(20 秒)。我們將基於幾何和動力學特徵的 FID 分別表示為 FIDg 和 FIDk

生成多樣性:之前的工作(指深度慣性姿勢捕捉」:從少許的慣性量測中學習而重建人體姿勢)類似:Google 從 AIST++ 測試集中的 40 個「模型生成動作特徵空間」中,計算平均歐氏距離,用以評估模型生成各式舞蹈動作的能力。,接著再比較幾何特徵空間 (Dist g ) 和動力學特徵空間 (Dist k )。

Google 使用不同的音樂,來生成四個不同的編舞版本:Break、Ballet Jazz、Krump 和 Middle Hip-hop(右),但有兩秒是相同的 Hip-hop 舞蹈動作(左),這些相同的動作被稱為「種子動作」。|圖片出處:Google AI Blog

運動-音樂相關:由於沒有合適的指標來衡量輸入音樂(音樂節拍)與所生成的 3D 動作(動作節拍)之間的相關性。所以 Google 提出了一種新的「節拍對齊分數 (BeatAlign)」作為指標。

上圖中顯示 FACT 所生成的舞蹈動作的動作速率(藍色曲線)、動作節拍(綠色虛線),及音樂節拍(橙色虛線)。通過從動作速率曲線中找到局部最小值,來提升動作節拍。|圖片出處:Google AI Blog

與其他人工智慧應用相比:FACT編舞能力一流

將 FACT 的性能,針對各個指標,與其他的人工智慧應用進行比較:

如上表所示,FACT 與三種最先進的編舞人工智慧應用(Li et alDancenetDance Revolution)相比,FACT 模型生成的動作更逼真,與輸入音樂的相關性更好,並且在以不同的音樂為條件時更多樣化。*注意的是 Li et al生成的運動是不連續的,使得平均運動特徵距離異常高。

Google 還透過使用者研究,評估音樂與動作的相關性:讓每位使用者觀看 10 個影片,片中有一個 FACT 模型與一個隨機對照模型所生成的編舞結果然後讓使用者選擇哪個模型生成的舞步比較能夠與音樂同步。使用者共有 30 名,包含專業舞者以及很少跳舞的人。

結果顯示:81% 的使用者喜歡 FACT 模型生成的結果勝於 「Li et al.」的;跟 Dancenet 相比,71% 的人喜歡 FACT 勝過 Dancenet;跟 Dance Revolution 比較, 77% 的人也更喜歡 FACT。。有趣的是,75% 的參與者喜歡 AIST++ 未配對的舞蹈動作勝於透過 FACT 所生成的。這並不奇怪,因為最初的舞蹈紀錄具有很強的表現力。

定性結果

如下圖所示,與先前 DanceNet(左)與 Li et. al.(中)相較之下,使用 FACT 模型(右)生成的 3D 舞蹈更逼真,並且與音樂的相關性更好。

使用 FACT 人工智慧模型生成更多 3D 舞蹈:

人工智慧發展下一步:為每首歌生成逼真舞蹈

Google 開發了一個人工智慧模型,可以學習音頻與動作對應的關係,還可以基於音樂,生成的高質量 3D 動作序列。由於從音樂生成 3D 動作是一個新興的研究領域,Google 希望此項研究成果能為未來跨模組「音頻-3D 動作」的生成鋪道。

透過這項研究,Google 還發布了迄今為止最大的 3D 人類舞蹈資料庫「AIST++」——具有多視角、多種舞蹈形式、跨模態的 3D 動作數據集,不僅對 3D 動作生成研究有幫助,一般來說,也對人類理解研究幫助。Google 將在 GitHub 中發布代碼,並在此處發布經過訓練的模型。

雖然此項結果給了這個「基於音樂來生成 3D 動作」的議題一個有希望的方向,但還有更多的東西需要探索:像是Google 所使用的方法是基於運動學的、並沒有將舞者和地板間的身體互動考慮進去。因此,若進行全局平移的話,會導致如腳滑動和浮動的假影。因此,接下來的方向是要探索如何為每首音樂來生成多個逼真的舞蹈。

最新文章

熱門文章