編譯:江彥成、指定黃思齊
只要指定歌手、歌手歌唱給聽歌詞和曲風(fēng),和曲Open AI的風(fēng)生深度神經(jīng)網(wǎng)路模型Jukebox就可以唱給你聽!雖然它的成新作品還遠(yuǎn)不及真人創(chuàng)作的質(zhì)感,但Jukebox已經(jīng)能生成與一般歌曲長度相近(約1~4分鐘)且風(fēng)格一致的點(diǎn)唱旋律。想聽Bruno Mars從藍(lán)調(diào)改唱搖滾?可以先用這個工具過個癮!機(jī)何
音樂生成的指定難題
AI作曲並不稀奇,例如Open AI在2019年發(fā)佈的歌手歌唱給聽MuseNet就已經(jīng)可以用10種不同樂器生成古典、爵士、和曲甚至混成Bon Jovi的風(fēng)生曲風(fēng),然而這類模型無論是成新輸入與產(chǎn)出都是所謂的「符號音樂」(symbolic music)──記錄了音高、時間點(diǎn)、點(diǎn)唱(敲擊按鍵的機(jī)何)力度(velocity)與演奏的樂器,但不能處理人聲、指定音色等細(xì)微的表達(dá)差異;並且隨著樂曲時間拉長,難以顧及完整的音樂架構(gòu),例如前奏到副歌的一致性。
為了克服上述的限制,Jukebox的訓(xùn)練資料與生成的樂曲都是原聲音檔。研究人員先由網(wǎng)路上蒐羅了120萬首歌曲(其中60萬是英語)。不單單是音訊,還包含了歌詞、作者、演唱者、曲風(fēng)、年代等資訊,並參考這些歌曲在播放清單上的關(guān)鍵字或是與歌曲一併出現(xiàn)的情緒等。
取樣與生成
另一方面,正如前面所說,比起生成資料量小、音訊簡單的MuseNet,Jukebox要生成一首一般CD音質(zhì)的歌曲(4分鐘,16位元,44kHz ),需要超過一千萬時步(timestep)來處理。相較之下,文本生成器GPT-2僅需1,000時步(按:Time Step,函數(shù)需要運(yùn)行的頻率);電玩Dot2中,打敗人類玩家的OpenAI Five僅需數(shù)萬時步。在這樣龐大的資料流中,模型需要能夠處理跨度很大的相關(guān)性,才能學(xué)習(xí)到歌曲的高階語意(high-level semantics),如主旋律、歌曲力度、強(qiáng)弱張力、曲式編排等。
針對這一點(diǎn),OpenAI團(tuán)隊(duì)採用分層編碼,將44kHz的原始音訊(訓(xùn)練資料)分別壓縮為不同壓縮幅度的三個音軌(8x、32x及128x)。最高階音軌(壓縮率最大)掌握了歌曲的大範(fàn)圍結(jié)構(gòu),負(fù)責(zé)捕捉樂曲的高級語意,但同時利用較低階的音軌保留了那些被忽略的細(xì)節(jié)。

當(dāng)在生成新樂曲時,負(fù)責(zé)最高階音軌的轉(zhuǎn)化器由於能夠預(yù)測樂曲的曲風(fēng)、演唱者等資訊,因此歌曲的宏觀特徵會先被定下來,而後由較低音軌的轉(zhuǎn)化器逐一補(bǔ)強(qiáng)微觀細(xì)節(jié)。

也因?yàn)槿绱耍琂ukeBox的研發(fā)途中還有個有趣的小插曲。研究人員為了使高階音頻的轉(zhuǎn)化器能夠預(yù)測生成樂曲的曲風(fēng),當(dāng)初採用無監(jiān)督學(xué)習(xí)的方式加以訓(xùn)練。模型很快就能自動將流派相近的歌手歸為一類,將120萬首歌分為11類(分別是BLUES、Country、Classical、JAZZ、HIP HOP、R&B、POP、REGAGE、ROCK、Soundtrack與SOUL)。將其視覺化畫成一張地圖,研究團(tuán)隊(duì)很驚訝地發(fā)現(xiàn):Jennifer Lopez比起同屬pop曲風(fēng)的Maroon 5,音樂特徵更接近鄉(xiāng)村歌手Dolly Parton!

AI風(fēng)行後,將迎來一場著作權(quán)災(zāi)難?
儘管Jukebox生成的歌曲已經(jīng)可以聽出一定的連貫性、產(chǎn)生和諧的和弦,甚至表現(xiàn)出不錯的間奏,但大部分的作品仍然達(dá)不到一首「完整」作品的水準(zhǔn)。Jukebox還無法重現(xiàn)出副歌反覆段落的形式,也無法形成有邏輯的首尾結(jié)構(gòu)。生成的樂曲聽起來像是喝醉酒後的即興創(chuàng)作,音樂結(jié)構(gòu)鬆散且原創(chuàng)力不足,並且仍存在許多流行音樂的影子,與人類作曲家相比還遠(yuǎn)遠(yuǎn)不及。
其次,Jukebox的訓(xùn)練十分複雜,生成一分鐘的歌曲大約需要9個小時,難以商轉(zhuǎn)成為手機(jī)APP這類應(yīng)用工具。
最後,由於Jukebox的學(xué)習(xí)源於網(wǎng)路上的歌曲,歌聲也是以現(xiàn)有的歌手素材重新合成的,這使得Jukebox的作品每一步都踩在著作權(quán)的紅線上。除了成品容易與原曲有重複的小節(jié),也難以取得聲音主人的授權(quán)(Jay-Z就對YouTube提出了下架合成音的版權(quán)要求);若AI作曲想要發(fā)展商業(yè)用途,最終可能會演變成一場著作權(quán)災(zāi)難。
即使如此,相較於之前的音樂生成模型,Jukebox還是創(chuàng)造了亮眼的技術(shù)成果,可以自動生成不限曲風(fēng)、高度擬真的人類歌聲,讓這項(xiàng)技術(shù)有潛力成為未來人類音樂家的重要工具。
參考資料
- “Jukebox“, OpenAI, 2020.
- B. Stephen, “OpenAI introduces Jukebox, a new AI model that generates genre-specific music“, The Verge, 2020.
- “MuseNet“, OpenAI, 2019.
延伸閱讀
- 用大數(shù)據(jù)「創(chuàng)作」流行歌曲,電腦取代人腦的時代到來了?
- 這是史上第一首由人工智慧寫的流行音樂,你覺得如何?
本文由臺大科學(xué)教育發(fā)展中心授權(quán)刊登,原文發(fā)表於此
責(zé)任編輯:丁肇九
核稿編輯:翁世航