B 站的up主們快失業了。

著名的反政治正確教授 Jordan Peterson 用開講座的唱腔娓娓道出 “You better lose yourself in the music, the moment. You own it, you better never let it go…” 這段 AI 生成的 Eminem 歌曲翻唱足夠以假亂真。

創作者自稱 Miles,他說自己只用了6個小時的 Peterson 講話音頻,應用的技術來自 arXiv 預印本上的 兩篇論文。他使用 AI 進行從文本到語音的轉換(TTS)和韻律匹配(prosody matching),讓這首歌不僅聲音聽起來是 Peterson,而且整個節奏韻律也符合他的習慣,就像是他真唱了一遍,雖然少了幾分喜劇感,但效果比各路會調音的視頻剪輯高手做的還好。

而就像 deepfake 一樣,如果有了合適的平臺,做這件事門檻并不高。Facebook 18年就推出了文本語音轉換工具 VoiceLoop,代碼公開供所有人使用;還有人成功利用 LyrebirdModulate.ai 做過聲音模型;谷歌去年也放出了自己的合成聲音庫

確實,當我們說話的方式,聲音,面孔,甚至是一些怪癖,這些我們以為是人類特有的東西,都可以被 AI 逼真地模仿甚至再創造的時候,很難不 “palms get sweaty, knees weak, and arms heavy”。但別 lose yourself —— 想辦法保持警惕,享受科技的樂趣,沒啥好擔心的。

除非你是 B 站鬼畜區的 up 主。

© 異視異色(北京)文化傳播有限公司
版權所有,未經授權不得以任何形式轉載及使用,違者必究。