議題背景

2020年11月6日,韓國的MBN電視台運用以真人主播「金柱夏」為原型的AI主播,順利播報了當天的主要新聞。由於AI主播報導新聞的影像十分逼真,立刻引發大眾熱烈討論。

  • 新聞報導:
  1. 中央社〈韓國首名AI主播上工 對新聞業是助力還是壓力[影]
  2. 新頭殼〈太過逼真!南韓首位AI主播亮相 網友直呼:令人毛骨悚然

究竟目前AI主播可以完全取代真人主播了嗎?此技術的特點和和限制為何?我們邀請專家釋疑。

專家怎麼說?

2020年11月25日
國立屏東科技大學資訊管理系助理教授 許志仲

此AI新聞主播,主要是由韓國MoneyBrain公司所開發,並未對外揭露技術相關細節。然而,從學術的角度來看,要合成以假亂真的AI主播,在技術上並無太大困難之處,諸如影片的生成、聲音的合成,都有既有相關研究領域的開放原始碼與研究論文可供參考。作出AI主播所需最簡便的方法,只要將相關的新聞文稿先輸入電腦,並拍攝一真人影片,並套用換臉技術即可。因此若台灣的學研團隊,有結合影像視訊與聲訊處理之專才,並不難產生相似的成果。

事實上,在影像與視訊處理的領域,最常見的傳統換臉技術,如大家熟知的DeepFake深度偽造,或是其他開源CycleGAN[1]等技術,都有能力合成出上述的成果。雖然目前現有相關文獻中,較少提及能直接從文稿生成具有逼真視覺效果加上語音的AI主播,但各部分相關技術皆有一定程度的水準。例如,人工智慧頂尖會議(AAAI Conference on Artificial Intelligence),去年(2019年)就有一篇知名論文[2]發展之AI技術,可以透過學習資料庫中影片,學習聲音與臉部表情的關係。接著,給定特定的聲音訊號,以及目標人臉,便能產生仿真的人臉視訊,甚至產生AI主播。故在技術上,並非不可能。然而目前我們可以觀察到,大多數的生成技術通常是在較平坦單調的背景中使用,這也是受限於技術的限制,目前還無法合成出在複雜且變動背景下的人臉視訊。

自從2019年開始,許多產業與學術研究團隊注意到這些生成人臉可能帶來許多潛在危機,因此偵測這些偽造人臉相關技術,已有不少團隊投入。例如影像視訊相關國際研討會,近一兩年來皆有少數相關研究成果產出,其中包含Microsoft與Facebook都有相關的研發成果。國內我們團隊亦投入AI生成影像的鑑識技術多達兩年,除了已可穩定辨識出偽造人臉影像,目前在人臉視訊和AI主播等類似的應用上,亦有相關研究成果準備發表。雖然我們很難肯定未來是否會有更多AI生成技術,可以令我們發展的鑑識技術都失效,但可以確定的一點是,未來會有更多的產學研團隊投入偽造影視訊辨識的領域。

相關利益聲明:無相關利益

註釋與參考資料:

[1] 編註:CycleGAN是一個神經網路模型,可用來作不同影像之間互相轉換,例如把照片中的的斑馬轉換為棕色馬,或是把畫作中的夏天場景轉換為冬天。公開程式碼請參考〈junyanz/pytorch-CycleGAN-and-pix2pix〉。

[2] Zhou, H., Liu, Y., Liu, Z., Luo, P., & Wang, X. (2019). “Talking face generation by adversarially disentangled audio-visual representation.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33, pp. 9299-9306.

版權聲明

本文歡迎媒體轉載使用,惟需附上資料來源,請註明新興科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡媒體公關:

曾雨涵

haharain331@rsprc.ntu.edu.tw
02-3366-3366#55925