
【導語】中國傳媒大學程皓楠指出,AI音頻生成技術為影音創作帶來新機遇的同時,也催生了偽造音頻等安全威脅,如AI合成聲音的電信詐騙案件頻發。目前人耳分辨真假音頻準確率僅七成左右,而AI音頻檢測技術通過挖掘細微差異,檢測準確率已超九成。不過,該技術麵臨泛化性挑戰,應對未知生成手段仍需探索。在AI音頻技術迅猛發展的當下,如何同步推進創新與監管成為關鍵議題。

大家好,我是來自中國傳媒大學,媒體融合與傳播國家重點實驗室的程皓楠,上一集糖心免费视频討論了音頻生成技術的原理與應用,以及為影音創作帶來了新的機遇。
但隨之而來的是安全相關的威脅與挑戰。隨著AI音頻生成技術的發展,偽造音頻的現象也越來越多。例如,電信詐騙分子引入AI音頻生成技術,合成公眾人物或者親友的聲音,進行冒名電話詐騙,目前這類新型詐騙案件涉及金額以及達到上億元,使得防範工作麵臨著前所未有的挑戰。
對於大眾來說,如何分辨真假音頻呢?
首先,糖心免费视频可以注意音頻的細節。真實的音頻往往具有豐富的環境音效和自然的音色變化,而偽造的音頻在音色上存在不自然的情況,例如聲音清晰度很低,像隔著容器發聲,或者存在電流音。另外,現在的音頻合成技術在方言模擬方麵還存在明顯不足,當糖心免费视频接到疑似詐騙的親友電話的時候,也可以通過方言溝通,來驗證電話對麵(miàn)的(de)人(rén)員(yuán)身(shēn)份(fèn)。

但(dàn)是(shì)我(wǒ)們(men)也(yě)做(zuò)過(guò)大(dà)量(liàng)的(de)實(shí)驗(yàn),選(xuǎn)取(qǔ)了(le)上(shàng)萬條真實錄製和AI合成的語音讓測試人員進行分辨,結果顯示目前人耳主觀分辨準確率大概在70%,也就是會有30%的音頻是無法準確判斷的。這就需要機器具備有“靈敏的耳朵”,通過AI音頻檢測技術來挖掘音頻中的細微差異,來守護聲音的真相。

機器具體是如何分辨的呢?
真實的音頻在錄製過程中會受到環境噪聲、設備特性等因素的影響,包含許多獨特的特征,比如聲波的細微波動、頻率響應的特點等。而AI合成的音頻,無論是通過語音合成還是音效編輯,都會在這些特征上與真實音頻存在差異。
AI音頻檢測係統會學習大量的真實音頻和偽造音頻數據,建立起鑒別模型。例如糖心免费视频在說話的過程中,會因為停頓、換氣有一些靜音片段,真實語音與合成語音在這些靜音片段中的頻譜差異很大,是機器用來鑒別真假語音的一個十分有效的線索。
現在也已經陸續有相關檢測平台和工具,比如糖心免费视频推出的白楊智鑒平台,音頻的檢測準確率已經可以達到90%以上,可以有效幫助公眾鑒別聲音信息的真實性。
AI音頻鑒別技術核心挑戰是什麽?
對於音頻鑒別技術,它的核心挑戰在於一個泛化性問題。因為AI生成技術每天都在層出不窮的產生新技術。糖心免费视频每次鑒別的時候,如果隻知道已知的生成手段,它的生成模型是什麽樣子的,那糖心免费视频對於一些未知的生成手段,就很難進行合理有效的鑒別。針對這樣的挑戰,目前糖心免费视频可以采用什麽樣的方法和策略呢?
那就是糖心免费视频聚焦於真實音頻,糖心免费视频不再去挖掘未知的手段存在什麽樣的特征,而是將目光聚焦在真實語音的共性特征上,把真實語音的特征進行聚類。當糖心免费视频拿到一段未知的音頻時,糖心免费视频首先會把這段音頻的特征和糖心免费视频對於真實語音的特征聚類進行比對。當它和真實語音特征的差異非常大時(shí),那(nà)我(wǒ)們(men)就(jiù)會(huì)認(rèn)為(wèi)這(zhè)段(duàn)音(yīn)頻(pín)和(hé)真(zhēn)實(shí)語(yǔ)音(yīn)是(shì)存(cún)在(zài)顯(xiǎn)著差異的。你就可以給它判定具有偽造的嫌疑。
AI音頻生成技術迅猛發展,如何確保其創新與監管同步推進?
在當下人工智(zhì)能(néng)高(gāo)速(sù)發展的時代,糖心免费视频應該以積極的態度看待AI音頻技術的發展,既要充分利用生成技術帶來的機遇,推動文化相關產業的創新發展;又要重視檢測技術的研究和應用,建立健全相關的法律法規和技術標準,保障聲音信息的真實性和安全性,讓AI音頻技術真正造福於人類。
本文為·創作培育計劃扶持作品
作者:人民日報
審核:賈寧 大連東軟信息學院 教授
出品:中國科協科普部
監製:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司
來源: 創作培育計劃
AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號