積極開展對(duì)深度偽造語音的鑒別研究
日期:2021-04-06 來源:中國社會(huì)科學(xué)網(wǎng)-中國社會(huì)科學(xué)報(bào)
當(dāng)今時(shí)代,手機(jī)、錄音筆、錄音電話等設(shè)備已成為人們生活和工作中的常見工具。尤其是,隨著微信語音、手機(jī)錄音等功能的逐漸強(qiáng)大,錄音資料已經(jīng)越來越頻繁地作為證據(jù)出現(xiàn)在法律訴訟案件中。錄音資料也正式被我國的《刑事訴訟法》和《民事訴訟法》列為法定證據(jù)形式之一,并且在訴訟過程中扮演著愈發(fā)重要的角色。因此,鑒定“一段錄音是否某人所說”(即聲紋鑒定)成了司法語音鑒定和研究的一個(gè)重要方面。
近年來,隨著科學(xué)技術(shù)的快速發(fā)展,人工智能技術(shù)(Artificial Intelligence,以下簡稱AI)已經(jīng)越來越多地被運(yùn)用到各個(gè)領(lǐng)域中,包括仿真機(jī)器人、自動(dòng)識(shí)別(指紋、人臉、語音等)和智能醫(yī)療等。語音深度偽造是指利用人工智能技術(shù)(如機(jī)器學(xué)習(xí)算法、神經(jīng)網(wǎng)絡(luò)等)對(duì)人的聲音進(jìn)行“學(xué)習(xí)—模仿”,換句話說就是一種對(duì)聲音進(jìn)行重現(xiàn)(reenactment)、替換(replace)、編輯(editting)和合成(synthesis)的新型技術(shù)。這項(xiàng)技術(shù)的出現(xiàn)意味著“聲音不再屬于自己”,任何人的聲音都是可以被偽造和替換的。
語音深度偽造技術(shù)已愈發(fā)成熟
由于語音深度偽造技術(shù)在醫(yī)療康復(fù)(如失聲患者“重建”聲音)、娛樂(如搞笑視頻)等領(lǐng)域擁有巨大的發(fā)展?jié)摿蛻?yīng)用價(jià)值,世界各國對(duì)此項(xiàng)技術(shù)的開發(fā)和推廣投入了大量精力,相關(guān)技術(shù)也愈發(fā)成熟。
相比于人臉深度偽造(face deepfake),語音深度偽造出現(xiàn)時(shí)間較晚,主要興起于2019年。語音深度偽造技術(shù),在本質(zhì)上是一種“文本—語音”轉(zhuǎn)換系統(tǒng)(text-to-speech system,以下簡稱“TTS系統(tǒng)”)。早期TTS系統(tǒng)通過語音合成技術(shù),可以將錄入的文本信息轉(zhuǎn)化為對(duì)應(yīng)的語音信號(hào)。然而,正如E.Helander和J.Nurminen所指出的早期TTS系統(tǒng)合成的語音信號(hào)在自然度、可懂度和連續(xù)性等方面的效果并不理想,也就是常說的聽起來像機(jī)器聲(robotic voice)。近年來,隨著語音合成技術(shù)的不斷進(jìn)步,TTS系統(tǒng)生成的語音信號(hào)質(zhì)量在這些方面已經(jīng)有了極大的提高。
T. Chen指出,語音的深度偽造技術(shù),就是將高質(zhì)量的TTS系統(tǒng)和聲音轉(zhuǎn)化(voice conversion)相結(jié)合的語音合成技術(shù)。首先,計(jì)算機(jī)通過機(jī)器學(xué)習(xí)算法(如高斯混合模型(GMM)、卷積神經(jīng)網(wǎng)絡(luò)等)對(duì)說話人的語音樣本進(jìn)行特征識(shí)別,并建立相應(yīng)的TTS系統(tǒng)。然后,把通過文本輸入、語音轉(zhuǎn)寫等手段獲取的文本信息轉(zhuǎn)化為語音信號(hào)(包括實(shí)時(shí)和延時(shí)轉(zhuǎn)換)。
目前,深度偽造語音不僅在擬人度、真實(shí)性和自然度等方面有了極大提升,而且面向不同語言(如漢語、英語、越南語等)的語音深度偽造軟件已面向公眾開放、且使用門檻和難度逐漸降低。
潛在威脅值得重視
起初,具有語音深度偽造功能的程序或軟件是出于醫(yī)療、娛樂等應(yīng)用目的發(fā)布的。但是,不排除有不法分子利用這類產(chǎn)品進(jìn)行違法行為。例如,通過對(duì)具有社會(huì)影響力的人物的聲音進(jìn)行偽造來發(fā)布假新聞,或是對(duì)熟人聲音進(jìn)行偽造來實(shí)施詐騙、獲取他人信息等。
毋容置疑,語音深度偽造技術(shù)擁有巨大的發(fā)展?jié)摿皯?yīng)用價(jià)值。但是,隨著公眾使用語音深度偽造軟件門檻和難度逐漸降低,一旦有不法分子使用這些軟件進(jìn)行詐騙、毒品交易等違法活動(dòng),將會(huì)對(duì)我國的社會(huì)信任、新聞?wù)鎸?shí)性、監(jiān)控和司法取證等方面帶來巨大挑戰(zhàn)。在這種背景下,保證錄音資料的真實(shí)性和完整性,保障司法公正,確保新聞?wù)\信,成為當(dāng)今社會(huì)的迫切需求。
鑒偽技術(shù)仍處探索階段
相比對(duì)人臉深度偽造的鑒偽技術(shù),深度偽造語音目前獲得關(guān)注較少,仍處于探索階段。早期的研究者基于語音的倒譜特征(如CQCC、MFCCs),利用高斯混合模型、深度神經(jīng)網(wǎng)絡(luò)(DNN)等機(jī)器學(xué)習(xí)算法開發(fā)偽造語音的自動(dòng)鑒別系統(tǒng),但在真?zhèn)闻袆e的正確率上并不理想(低于70%)。隨后,M. Shan和 T-J Tsai提出了一種基于Needleman-Wunsch算法的交叉驗(yàn)證(cross-verifying)方法,將兩段錄音對(duì)齊后比較每一幀的異同。還有研究者嘗試將人臉識(shí)別技術(shù)運(yùn)用到偽造語音的自動(dòng)鑒別技術(shù)中。T. Chen等借鑒人臉偽造的鑒別方法建立了偽造語音的自動(dòng)鑒別系統(tǒng),該系統(tǒng)使用大余量余弦損失函數(shù)(large margin cosine loss function,LMCL)對(duì)原聲和偽造語音之間的差異進(jìn)行最大化,并最小化二者的內(nèi)部變化。與此類似,B. Thai也借鑒了人臉識(shí)別的方法,提出將通過信號(hào)處理技術(shù)或卷積神經(jīng)網(wǎng)絡(luò)提取的語音特征輸入到長短時(shí)記憶模型中(Long Short-Term Memory),然后通過分類層來判斷語音是否經(jīng)過偽造。
目前,關(guān)于深度偽造語音的鑒偽研究極為不足,且效果并不理想。尤其是,在司法鑒定實(shí)踐中,通常以基于經(jīng)驗(yàn)知識(shí)的專家檢驗(yàn)為主,以基于定量分析的計(jì)算機(jī)鑒別為輔。然而,對(duì)深度偽造語音的鑒偽研究卻恰恰相反,主要集中在計(jì)算機(jī)自動(dòng)鑒別上。這一缺失無疑將會(huì)對(duì)偽造語音的鑒偽研究和實(shí)踐帶來不利影響,在未來需要引起足夠重視。
開展應(yīng)對(duì)鑒偽問題的研究
為進(jìn)一步提升深度偽造語音的鑒偽研究水平,逐步形成一個(gè)科學(xué)、準(zhǔn)確、全面的偽造語音鑒偽流程,做好應(yīng)對(duì)深度偽造語音潛在威脅的準(zhǔn)備。未來可從以下幾個(gè)方面開展研究。
第一,從宏觀言語特征角度開展鑒偽研究。與微觀的聲譜特征不同,言語特征(如口頭禪、贅語、方言口音、發(fā)音習(xí)慣等)從宏觀角度反映了說話人在語用層面的特點(diǎn)。E. Sapir認(rèn)為其形成與說話人的語言習(xí)得、性別、社會(huì)背景、工作等因素都有著密不可分的關(guān)系。基于聲譜特征的語音深度偽造技術(shù)很難實(shí)現(xiàn)對(duì)說話人宏觀言語特征的模擬,這就為偽造語音的專家檢驗(yàn)提供了充分的可能性。今后研究可以從言語特征的角度對(duì)語音進(jìn)行分析,尋找能夠體現(xiàn)說話人個(gè)體言語特點(diǎn)的有效載體和顯著特征。相關(guān)結(jié)果對(duì)于語音的真?zhèn)舞b別具有較高的參考價(jià)值。
第二,探索真?zhèn)握Z音在聲譜上的差異。盡管深度偽造的語音在聲譜特征上與原聲存在較高的相似度,但是前人利用專業(yè)軟件仍能發(fā)現(xiàn)二者在聲譜上的細(xì)微差異。Nios公司的技術(shù)專家利用Spectrum3d軟件對(duì)深度偽造的語音和原聲的聲譜特征進(jìn)行對(duì)比分析,發(fā)現(xiàn)盡管二者在聽覺上非常相似,但是偽造語音的聲譜分布連續(xù)性較差,且在高頻區(qū)域反復(fù)出現(xiàn)波峰。造成這個(gè)現(xiàn)象的原因可能是深度偽造軟件為了提高和原聲的相似度,將多個(gè)聲道的語音疊加所致。隨后,在對(duì)語音信號(hào)進(jìn)行增幅后,可以檢測到原聲存在微弱的背景噪音,而偽造的語音未發(fā)現(xiàn)任何噪音痕跡。由此可見,真?zhèn)握Z音在頻域分布、背景噪音等方面存在一定差異。在未來研究和實(shí)踐中,應(yīng)充分利用專業(yè)分析軟件,發(fā)掘真?zhèn)握Z音的聲譜差異,總結(jié)出規(guī)律性的知識(shí)。
第三,嘗試改進(jìn)算法和視角,進(jìn)一步提升計(jì)算機(jī)自動(dòng)鑒偽的效果。目前,已有學(xué)者如M. Alzantot、B. Chettri等,通過改進(jìn)機(jī)器學(xué)習(xí)算法(如2-D卷積神經(jīng)網(wǎng)絡(luò)),將語音真?zhèn)闻袆e的正確率提升到75%左右。此外,還有學(xué)者如T. Mittal等,則提出一種從情感識(shí)別的角度進(jìn)行鑒定的思路,利用深度學(xué)習(xí)網(wǎng)絡(luò)(deep learning network)對(duì)視頻中人臉和語音的真?zhèn)芜M(jìn)行鑒定。他們首先通過感知實(shí)驗(yàn)讓被試者分別對(duì)人臉和語音所表達(dá)的情感進(jìn)行判斷,然后基于感知結(jié)果對(duì)不同情感的特征進(jìn)行提取和學(xué)習(xí)。最終,以情感特征為判斷依據(jù)獲得了較高的真?zhèn)舞b別正確率(84.4%以上)??梢?,算法和視角的改進(jìn),對(duì)于提升計(jì)算機(jī)鑒偽效果具有一定作用,值得未來開展更廣泛、更深入的研究。
語音的深度偽造技術(shù)是人工智能時(shí)代的一項(xiàng)技術(shù)革新,對(duì)醫(yī)療康復(fù)、娛樂等領(lǐng)域具有重要的影響和意義。但是,這項(xiàng)技術(shù)的出現(xiàn)毫無疑問也將給社會(huì)帶來一定的安全隱患。面對(duì)未來可能的挑戰(zhàn),司法鑒定工作不僅要充分利用現(xiàn)有資源,提前準(zhǔn)備好應(yīng)對(duì)類似的問題。同時(shí),還應(yīng)該積極開展相關(guān)研究,積累對(duì)偽造語音鑒偽的知識(shí)和經(jīng)驗(yàn),并推動(dòng)偽造語音計(jì)算機(jī)自動(dòng)鑒偽系統(tǒng)的開發(fā)。
?。ㄗ髡邌挝唬核痉ㄨb定科學(xué)研究院聲像和電子數(shù)據(jù)鑒定研究室)