【摘 要】 保密會議室等重要場所圍護結(jié)構(gòu)的缺陷會導致聲音泄漏隱患。聲掩蔽技術(shù)通過產(chǎn)生特定的聲音,對泄漏的語音進行干擾,是保障聲音信息安全的重要手段。本文從關(guān)鍵技術(shù)及評價方法等方面對聲掩蔽技術(shù)進行了分析,指出目前存在的問題,并對未來發(fā)展提出了建議,為聲掩蔽系統(tǒng)的研發(fā)、測試、使用及維護提供參考。
【關(guān)鍵詞】 聲掩蔽?聲音泄漏?聲音信息安全
1 引言
隨著信息技術(shù)的發(fā)展,利用高靈敏度拾音器、拾振器等技術(shù)手段及高效的語音復原方法,竊聽者能夠在室外以非入侵方式竊取室內(nèi)的語音,給這些場所的聲音信息安全帶來嚴峻挑戰(zhàn)。
根據(jù)門、窗、墻體、管道等建筑圍護結(jié)構(gòu)和設(shè)施的聲學特性,室內(nèi)語音可經(jīng)由空氣傳聲和固體振動傳聲等渠道泄漏至室外,泄漏程度與室內(nèi)聲源聲壓及其聲場分布、圍護結(jié)構(gòu)隔聲、室外噪聲水平、安全距離等因素有關(guān)。對聲音信息泄漏的防護可分為2種途徑:一種是屏蔽,即采用吸聲、隔聲、減振等措施將室內(nèi)聲音阻擋在場所邊界內(nèi)或使泄漏的聲音充分衰減,但需要對建筑圍護結(jié)構(gòu)和內(nèi)部管道等設(shè)施進行改造,成本高昂,維護升級困難,靈活性差;另一種是干擾,即向聲音泄漏路徑或竊聽風險位置施加其他聲音,以干擾接收者對泄漏語音的理解和恢復,這一技術(shù)稱為聲掩蔽(sound masking)。該方法可以彌補場所的聲學缺陷,具有使用靈活、成本低、可重用等優(yōu)點,成為保障聲音信息安全的重要技術(shù)手段。
2 聲掩蔽技術(shù)現(xiàn)狀
聲掩蔽技術(shù)是基于人耳的聽覺掩蔽效應提出的,即一個聲音的存在使另一個聲音的聽覺閾值提高而不易被聽到的現(xiàn)象。利用掩蔽效應,通過向目標區(qū)域施加特定的掩蔽聲,可以掩蓋和干擾泄漏的語音,保護語音信息的安全。按照防范對象,聲掩蔽技術(shù)可分為2種應用領(lǐng)域:一種是針對無意聽者的語音隱私保護,常見于開放式辦公室、醫(yī)院、銀行、話務中心等人員密集但隔聲不佳的場所,其目的在于避免談話被他人聽到或?qū)λ嗽斐筛蓴_;另一種是針對惡意聽者的語音信息保護,常用于產(chǎn)生敏感語音信息的場所。二者在應用場景及技術(shù)路線上有很大不同。隱私保護主要針對空氣渠道泄漏的聲音和無意收聽,通常只需使用噪聲、流水聲、音樂等較為舒緩的聲音作為掩蔽聲,以提高背景聲壓水平,技術(shù)上主要關(guān)注掩蔽效果和舒適性。而信息保護用途針對的是潛在的惡意竊聽者,其可能使用各種先進的拾音、拾振裝置及語音復原技術(shù)進行竊聽,因而對掩蔽聲的掩蔽能力有更高的要求;除了對空氣聲泄漏的防護,還需防范振動聲泄漏隱患;同時,聲掩蔽系統(tǒng)的防破解、防破壞等安全問題也需要考慮。
國際上對聲掩蔽技術(shù)的研究起步較早,美國、澳大利亞和歐洲一些國家都研制出了較為成熟的聲掩蔽產(chǎn)品。國外也出臺了相關(guān)標準規(guī)范,如美國情報部門在2002年制定了專門規(guī)范,對敏感信息隔離設(shè)施的隔聲及聲掩蔽等聲學防護措施提出了要求;美國軍方也頒布了相關(guān)標準對軍用敏感信息隔離設(shè)施提出了聲音防護要求。國外研制的聲掩蔽產(chǎn)品眾多,但可獲得的技術(shù)資料和產(chǎn)品大多針對隱私保護等普通應用,且漢語與英語有較大區(qū)別,國外技術(shù)未必適合漢語特征。因此,研發(fā)安全可控的聲掩蔽技術(shù)和產(chǎn)品勢在必行。我國的聲掩蔽技術(shù)、產(chǎn)品和規(guī)范目前尚不完善,聲掩蔽系統(tǒng)的有效性和安全性尚有待驗證。
3 聲掩蔽系統(tǒng)的關(guān)鍵技術(shù)
典型的聲掩蔽系統(tǒng)通常由掩蔽聲發(fā)生器和輸出終端組成。其中,掩蔽聲發(fā)生器產(chǎn)生掩蔽信號,并對其強度和頻譜等特征進行調(diào)節(jié);輸出終端通過揚聲器或激振器等換能裝置將掩蔽聲的電信號轉(zhuǎn)換為空氣聲或振動聲信號。以下對聲掩蔽系統(tǒng)的關(guān)鍵技術(shù)進行分析。
3.1 掩蔽聲源的設(shè)計
足夠強的掩蔽聲可以掩蓋泄漏的語音,但同時會對附近人員產(chǎn)生干擾,影響其聽覺舒適度。因此,掩蔽聲的掩蔽效果和舒適性通常是矛盾的。掩蔽聲源的設(shè)計目標是設(shè)計高效、舒適的掩蔽信號,以更小的掩蔽強度達到更優(yōu)的掩蔽效果。常見的掩蔽聲源可以歸納為以下3類。
3.1.1噪聲
噪聲是自然界中最常見的干擾聲源,因此常用作掩蔽聲,如白噪聲、粉噪聲、空調(diào)噪聲、群口噪聲(多人同時說話的噪聲,也稱babble噪聲)等。但噪聲與被掩蔽語音的相關(guān)性低,掩蔽效率不高。對常見噪聲掩蔽能力的實驗表明,語音信號與掩蔽聲的功率比(信掩比)在-15dB以下時,被掩蔽的語音基本不可懂,0dB以上基本完全可懂,在-10~0dB時掩蔽效果與掩蔽聲源關(guān)系密切,常見噪聲中babble噪聲最優(yōu)、粉噪聲次之、白噪聲最差。這是因為babble噪聲由多人語音構(gòu)成,與目標語音具備一定的相似性,同其他噪聲相比有更好的掩蔽能力。例如,信掩比在-12dB時babble噪聲可使單詞可懂度下降到10%左右,而相同條件下的空調(diào)噪聲掩蔽后的單詞可懂度接近60%。但babble噪聲隨時間波動更劇烈,且包含可被理解的語義信息,因此,同白噪聲等平穩(wěn)噪聲相比,相同聲壓下的舒適性較差。
3.1.2自然聲
自然界產(chǎn)生的聲音(如瀑布、降雨、溪流、鳥鳴、風聲等)通常具有很好的聽覺舒適度,對人的消極影響小,因此常用于聲景觀和聲掩蔽系統(tǒng)中。與噪聲相同,自然聲也存在掩蔽能力不足的缺陷。實驗表明,在各種自然聲中流水聲表現(xiàn)出較高的掩蔽效率和舒適性。
3.1.3類語音
聲音的掩蔽效應可以分為能量掩蔽和信息掩蔽,前者通過掩蔽聲在時間和頻率上的能量重疊對目標語音形成干擾,而后者產(chǎn)生的機理尚不十分明確,通常被認為是掩蔽聲提高了聽覺中樞系統(tǒng)的加工負荷,使其處理目標語音時資源不足。同能量掩蔽相比,信息掩蔽利用了人腦更深層次的信息處理機制,可能以更低的能量實現(xiàn)更高效的掩蔽。研究表明,提高掩蔽聲和目標語音的相似性是產(chǎn)生信息掩蔽的可能途徑,特別是認知、語義等特征上的相似性會極大提高聽者的區(qū)分難度。
類語音(speech-like noise)是一種具備語音特征但又沒有明確語義的聲音信號,即聽上去有人說話但又不知所云。類語音在心理聲學特征上與被掩蔽語音接近,因此掩蔽效率比噪聲和自然聲更高。同時,語義的缺失使其對周圍人注意力的影響減小,有利于改善掩蔽聲的舒適性。一種實現(xiàn)策略是通過目標語音來構(gòu)建掩蔽聲,以獲得二者最佳的相似性。例如,將實時采集的目標語音分段并逐段進行時間反轉(zhuǎn)可破壞其語義信息但保留其聲學特征,因而成為構(gòu)造類語音掩蔽聲的一種有效方法,即時間反轉(zhuǎn)法。研究表明,與空調(diào)噪聲、babble噪聲等掩蔽聲源相比,時間反轉(zhuǎn)類語音具有最強的掩蔽能力,在-12dB信掩比下句子可懂度幾乎為0。但同babble噪聲類似,其舒適性不如平穩(wěn)噪聲和自然聲。此外,需要特別注意的是,盡管時間反轉(zhuǎn)類語音生成方法可以對幀長等參數(shù)進行保護,但其聲音信息完全來自目標語音,一旦反轉(zhuǎn)規(guī)則被破解將完全喪失掩蔽能力,因此設(shè)計中需要更充分地考慮算法的安全性。
除上述3類聲源外,音樂等類型的聲音也可用作掩蔽聲。不同類型的掩蔽聲源在掩蔽效率、舒適性及安全性方面各有不同,混合使用則有望取長補短。例如,可以用平穩(wěn)噪聲進行基礎(chǔ)的能量掩蔽,用類語音實現(xiàn)高效的信息掩蔽,用自然聲或音樂改善舒適性,同時復雜的掩蔽聲特征也提高了竊聽者還原目標語音的難度。但可用于掩蔽的聲源眾多,混合方式及各聲源的比例不勝枚舉,如何設(shè)計出更高效、更安全、更舒適的掩蔽聲仍需進一步研究。
3.2 掩蔽聲的調(diào)節(jié)
聲掩蔽系統(tǒng)的使用場景不同于傳統(tǒng)的擴聲系統(tǒng),對聲源進行高保真的聲音重放不是主要目的。相反,若根據(jù)掩蔽聲源、目標語音及現(xiàn)場聲學環(huán)境的特征對掩蔽聲進行調(diào)節(jié),則可能改善系統(tǒng)的性能。例如,針對噪聲、自然聲等作為掩蔽聲源與目標語音相似度不足的問題,可以通過濾波、均衡等處理使其具備與語音相近的頻譜,以提高掩蔽效率。更進一步地,由于建筑圍護結(jié)構(gòu)的隔聲在不同頻率處不同,泄漏的語音與室內(nèi)語音在頻譜上存在較大差異,若將目標語音與圍護結(jié)構(gòu)隔聲等特征作為掩蔽聲頻譜調(diào)節(jié)的依據(jù),可產(chǎn)生更高效、更精細的掩蔽聲。針對類語音等掩蔽聲源與目標語音特征相似而舒適性不高的問題,向其中適當增加混響可以在保持掩蔽效果的同時提高舒適性。根據(jù)目標語音聲壓的變化自適應地調(diào)節(jié)掩蔽聲的聲壓,可以獲得更為穩(wěn)定的掩蔽效果。此外,對掩蔽聲源進行隨機處理可以擴大掩蔽聲的樣本空間,提高其被破解或預測的難度,增加系統(tǒng)的安全性。
3.3 掩蔽聲的輸出
針對需要防護的聲音泄漏渠道,掩蔽聲的輸出分為空氣聲和振動聲(或固體聲)2種類型。
3.3.1空氣聲掩蔽
由揚聲器作為輸出換能器,對經(jīng)由空氣傳播的聲音泄漏進行防護。傳統(tǒng)的以隱私保護為目的的聲掩蔽系統(tǒng)大多為此種類型,通常在圍護結(jié)構(gòu)周邊存在聲音泄漏隱患的空間內(nèi)使用,如走廊、吊頂、通風管道等,特別是走廊內(nèi)的門、窗等薄弱區(qū)域。揚聲器的部署位置和密度應綜合考慮掩蔽聲的空間衰減、揚聲器的指向性、背景噪聲水平、室內(nèi)聲源位置、聲音泄漏位置和泄漏程度等因素,使掩蔽聲的聲場分布與聲音泄漏的分布相匹配。
3.3.2振動聲掩蔽
由激振器作為輸出換能器,產(chǎn)生振動信號,對經(jīng)由固體振動傳播的聲音泄漏進行防護。室內(nèi)語音將導致墻體、門、窗、管道等固體結(jié)構(gòu)的微弱振動,由于固體中的聲波衰減慢、傳播距離遠,而人耳又不易察覺,故振動成為廣泛存在但又容易被忽視的聲音泄漏渠道,也是極易被利用的泄密隱患。例如,窗戶的振動可能被激光拾振器、指向性傳聲器等裝置在遠距離外探測到,墻體的振動可能被埋置的拾振器或光纖傳聲器采集,管道的振動可能被遠端的拾振器拾取。雖然空氣聲掩蔽裝置產(chǎn)生的聲音可以在圍護結(jié)構(gòu)上形成振動干擾,但實驗表明,正常聲壓下空氣聲掩蔽無法掩蓋泄漏的振動聲。因此,在窗戶、門、墻壁、管道壁等振動聲泄漏的高風險區(qū)域應施加振動聲掩蔽,并結(jié)合圍護結(jié)構(gòu)的構(gòu)造、室內(nèi)聲源分布、受控區(qū)域分布及安全距離等因素進行綜合部署。
4 聲掩蔽系統(tǒng)的評價
4.1 有效性
對同一種掩蔽聲源,其輸出功率越高,則掩蔽能力越強,但作為一種噪聲源對周圍人的影響也越大。因此,聲掩蔽系統(tǒng)的有效性可用功率約束條件下的掩蔽效果來評價,或稱為掩蔽效率。與用信噪比描述噪聲的相對功率類似,掩蔽聲的相對功率可用“信掩比”來描述,即被掩蔽語音信號與掩蔽聲的功率之比,并用二者聲壓級(對空氣聲)或加速度級(對振動聲)之差來測量和計算,也常稱作目標-掩蔽比(Target-to-Masker Ratio,TMR)。掩蔽效果則用掩蔽后的語音質(zhì)量、清晰度、可懂度等反映語音損傷程度的指標來評價,可以分為主觀與客觀2類。相同信掩比條件下,若掩蔽后的語音質(zhì)量越差、越難聽懂,則掩蔽效率越高。
4.1.1主觀評價
通過聽音實驗,由受試者對掩蔽后的語音進行主觀評價。常用方法包括以下2種。
(1)診斷押韻測試
國家標準GB/T 13504-2008提供了一種診斷押韻測試(Diagnostic Rhyme Test,DRT)方法,利用輔音對語音清晰度貢獻大、對噪聲敏感的特點,設(shè)計押韻的字表,由聽音人記錄聽到的字,并統(tǒng)計正確識別的比例。標準將DRT得分分為5個等級,其中得分小于65%時,音質(zhì)評價等級為不可接受。
(2)清晰度/可懂度測試
國家標準GB/T 15508-1995提供了一種語言清晰度測試(speech articulation test)方法,朗讀或播放一組意義不連貫的音節(jié),統(tǒng)計聽音人正確記錄的比例。可懂度測試可采用類似的方法,將語料更換為有意義的詞或句,并統(tǒng)計聽懂的比例。標準給出了音節(jié)清晰度與單詞可懂度的統(tǒng)計關(guān)系,清晰度在40%以內(nèi)時,單詞可懂度近似等于音節(jié)清晰度的1.5倍。
4.1.2客觀評價
主觀實驗耗時耗力,現(xiàn)場測試時部分位置可能難以到達。因此,可以借助一些與主觀評價比較一致的客觀評價方法,以簡化測試過程。常用的客觀評價方法主要有以下4種。
(1)清晰度指數(shù)
清晰度指數(shù)(Articulation Index,AI)由國家標準GB/T 15485-1995推薦,依據(jù)語音的各個頻帶對清晰度的貢獻不同,測量各頻帶的信噪比并加權(quán)平均,得到0~1之間的AI值。標準還給出了AI與音節(jié)清晰度、單詞可懂度和單句可懂度之間的統(tǒng)計關(guān)系。若要求單詞可懂度不超過20%,則AI一般應不超過0.05,AI在該范圍內(nèi)近似等于單句可懂度。AI已被澳大利亞等國家采納為語音私密度的評價標準,具備私密性的AI通常也不超過0.05。美國材料與試驗協(xié)會標準ASTM E1130-16也提供了一種基于AI的開放空間內(nèi)語音私密度的客觀測量方法,支持對聲掩蔽效果的評價。
(2)語音可懂度指數(shù)
語音可懂度指數(shù)(Speech Intelligibility Index,SII)在AI的基礎(chǔ)上得到改進,并納入美國標準ANSI S3.5-1997,取值也為0~1。具備私密性的SII通常不超過0.1。
(3)語音傳輸指數(shù)
語音傳輸指數(shù)(Speech Transmission Index, STI)是國家標準GB/T 12060.16-2017推薦的可懂度客觀評價方法,能夠反映包括噪聲、混響、非線性失真及擴聲系統(tǒng)在內(nèi)的語音傳輸通道上各種干擾因素對可懂度的影響,取值范圍0~1,最差等級為STI<0.36。具備私密性的STI一般不超過0.1。但該方法對起伏噪聲敏感,對于類語音等具備波動性的非平穩(wěn)掩蔽聲,評價效果并不理想。
(4)語音質(zhì)量感知評價
語音質(zhì)量感知評價(Perceptual Evaluation of Speech Quality,PESQ)是國際電信聯(lián)盟(ITU)建議的基于人類聽覺模型的語音質(zhì)量客觀評價算法。其主要過程是將原始語音與處理或失真后的語音經(jīng)過電平調(diào)整、濾波、時間對齊和聽覺變換,提取其失真參數(shù)并映射成反映主觀平均意見分(Mean Opinion Score,MOS)的客觀分值,范圍-0.5~4.5。MOS將語音質(zhì)量分為5級,最差等級分值為1。研究表明,PESQ<2.3時,句子可懂度<50%;PESQ<2.0時,句子可懂度<20%。但語音可懂度與語音質(zhì)量并不完全一致,特別是對低質(zhì)量語音,即低質(zhì)量并不一定意味著低可懂度。實驗發(fā)現(xiàn),極低質(zhì)量的語音(如信噪比低于-5dB)PESQ得分與語音失真程度的關(guān)聯(lián)不再顯著。這是因為極低信噪比下語音被噪聲淹沒,PESQ算法對語音的分析和處理(如時間對齊)將出現(xiàn)較大誤差,導致結(jié)果的不確定性加劇。
表1 聲掩蔽有效性的評價指標
上述客觀指標主要針對較高質(zhì)量語音的評價進行設(shè)計,在評價聲掩蔽系統(tǒng)或語音私密性方面存在局限性或未經(jīng)驗證;同時,能否用于評價振動聲掩蔽的效果也有待研究。表1匯總了上述主、客觀評價指標,其中參考值為依據(jù)現(xiàn)有文獻給出的取值范圍。需要說明的是,公開文獻大多針對語音的隱私保護,并未考慮各種竊聽手段的威脅,而安全防護應用通常有更高的要求,故參考值僅用于排除可能的語音泄漏隱患,不能作為評價保密性的依據(jù)。同時,對低質(zhì)量語音的客觀評價結(jié)果通常不穩(wěn)定,可以允許一定的波動。
此外,美國材料與試驗協(xié)會標準ASTM E2638-10提供了一種封閉房間語音私密性的客觀測量方法,得到室外薄弱位置處的信噪比和語音隱私等級。但該標準只針對房間邊界外發(fā)生的有意或無意竊聽,不適用于借助電子或電聲設(shè)備進行的惡意竊聽。
4.2 安全性
聲掩蔽系統(tǒng)的安全性尚無明確界定,本文從聲掩蔽系統(tǒng)可能面臨的攻擊入手,對安全性進行分析。
4.2.1主動攻擊安全防護
主動攻擊通過對聲掩蔽系統(tǒng)的入侵或破壞使其失去防護能力,如篡改掩蔽聲源和系統(tǒng)設(shè)置、破壞或替換輸出終端等。針對此類攻擊,聲掩蔽系統(tǒng)應具備權(quán)限管理策略,并設(shè)計聲源、線路、終端等組件的異常監(jiān)測及報警功能。
4.2.2被動攻擊安全防護
被動攻擊指通過對聲音信號的采集和分析,從中去除或削弱掩蔽聲并修復目標語音。被動攻擊的手段多樣、隱蔽且不斷發(fā)展,要求聲掩蔽系統(tǒng)在設(shè)計和使用過程中應更加謹慎,建議遵循以下原則。
(1)掩蔽聲的產(chǎn)生應具備良好的隨機性和非周期性。
(2)不同的設(shè)備應避免使用相同的掩蔽聲源,并應經(jīng)常更換。
(3)掩蔽聲與目標語音的相關(guān)性應適度。二者特征越接近,越難被分離;但掩蔽聲的生成不應過度使用目標語音的特征,特別是與語義、聲紋等敏感信息相關(guān)的特征,以防止通過分析、破解掩蔽聲而實施的信息竊取。
4.3 舒適性
掩蔽聲的存在將對周圍的人產(chǎn)生干擾,導致聽覺舒適性降低。舒適性一般以人的主觀感受來評價,如滿意度、煩惱度、干擾度、侵入感、自然度、注意力集中度等。盡管在保密場合下,舒適性不是關(guān)注的重點,但良好的舒適性將提高參與者合理使用聲掩蔽系統(tǒng)的積極性。因此,聲掩蔽系統(tǒng)的設(shè)計和部署還應綜合考慮掩蔽效果和舒適性的平衡問題。一般來說,相同聲壓條件下,平緩的聲音比劇烈波動的聲音更舒適,如平穩(wěn)噪聲比babble噪聲舒適、流水聲比雷聲舒適;沒有語義或聽不懂的聲音比能聽懂的聲音更舒適,如類語音和外語通常比母語更不容易分散人的注意力;此外,通過控制室內(nèi)說話音量、設(shè)置安全距離、合理使用振動聲掩蔽等都可以減小所需的掩蔽聲聲壓,從而改善舒適性。
5 結(jié)語
在聲音信息泄漏途徑多而隱蔽、竊聽手段日益先進的形勢下,聲掩蔽技術(shù)的應用將是一項復雜的系統(tǒng)工程。如何設(shè)計高效、安全、舒適的聲掩蔽系統(tǒng),以及如何準確、可靠地進行評價,都有待進一步研究。未來,隨著我國對聲音信息安全的日益重視和相關(guān)標準的出臺,聲掩蔽技術(shù)和產(chǎn)品將得到快速發(fā)展和廣泛應用。
(原載于《保密科學技術(shù)》雜志2023年3月刊)