-
您的位置:
- 網(wǎng)站首頁
- > 新聞動態(tài)
- > 技術(shù)文章
您的位置:
揚聲器/用戶驗證一直是確保物聯(lián)網(wǎng)智能家居安全訪問和建立更多安全性的一項根本任務(wù)。傳統(tǒng)的揚聲器驗證方法是基于從音頻信號中提取的語音生物特征,然而這種語音生物識別技術(shù)在冒名頂替者攻擊下很脆弱。由此,基于其他生物識別技術(shù)的揚聲器驗證系統(tǒng)引起了相當(dāng)多的關(guān)注,在以往的相關(guān)研究中,有通過視頻提取LM 信號和利用喉嚨麥克風(fēng)獲取喉嚨振動信息的方式,來進(jìn)行語音活體檢測和揚聲器驗證,但這些方式都存在精度有限或使用不便等相關(guān)缺陷。
2020年9月10日,Yudi Dong、Yu-Dong Yao團(tuán)隊在IEEE Internet of Things Journal期刊上發(fā)表了題為《Secure mmWave-Radar-Based Speaker Verification for IoT Smart Home》的文章。該文提出了一種使用毫米波雷達(dá)來捕獲聲帶振動 (VCV) 和唇部運動 (LM) 作為識別說話者的多模態(tài)生物識別技術(shù),以此作為一種驗證物聯(lián)網(wǎng)智能家居揚聲器的安全方法。
原文信息:
Secure mmWave-Radar-Based Speaker Verification for IoT Smart Home
期刊信息:
IEEE Internet of Things Journal ( Volume: 8, Issue: 5, March1, 1 2021)
論文創(chuàng)新點
提出了新的基于非接觸式 VCV 的生物識別技術(shù),并利用基于 LM 的生物識別技術(shù)作為附加功能,能夠更加有效地應(yīng)對和檢測各種欺騙攻擊,可以實現(xiàn)較高的驗證精度和系統(tǒng)安全性。
實驗方法
研究流程:
此研究流程主要包括數(shù)據(jù)集構(gòu)建、數(shù)據(jù)預(yù)處理和神經(jīng)網(wǎng)絡(luò)模型構(gòu)建兩部分。
圖1. 研究流程圖
數(shù)據(jù)集構(gòu)建
六名受試者參與了實驗。 其中五個是真人,另一個是預(yù)先錄制的聲音。其中一個真人受試者被認(rèn)為是合法用戶,其他所有主體都是未經(jīng)授權(quán)的用戶或攻擊者。在每一輪中,每個受試者將使用相同的實驗設(shè)置閱讀或播放20個句子以收集一個數(shù)據(jù)集。在評估中,隨機選取20個數(shù)據(jù)集進(jìn)行訓(xùn)練,其余10個用于測試。
數(shù)據(jù)預(yù)處理
數(shù)據(jù)處理算法主要由三個模塊組成。一是雷達(dá)信號處理模塊。系統(tǒng)從接收器獲取差拍信號,使用 FFT 測量相位變化。然后分別通過相位展開和相位差來展開和增強相位值。通過運動影響消除算法對相位差值進(jìn)行處理以消除身體運動影響和環(huán)境噪聲。
圖2. 雷達(dá)信號處理步驟。(a) 差拍信號的 FFT 結(jié)果幅度。(b) 范圍選擇。(c) 相萃取。(d) 相位展開。(e) 相位差。
接下來,在第二個模塊中,處理過的雷達(dá)信號通過起始檢測和偏移檢測進(jìn)行分割。通過識別每個片段的持續(xù)時間,選出與講話相關(guān)的片段。
圖3. 信號分割示意圖
最后,在第三個模塊中,系統(tǒng)使用基于混疊分析的 IIR 濾波器濾除 VCV 信號,然后使用梅爾頻率倒譜系數(shù)(MFCC)將其重建為生物特征。此外,LM 信號通過使用 IIR 濾波器提取并通過模糊 WPT 重構(gòu)。
圖4. VCV 信號和特征的可視化
圖5. LM 信號和特征的可視化
神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
在用于揚聲器驗證的神經(jīng)網(wǎng)絡(luò)的構(gòu)建中,系統(tǒng)使用來自 VCV 信號的基于 MFCC 的特征和來自 LM 信號的基于模糊 WPT 的特征來構(gòu)建合法用戶的配置文件,并訓(xùn)練一個深度 CNN 來識別揚聲器。一旦在系統(tǒng)中檢測到未知對象的 VCV 和 LM 相關(guān)信號,CNN 就會是否為合法用戶。
此外,深度學(xué)習(xí)模型容易出現(xiàn)過擬合問題,尤其是在樣本數(shù)量有限的情況下。該文從以下三個方面解決了這個問題:
交叉驗證方案:交叉驗證是防止機器/深度學(xué)習(xí)過度擬合的有力措施。該文在基于 CNN 的分類器中使用了五重交叉驗證方案。
特征提?。涸谟?xùn)練樣本數(shù)量有限的情況下,深度學(xué)習(xí)特征可能不夠具有代表性,從而可能導(dǎo)致過擬合。該文手動提取了兩個不同的特征(即基于 MFFC 的特征和基于 WPT 的特征),這有助于防止過度擬合。
數(shù)據(jù)多樣性:該文在實驗中進(jìn)行了30 輪實驗來收集數(shù)據(jù),同時保證訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自不同的收集日期。通過增加數(shù)據(jù)多樣性在很大程度上避免了訓(xùn)練過程中的過度擬合。
圖6. 深度 CNN 的架構(gòu)
評估指標(biāo):
采用三個指標(biāo):包括準(zhǔn)確性、接收器操作特性 (ROC) 曲線和 EER 來評估系統(tǒng)的性能。
ROC 曲線說明了二元分類器系統(tǒng)在其鑒別閾值變化時的性能。當(dāng) ROC 曲線覆蓋更大的區(qū)域時,系統(tǒng)被認(rèn)為具有更好的性能。
EER 的值表明錯誤接受的比例等于錯誤拒絕的比例。EER 值越低,生物識別系統(tǒng)的性能越好。
實驗結(jié)果
檢測用戶使用性能:
從圖7可以看到,使用多模態(tài)生物識別技術(shù)的系統(tǒng)具有最佳性能。聲帶生物識別方法的表現(xiàn)不如多模態(tài)生物識別方法,但還是令人滿意的,但如果只在系統(tǒng)中使用唇部生物識別技術(shù),性能下降會很嚴(yán)重。同時,多模態(tài)生物識別也具有最高的準(zhǔn)確度。結(jié)果證明了系統(tǒng)在驗證真人說話者方面的有效性。此外,文章中提出的將聲帶生物識別與唇部生物識別相結(jié)合,可以獲得更好的性能。
圖7. 揚聲器驗證的系統(tǒng)性能。(a) ROC 曲線。(b)EER。(c) 準(zhǔn)確性。
從圖8中可以看出,與圖7相似,多模態(tài)生物識別方法均具有最優(yōu)的性能。結(jié)果表明,文章提出的多模態(tài)生物識別技術(shù)在檢測重放攻擊方面非常有效,遠(yuǎn)優(yōu)于傳統(tǒng)的基于語音的方法。
圖8. 檢測重放攻擊的系統(tǒng)性能。(a) ROC 曲線。(b)EER。(c) 準(zhǔn)確性。
展望
研究中,LM的頻率在0.2~3Hz之間,容易與呼吸、心跳等人體的一些動作重疊,這是造成唇部生物識別技術(shù)不如聲帶生物識別技術(shù)的原因之一。為了解決這個問題,可以在分類器中采用深度去噪自編碼器來減少輸入的噪聲和諧波。此外,還可以使用對抗網(wǎng)絡(luò)對噪聲進(jìn)行建模,并與對抗網(wǎng)絡(luò)聯(lián)合訓(xùn)練系統(tǒng)的分類器,這可以對抗各種噪聲。在此研究中,使用的是來自單個 TX-RX 天線對的數(shù)據(jù),可以嘗試使用多個天線的數(shù)據(jù)融合來提高系統(tǒng)性能。