音頻監(jiān)控在安防中的應(yīng)用

2016 05 13 BOAC


音頻監(jiān)控智慧安防建設(shè)系統(tǒng)的重要組成部分,它是一種防范能力較強(qiáng)的綜合系統(tǒng),直觀、準(zhǔn)確、及時(shí)和信息內(nèi)容豐富,是其突出的特點(diǎn)。

對(duì)于音視頻一體化監(jiān)控來說,攝像機(jī)相當(dāng)于眼睛,拾音器相當(dāng)于耳朵。眼睛看到的圖像和耳朵聽到的聲音通過光纖、網(wǎng)絡(luò)等神經(jīng)系統(tǒng)傳輸?shù)酱鎯?chǔ)服務(wù)器就構(gòu)成一個(gè)完整的音視頻監(jiān)控系統(tǒng),為智慧安防或智慧城市提供 高品質(zhì)完整的基礎(chǔ)數(shù)據(jù)。

傳統(tǒng)的視頻監(jiān)控系統(tǒng)都沒有聲音,就像早期的無聲電影,人們只能看到無聲的影像。而現(xiàn)在很多的智慧安防,已經(jīng)要求增加音頻采集,例如在平安城市、公檢法辦案區(qū)、金融機(jī)構(gòu)、公共交通、教育監(jiān)考、行政服務(wù)、執(zhí)法取證等領(lǐng)域,越來越多的優(yōu)質(zhì)項(xiàng)目需要高清晰、高保真的音視頻同步監(jiān)控系統(tǒng),在優(yōu)質(zhì)安防工程中已凸顯出音頻監(jiān)控的重要性,成為平安城市和智能政務(wù)的新亮點(diǎn)。

一套完整的音頻監(jiān)控系統(tǒng)包括拾音器和語(yǔ)音降噪設(shè)備、網(wǎng)絡(luò)錄音對(duì)講系統(tǒng)、音頻智能分析系統(tǒng)。

拾音器:拾音器是音頻監(jiān)控系統(tǒng)的核心,主要是通過聲音的震動(dòng)來采集現(xiàn)場(chǎng)的聲音。拾音器一般分為數(shù)字拾音器和模擬拾音器,數(shù)字拾音器就是通過數(shù)字信號(hào)處理系統(tǒng)將模擬的音頻信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)并進(jìn)行相應(yīng)的數(shù)字信號(hào)處理的聲音傳感設(shè)備。模擬拾音器就只是用一般的模擬電路放大咪頭采集到的聲音。

網(wǎng)絡(luò)錄音對(duì)講系統(tǒng):主要包括遠(yuǎn)程錄音系統(tǒng)和對(duì)講系統(tǒng)。一旦采集到聲音,就會(huì)自動(dòng)啟動(dòng)錄音功能,并主要通過語(yǔ)音卡和音箱,實(shí)現(xiàn)實(shí)時(shí)監(jiān)聽的功能。

音頻智能分析系統(tǒng):音頻智能分析類似于視頻監(jiān)控系統(tǒng)中的智能分析。通過聲紋采集和比對(duì),來分析出聲音的具體特征,并能分析出當(dāng)時(shí)的應(yīng)用場(chǎng)景。

音頻監(jiān)控經(jīng)過多年的發(fā)展,技術(shù)正趨于成熟。通過對(duì)聲紋的識(shí)別可以鑒定個(gè)人的身份。人類語(yǔ)言的產(chǎn)生是人體語(yǔ)言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過程,人在講話時(shí)使用的發(fā)聲器官(舌、牙齒、喉頭、肺、鼻腔)在尺寸和形態(tài)方面差異很大,所以每個(gè)人的聲紋圖譜都有獨(dú)特的,既有相對(duì)穩(wěn)定性,也有一些變異。但盡管如此,由于每個(gè)人的發(fā)音器官都不盡相同,因此在一般情況下,可以通過音頻系統(tǒng)來區(qū)別不同的人的聲音或判斷是否是同一人的聲音。

通過音頻監(jiān)控的場(chǎng)景分析來判斷當(dāng)時(shí)場(chǎng)景下的異常行為。這種技術(shù)是基于各類異常聲音在時(shí)域、頻域的特征,結(jié)合模式識(shí)別的分類方法對(duì)異常事件報(bào)警。

其實(shí),現(xiàn)在已經(jīng)有些廠商的技術(shù)已經(jīng)可以做到通過聲音的識(shí)別來判斷說話人的情緒、所處的環(huán)境等問題。