VoIP(Voiceover IP)即IP電話,是將話音編碼、壓縮轉換成數據包,在IP網絡中進行傳輸的技術。語音通信因其特有的可靠性和高QoS(QualityofService)一直被大家廣發使用。但現在的人們通過手機通話時已經不但僅滿足于信息的獲取,而更多地關注語音質量如何,是否能高保真地還原聲音的效果,并表達最真實的情感。
有信以實時語音通話為核心,經過幾年的深耕細作,用戶總注冊量已經超1. 2 億,日活躍用戶達 600 萬。能夠獲得這么多的用戶與有信電話高水平的語音通話質量密不成分,語音質量也是有信電話與傳統電話公司競爭的一項關鍵因素。
業界各方為了提高VoIP語音質量各顯其能,語音質量的評測方案層出不窮,但都以主不雅觀評測為主流。我們在對有信VoIP網絡電話做評測時,會從抗時延、抗丟包、噪聲按捺以及音量大小等多種維度去考慮,本文主要介紹了客不雅觀評測語音質量的一些方法和案例。
2 測試環境搭建
2.1 測試設備
測試設備:PC +測試手機 2 部+音頻線 2 條+耳機麥克風二合一轉接線。
以上設備根據圖2- 1 方式連接后,在PC 上播放音頻,聲音從 PC的揚聲器通過音頻線和轉接線傳入到主叫A的麥克里,然后主叫A中的通話軟件采集聲音并經過網絡傳到被叫B,之后聲音從被叫B通過音頻線連接PC的麥克風傳入到PC上,在PC上進行音頻錄制操作。這里需要注意的是,由于主叫和被叫都有麥克風權限,為了保證測試過程中數據的準確性,不受外界聲音的影響,連接電腦mic端的被叫B必然要連結靜音,主叫A必然要插出耳機模式。

圖2-1
2.2 網絡環境模擬
VoIP決定了對網絡的強依賴性,因此需要評定在差別網絡狀態下的語音質量的各項指標。這里保舉使用網絡模擬軟件Network Emulator Toolkit 模擬網絡丟包、抖動等網絡異常情況。在電腦上安置網絡模擬軟件,然后將電腦網絡作為 WiFi熱點(可以使用 360 隨身 wifi 等工具實現),測試機連接熱點 wifi,通過設置差別的參數實現丟包和網絡抖動等網絡異常的情況。
網絡丟包設置方法:可以通過設置Periodic Loss (周期性丟包)參數實現(如設置參數為 10,體現每 10 個包丟一個包,即丟包率為10%),也可以設置Random Loss(隨機丟包)參數實現(Random Loss中的數值若填寫0.05,則體現隨機丟包率為5%),一般隨機丟包更貼近真實的網絡情況。
網絡抖動設置方法:可以通過設置變革的延時Linear 參數來實現,Linear 設置項體現在設置時間內 period,延時會從設置的最小值 Min 逐漸變革到設置的最大值 Max(如設置 min 為 0,max 為 100,體現抖動幅度為 100ms),也可以設置Normal Distributed 的參數來模擬。
2.3 音頻文件以及分析工具的選擇
分析音頻的軟件有很多,本文采用Cool Edit Pro,便利易用。將音頻文件在Cool Edit Pro中打開,可以看到音頻是否滿足測試條件,例如,在音質測試時,要保證波形適中,振幅分布均勻。
由于 PESQ 算法的特殊性,對聲音源文件的選擇有必然的要求。
1. 源聲音文件的長度在6s~8s之間,過長或過短都會影響計算結果。
2. 靜音區和非靜音區的比例要適中,盡量保正[非靜音:靜音=6:4 ]或 [非靜音:靜音=5:5 ]或[非靜音:靜音=4:6 ]。使用 PESQ 計算 MOS 分時,要用純凈的不帶噪聲的文件。
3. 使用 Cool Edit Pro 錄音時,應保證輸出的波形適中,可通過調節音頻播放音量和 PC 錄音音量來控制。
3 測試指標以及測試方法
3.1 音質(QV)
音質(Qualityof Voice)是指經傳輸、處理后音頻信號的保真度,是對音量音高、音調、音色等一些列影響因素的綜合評價。本文所用的音質的測試方法,是利用python的音頻插件pyAudio來輸入源文件以及錄制輸出音頻,通過國際通用的PESQ(Perceptualevaluation of speech quality)算法來對比兩個輸入和輸出的音頻,最終計算出MOS(Mean OpinionScore)值。以上整個過程都是通過腳本完成,制止了人工參與引入的誤差。如1. 1 中的示意圖連接好設備后,兩臺手機通過AppA進行通話,通話過程中執行腳本,腳本中一些變量的值,例如執行次數、采樣率、Delay時長等都可以按照測試對象的實際情況進行靈活調整,以盡量找到測試對象的天花板。
3.2 語音時延(DV)
語音時延(DelayofVoice),兩個移動終端進行通話過程中,主不雅觀感受的時延是指輸出音頻的時間減去輸入音頻的時間,即被叫聽到聲音的時間減去主叫發出聲音的時間。DV過大,比較容易出現響應遲緩、或者雙講的情況,非常影響通話體驗。本文中對DV的測試方法是,如1.1中的示意圖連接好設備后,兩臺手機通過AppA進行通話,通過腳原來計算音頻輸入的時間和錄制音頻的輸出時間,這個過程比擬主不雅觀測試,排除了人耳的差異性帶來的誤差,使得測試結果更精準。通過腳本跑出的時延數據,取50~ 100 組延時數據算平均值即可。
3.3 噪聲按捺(NS)