IP電話語音質量的評價與分析

袁琦 2002/12/31

一、引言

　　IP電話是近幾年內發(fā)展起來的一種新的IP網(wǎng)絡業(yè)務，它是在基于IP協(xié)議的包（分組）傳輸網(wǎng)絡上所進行的電話通信業(yè)務。IP電話作為信息技術進步帶來的一項新型電話業(yè)務，已在全世界范圍內得到廣泛使用，并對傳統(tǒng)電話業(yè)務形成越來越大的威脅。

　　目前IP電話的語音質量已成為IP電話業(yè)務進一步發(fā)展的主要障礙，也是IP電話技術需要解決的重大難題之一。本文主要對IP電話的語音質量進行評價和分析，并簡單介紹IP電話語音質量的測試方法�！　�

二、IP電話語音質量的評價

　　目前對IP電話業(yè)務語音質量評分的評價主要有三種模型：MOS模型、PSQM模型和E模型。

1. MOS模型

　　ITU-T建議P.830描述了一種對語音的主觀評定方法-MOS（Mean Opinion Score）方法。根據(jù)P.830建議的要求，特定的發(fā)話者與聽話者在特定的環(huán)境下，通過收集測試者在各種不同情景下的主觀感受，根據(jù)P.830的分析法則得出該語音的品質。P.830對測試的要求非常嚴格，所有的操作都要嚴格地服從操作流程，對錄音系統(tǒng)、語音采樣、語音輸入級別、聽者級別、不同發(fā)話者(8男、8女、8兒童)、多發(fā)話者(多人同時講話)、差錯處理、不同語音編碼方式的兼容性、過失、環(huán)境噪音、音樂等等，都作出了詳細嚴格的規(guī)定。測試者的主觀感受結果也被分為很多不同的范疇，如聽者感受的網(wǎng)絡質量結果、質量降級結果、比較結果等。

2. PSQM模型

　　MOS方法是一種模糊的評估方法，其測試結果很難對VoIP系統(tǒng)的改進和不同VoIP設備之間性能的比較作出有實際意義的判別。因此，有人提出借用ITU-T 在P.861 中建議的 PSQM (Perceptual Speech Quality Measurement)方法，用來作為客觀質量度量的評估。

　　PSQM的客觀性是指模仿現(xiàn)實生活中主觀聲音的感知。PSQM仿真實驗中主觀判斷話音編碼器的質量，通過把編碼后的信號和源信號進行比較，PSQM仍以MOS的5個級別作為評估結果。PSQM方法并未擺脫原始的人類主觀評估，只是作了進一步的說明。

　　圖1為ITU-T P.861定義的PSQM算法的評價模型。首先選取符合條件的基準信號源，可以是真實的聲音，也可以是規(guī)定的人工語音。把基準信號源和經(jīng)過網(wǎng)絡的干擾后信號輸入到知覺模型，這個知覺模型實際上是對信號進行時間-頻率映射，以及頻率和強度偏差處理。從知覺模型輸出得到的信號內部表現(xiàn)通過差別模型進行處理，為了獲得主觀和客觀之間的較高關聯(lián)性，再輸入到認識模型，最后得到質量評分。從這個評價模型可以看出使用者對語音清晰度的評價主要取決于使用者的認識模型，而使用者的認識模型又是受其知覺模型影響。

3. E模型

　　E模型最早是由歐洲的ETSI標準組織提出，后來又由ITU-T標準化形成G.107建議。Ｅ模型的思想是將話音信號傳輸過程中若干因素對話質的負面影響綜合為參數(shù)Ｒ，用以評估該話音呼叫的主觀質量。Ｒ的值越大，表明話音質量越好。Ｅ模型的Ｒ參數(shù)由下式確定：

　�。� ＝ Ro－Is－Id－Ie＋A

　　其中參數(shù)Ro表示噪音帶來的影響，如背景噪音和電流噪音的干擾。參數(shù)Is表示與語音信號同時產(chǎn)生的質量影響因素，如由量化、連接噪聲和側音過強帶來的干擾。參數(shù)Id表示由于時延造成的質量影響，包括由于通話回聲和交互性喪失帶來的干擾。Ie包括由于使用特殊設備引入的質量損失，如低比特率編解碼器的影響和分組丟失的影響。G.729A的Ie為10，G.723.1在5.3kbit/s和6.3kbit/s碼流速率下的Ie分別為19和15。參數(shù)A為預期值，用以補償由于用戶采用某些帶來便捷接入的設備而導致的話音質量的影響。對于傳統(tǒng)電話,A取值為０；而GSM移動電話的A值為10。

　　根據(jù)Ｅ模型確定可接受話音質量對應的Ｒ值。編解碼器類型、通信模式和傳輸協(xié)議的不同，會使上式中的各個分量有不同的取值，從而得到不同的Ｒ值。

三、影響IP電話語音質量的關鍵因素分析

影響VoIP業(yè)務語音質量評分的主要因素有：

- 同時通過網(wǎng)關的數(shù)據(jù)流量

- 采樣和糾錯技術

- 語音的延時

- IP包在網(wǎng)絡上的丟失

- 語音數(shù)據(jù)包抖動

- 傳統(tǒng)問題：話音輸入輸出設備質量、電平、噪聲、回損和ECHO PATH 延遲（產(chǎn)生于GSM/PSTN段）；

1、網(wǎng)關的語音處理技術

（1）語音的編碼與壓縮

　　VoIP業(yè)務的關鍵技術之一就是語音的編碼及壓縮技術，采取的編解碼算法和壓縮技術直接影響到VoIP業(yè)務的語音質量。語音的編碼及壓縮過程在網(wǎng)關中完成，這個過程需要先進行數(shù)字編碼，轉換為PCM碼，然后經(jīng)過專門的DSP芯片進行數(shù)據(jù)壓縮，最后再形成IP包數(shù)據(jù)的形式，以適合IP網(wǎng)絡上的傳輸帶寬。

　　根據(jù)語音信號的不同特征，語音編碼通�？梢苑譃閮纱箢悾翰ㄐ位幋a和參數(shù)基編碼。話音編碼按比特速率的劃分為：高速編碼，中速編碼和低速編碼。

　　波形基編碼是通過抽樣和量化過程，并利用統(tǒng)計特性和聽覺特性對語音信息進行壓縮編碼，最早也是最著名的波形基編碼就是PCM，波形基編碼包含三個過程：抽樣、量化和編碼；波形基編碼不適應于低速話音編碼，一般屬于中高速編碼。

　　參數(shù)基編碼是將語音信號用某種模型表示，僅僅對表示語音特征的參數(shù)進行編碼。參數(shù)基編碼一般屬于中低速編碼。

　　ITU-T在G系列建議中對語音編碼技術進行了標準化，已經(jīng)公布了一系列語音編碼協(xié)議，采用波形基編碼的方式主要有G.711、G.721、G.722、G.723、G.726、G.727，采用參數(shù)基編碼方式的主要有G.728、G.729、G.729A、G.723.1。這些協(xié)議采用不同的算法，具有不同的速率。較高速率的編碼協(xié)議對話音質量較易保證，但占用網(wǎng)絡資源較大；較低速率的編碼協(xié)議對話音質量較難保證，但占用網(wǎng)絡資源小。這些語音壓縮方式的比較如表3所示。

　　編碼壓縮方法由ITU-T統(tǒng)一制定并標準化,它的壓縮能力由DSP的處理能力決定，即復雜度。復雜度決定了編解碼器硬件的成本和功耗，也影響到編解碼器的實時性。復雜度的衡量指標是定點DSP實現(xiàn)編解碼所需的處理器能力，以百萬指令/秒（MIPS）為單位。

　　編碼壓縮僅負責對實際傳輸?shù)腎P包數(shù)據(jù)進行壓縮，它不負責對IP頭壓縮。一般，IP/UDP頭（包括地址信息和控制信息）要耗去7kbit/s左右的帶寬。

　　在實際選擇壓縮算法時，要綜合考慮各種因素。例如，高比特率可以保證良好的話音品質，但要占用大量的存儲空間，耗費更多的系統(tǒng)資源；而過低的比特率又會影響話音的品質和增加延遲。所以，在較低比特率的前提下，保持較好的話音質量，是選擇壓縮算法的原則。

　　從互通性角度考慮，IP電話網(wǎng)關對其它編碼協(xié)議亦應全部支持或部分支持。特別是對于G.729/ G.729A，由于其編碼速率亦較低。而且其編碼時延較G.723.1小，因此建議IP電話網(wǎng)中給予支持。

　　為保證一定的通話質量，網(wǎng)關必須設有輸入緩沖，以盡可能地消除時延抖動對通話質量的影響。另外，網(wǎng)關應該具有語音編碼的動態(tài)轉換功能，即網(wǎng)關設備能夠自動地在較高速率的語音編碼和較低速率的語音編碼之間的轉換。當網(wǎng)絡擁塞時可以由高碼速轉換到低碼速，當網(wǎng)絡條件較好時，可以由低碼速轉換到高碼速以提高語音質量。語音編碼的動態(tài)轉換是網(wǎng)關設備在IP電話QoS管理方面的一個重要功能。

（2）DTMF檢測

　　DTMF信號傳輸在語音網(wǎng)絡中極為重要，因為網(wǎng)絡不僅傳輸被叫方的撥叫號碼，而且用來激活基本電路特性。信號質量的衰減會影響到DTMF信號的識別。DTMF信號的失真又會影響話音服務的質量。

　　DTMF信號由電話鍵盤使用相同幅度的兩個不同的高頻和低頻來產(chǎn)生。網(wǎng)關需轉換電話中常用的DTMF信號，應能檢測DTMF信號，并將其轉換為H.245消息中的"用戶輸入指示"信息單元予以傳送，可取值0~9、*和#，反之，應能生成DTMF信號。

　　網(wǎng)關中的低比特率編解碼器適用于語音信號而不是正弦信號，它們會改變信號的頻率和幅度，所以難以傳輸DTMF信號，并很難高保真地恢復它們。

（3）靜音抑制

　　靜音抑制，又稱語音活動偵測（VAD）。靜音抑制的目的是從聲音信號流里識別和消除長時間的靜音期，以達到在不降低業(yè)務質量的情況下節(jié)省話路資源的作用，它是IP電話應用的重要組成部分。靜音抑制可以節(jié)省寶貴的帶寬資源，可以有利于減少用戶感覺到的端到端的時延。

　　用戶打電話時，并不是總在占用通話信道。根據(jù)傳統(tǒng)電話業(yè)務的統(tǒng)計，一方用戶實際占用通話信道的時間不會超過整個通話時間的40%。這主要包括以下幾個方面的原因：一是正在聽對方說話；二是由于思考，稍事休息等原因引起的一段話之間的停頓；三是說話中間的停頓，如猶豫，呼吸，口吃等。第一種情況下停頓間隙長而出現(xiàn)頻率低；第三種情況停頓間隙短而出現(xiàn)頻率高；第二種情況界于一、三種情況之間。語音源的這種特性叫做開關特性，有時也叫話音/靜默特性。

　　在用戶沒有講話時，就沒有語音分組的發(fā)送，從而可以進一步降低語音比特率。當用戶的語音信號能量低于一定門限值時就認為是靜默狀態(tài)，也不發(fā)送語音分組。當檢測到突發(fā)的活動聲音時才生成語音信號，并加以傳輸。運用這種技術能夠獲得大于50%的帶寬。

　　在進行靜音檢測時有兩個問題需要注意：一是背景噪聲問題，即如何在較大的背景噪聲中檢測靜音；二是前后沿剪切問題。所謂前后沿剪切就是還原語音時，由于從實際講話開始到檢測到語音之間有一定的判斷門限和時延，有時語音波形的開始和結束部分會作為靜音被丟掉，還原的語音會出現(xiàn)變化，因此需要在突發(fā)語音分組前面或后面增加一個語音分組進行平滑以解決這一問題。

　　在實際使用中，如果出現(xiàn)長時間的靜默，會使用戶感到很不自然。因此實際上接收端常常會在靜音期間發(fā)送一些分組，從而生成使用戶感覺舒服一些的背景噪聲，即所謂的舒適噪聲。

（4）回聲處理

　　回聲是信號通過網(wǎng)絡時的反射。本地揚聲器輸出的模擬語音信號可能又被話筒接收，當信號被傳回到源端時，就會產(chǎn)生不必要的回聲。在傳統(tǒng)固話網(wǎng)中，從4線交換到2線本地環(huán)路時的阻抗會導致回聲，或者是由麥克風和揚聲器或耳機之間的耦合效果不好也會導致回聲。在IP網(wǎng)中，呼叫必須經(jīng)過多個路由器和網(wǎng)關，其相當長的延遲又會造成回聲問題的進一步惡化。典型的延遲是16ms-20ms的回聲叫做側音，它有利于談話者聽到自己的聲音。但是延遲超過了25ms，聽到的聲音就會被扭曲，甚至中斷談話�；芈暱梢杂没芈曄骷右钥刂啤Ｔ赩oIP網(wǎng)絡中，把回聲消除器放在了低比特編碼器中，并且運行于每個DSP之上。回聲消除器的設計受到等待接收反射回來的話音的整個時間大小的限制。

2、承載的IP網(wǎng)絡

　　承載的IP網(wǎng)絡基于TCP/IP協(xié)議進行數(shù)據(jù)包的分組交換，是面向無連接網(wǎng)絡，其傳輸特性無法得到保證。每個分組包含源和目的IP地址，分組包既沒有標記為屬于某一個特定的流或者一個連接，也沒有以任何方式進行編號。每個IPv4節(jié)點盡其最大的努力，對每個分組獨立進行路由轉發(fā)，并在網(wǎng)絡中獨立傳遞，達到同一目的地分組的路由不一定相同，到達時間也是不固定且非實時的，最后在目的節(jié)點緩沖區(qū)重新組成數(shù)據(jù)。因此數(shù)據(jù)包傳送所需時延無法保證，途中的丟包更無法控制，并造成IP包傳輸?shù)臅r延抖動。

　　承載的IP網(wǎng)絡的上述機制能夠較好地支持非實時的數(shù)據(jù)業(yè)務，但對實時業(yè)務支持不夠。盡管IP協(xié)議中有業(yè)務類別的區(qū)別，用戶依此表示為網(wǎng)絡的時延，帶寬以及安全性等特征參數(shù)，從而來獲取希望的QoS，但在實際的IP網(wǎng)絡中，并沒有真正完全參照這些參數(shù)（業(yè)務類別的劃分及對應的QoS參數(shù)）來使用。因此傳統(tǒng)的IP網(wǎng)傳送實時的VoIP業(yè)務能力較差。

　　在IP電話業(yè)務中，網(wǎng)絡和網(wǎng)關帶來的時延都可能會嚴重地影響語音質量，這就要求運營商必須提供高質量的IP網(wǎng)絡。這可以通過兩種途徑來解決，一是增加網(wǎng)絡帶寬，二是通過在網(wǎng)絡中實現(xiàn)QoS服務來實現(xiàn)帶寬的合理利用，從而滿足IP電話業(yè)務對實時性的要求。

　　足夠的帶寬是確保語音數(shù)據(jù)包無延時地到達目的地所必須的。如果網(wǎng)絡正面臨阻塞問題時，就需要更大的網(wǎng)絡帶寬來解決這個問題，僅僅采用優(yōu)先機制只能部分消除分組包的丟失問題。假如不希望丟棄任何數(shù)據(jù)包的話，就必須增加帶寬了。

　　實現(xiàn)業(yè)務傳輸優(yōu)先級保證的關鍵在于引入一種服務質量機制（QoS），允許網(wǎng)絡將不同類型的業(yè)務置于特定的QoS隊列中，使得語音業(yè)務的傳輸優(yōu)先級高于數(shù)據(jù)業(yè)務，從而降低隊列延時，實時性得到保障。四、 IP電話語音質量的測試 IP電話業(yè)務的主觀評定MOS評分由測試人員通過通話根據(jù)評分標準主觀評定的，可簡單地由20-60個非專職測試者對所聽的話音進行綜合打分，然后進行統(tǒng)計分析。

　　IP電話業(yè)務的客觀評定PSQM評分指標可利用測試儀表進行測試，目前國內外眾多的測試儀表廠商已經(jīng)開發(fā)出許多用于PSQM評分值的測試儀表。Agilent公司的Telegra VQT語音質量測試儀，能夠測試端到端語音時延、清晰度、靜音抑制和DTMF音調分析等參數(shù)，能夠提供專業(yè)的端到端的語音質量（PSQM）測試，并對話音質量進行客觀分析。美國Ameritec的解決方案為利用各種型號的大話務量呼叫器發(fā)起呼叫，并在其上配置"Golden Voice"復合音調發(fā)生器，利用呼叫產(chǎn)生的標準測試音信號，在被叫端或呼叫經(jīng)過的網(wǎng)絡進行話音質量的分析和丟包、抖動、沿切割、延時等測試。Spirent公司的Abcus測試儀也能完成PSQM評分指標的測試。國內的中創(chuàng)信測公司研制開發(fā)出了IP電話測試儀，中創(chuàng)的IP電話測試儀采用捕捉協(xié)議包的方式實時對H.323呼叫過程跟蹤分析，可進行IP語音包的提取及語音質量分析。

　　關于IP電話業(yè)務的R值評分，目前國內外還沒有這方面的測試儀表，相關研究機構和測試儀表廠家正在積極地進行E模型的研究與開發(fā)。

中國通信網(wǎng)(www.c114.net)
分類信息: 文摘

来宾市| 潢川县| 和政县| 化德县| 湘西| 青海省| 鞍山市| 西贡区| 光泽县| 平舆县| 台中市| 洪洞县| 霍林郭勒市| 德安县| 柳河县| 衡南县| 盐源县| 张掖市| 合川市| 仲巴县| 哈尔滨市| 南和县| 双鸭山市| 寻甸| 北京市| 大安市| 古浪县| 旅游| 定襄县| 平谷区| 平武县| 开平市| 广平县| 大港区| 邢台县| 溧阳市| 托克逊县| 泾源县| 秦安县| 涟水县| 登封市|