首頁(yè)>>>技術(shù)>>>視像通信  視像通信產(chǎn)品

讓視頻會(huì )議多一些人工智能

劉喜喜 2008/05/28

  網(wǎng)絡(luò )視頻會(huì )議中,人們都希望能實(shí)現發(fā)言人的特寫(xiě)與其聲音同步的音視頻效果。那么,這一技術(shù)如何突破傳統的人工搜索方式,讓設備自己也能“尋聲辯人”呢?

  說(shuō)話(huà)人的聲音不能被清楚地收音,會(huì )議雙方聽(tīng)不到對方的聲音,產(chǎn)生回音或者斷續音現象從而使與會(huì )雙方無(wú)法互相理解……即使現在使用視頻會(huì )議系統時(shí),我們仍常遇到這樣的問(wèn)題。如何盡可能逼真地遠程再現會(huì )議環(huán)境的聲音和圖像,給人以身臨其境之感,一直是聲音處理領(lǐng)域的頭等課題。

  在視頻會(huì )議產(chǎn)品領(lǐng)域,中國產(chǎn)品重視視頻編解碼與聲音處理技術(shù),歐美產(chǎn)品更著(zhù)重軟硬件設備、管理套件以及與統一通信架構融合的研究,而日本的產(chǎn)品則堅持其一貫的技術(shù)分工精細的主張:索尼在顯示器領(lǐng)域深耕,雅馬哈則在音頻處理領(lǐng)域細作。

  日前,日本雅馬哈在中國推動(dòng)PJP(Projectphone)網(wǎng)絡(luò )會(huì )議系列產(chǎn)品巡展,試圖為該領(lǐng)域引入另一種完全不同的技術(shù)解決思路。通過(guò)本報記者對日本雅馬哈株式會(huì )社Sound Network事業(yè)部長(cháng)田丸卓也、雅馬哈中國網(wǎng)絡(luò )會(huì )議系列產(chǎn)品技術(shù)總監谷田的專(zhuān)訪(fǎng),以下問(wèn)題將得到解答:雅馬哈會(huì )采用哪些技術(shù)解決目前聲音傳輸的瑕疵,并輔助視頻功能?視頻會(huì )議中惱人的回聲與吞字現象如何得到解決?會(huì )議中重要的錄音功能,該如何設計?如何以人工智能的思路來(lái)設計網(wǎng)絡(luò )與視頻會(huì )議產(chǎn)品,最終使這一計算機科技成果貼近自然、符合人類(lèi)習慣?

  讓機器學(xué)會(huì )尋聲辨人

  據谷田介紹,如何將新型視頻會(huì )議系統擬人化,以貼近人工智能需求,是雅馬哈PJP系列倡導的最新網(wǎng)絡(luò )會(huì )議技術(shù)理念。這些理念將通過(guò)瞬間呈現技術(shù)、聲音非增幅音響設計、內置適應型回聲消除器等一系列技術(shù)得以體現。

  假如甲地和乙地一起舉行遠程視頻會(huì )議,甲地人員如何清楚確定乙地哪位與會(huì )者正在發(fā)言(視頻追蹤)十分重要。在處理這一問(wèn)題上,思科、北電—寶利通采取的措施霸氣十足:打造一個(gè)30萬(wàn)美元以上的網(wǎng)真會(huì )議室,租用超寬帶寬傳輸聲音和圖像,用超大電視墻1∶1地還原場(chǎng)景和參會(huì )者;而蘇州科達等國內企業(yè)的做法相對經(jīng)濟實(shí)惠:用甲地員工手中的遙控器去控制乙地會(huì )議室攝像頭的轉動(dòng)和焦距調節,尋找小顯示屏幕一次裝不下的參會(huì )者或給出特寫(xiě)鏡頭。總體來(lái)說(shuō),這兩種做法都使用的是“尋聲辨人”的方式,但用的是人眼搜索。

  雅馬哈給這一問(wèn)題增加了一條技術(shù)解決路徑,那就是使攝像頭學(xué)會(huì )尋聲辨人。谷田向記者介紹道:“不要忽略人類(lèi)都是‘尋聲望去’這一聽(tīng)覺(jué)的天性,在視頻會(huì )議系統中,視頻顯示與聲音的處理技術(shù)其實(shí)是密不可分的。以PJP-300V這款攝像頭、麥克風(fēng)、揚聲器一體機為例,它可以實(shí)現說(shuō)話(huà)人瞬間顯示的功能。即使使用普通液晶屏幕,會(huì )議發(fā)言人的特寫(xiě)和聲音也能瞬間呈現。”這項技術(shù)的實(shí)現,依靠的是在PJP-300V上面配列16個(gè)麥克風(fēng)陣列,可以自動(dòng)判別說(shuō)話(huà)人的位置;通過(guò)說(shuō)話(huà)人的位置信息和3個(gè)攝像機的切換、聯(lián)動(dòng),使說(shuō)話(huà)人可以瞬間在屏幕上顯示出來(lái)。這項技術(shù)不需要攝像頭的切換動(dòng)作,保證了會(huì )議順暢進(jìn)行。同時(shí)這項瞬間呈現技術(shù),在桌面型VoIP電話(huà)中也可以應用,使音頻會(huì )議呈現立體感,實(shí)現與語(yǔ)話(huà)者座位的匹配。

  回聲與吞字現象的消除

  聲音從會(huì )議系統的揚聲器中播放,又回到麥克風(fēng)的時(shí)候,容易產(chǎn)生回音。會(huì )議過(guò)程中,異地雙方進(jìn)行激烈的快語(yǔ)速交談時(shí),往往會(huì )出現“吞字”的現象,即首句的末字與后句的首字會(huì )發(fā)生重疊和消音。當會(huì )議變成多地、多人同時(shí)發(fā)言的時(shí)候,這種情況將更糟。

  針對這些問(wèn)題,谷田介紹了雅馬哈成功應用于產(chǎn)品中的基于參照人類(lèi)講話(huà)方式設計的兩種技術(shù)。第一,使用適應型回聲消除器消除回音。什么是適應型回聲消除器?谷田解釋道,就是系統可以自動(dòng)學(xué)習周?chē)魣?chǎng)環(huán)境和旋繞余音,并算出濾波系數,從而使用戶(hù)不必依房間類(lèi)型選擇不同的產(chǎn)品,節省了重復購置產(chǎn)品的成本。第二,據點(diǎn)語(yǔ)音分隔模式可以幫助我們解決吞字的難題。雅馬哈PJP-100H形狀窄長(cháng),具有12個(gè)揚聲器和16個(gè)麥克風(fēng),沒(méi)有MCU時(shí),最多可以連接8個(gè)據點(diǎn)的音頻會(huì )議。“在使用它進(jìn)行多地點(diǎn)會(huì )議的時(shí)候,讓各地點(diǎn)的聲音從揚聲器的不同方向傳送至與會(huì )者,聲音不會(huì )混雜,不但能清楚地收聽(tīng),而且能簡(jiǎn)單地識別出是哪個(gè)連接地點(diǎn)的發(fā)言。”

  只收錄需要的聲音

  谷田表示,如何讓機器學(xué)會(huì )只錄取特定人和特定聲音是視頻會(huì )議音頻處理技術(shù)的重要研究方向,也是雅馬哈人工智能理念的體現。

  首先,在網(wǎng)絡(luò )或視頻會(huì )議進(jìn)行的過(guò)程中,如果在開(kāi)放空間或者有來(lái)自投影儀等雜音源的場(chǎng)所,如何識別音源的位置是對視頻會(huì )議產(chǎn)品與技術(shù)的一個(gè)挑戰。

  面對這個(gè)挑戰,雅馬哈采取的對策是,使會(huì )議用傳聲揚聲器可以根據場(chǎng)面的不同而采取不同的收音模式。該揚聲器中的麥克風(fēng)陣列可以識別音源的位置,只收錄說(shuō)話(huà)人的聲音,并清楚地傳達給對方。具體到具備了這樣功能的PJP-100H上,它擁有三種特定模式:第一,區域模式:最適合在安靜環(huán)境下的會(huì )議,在場(chǎng)所有人的聲音都可被錄入;第二,點(diǎn)式模式:可收錄特定方向上的聲音;第三:追蹤模式,設備可以自動(dòng)追蹤發(fā)言人的聲音。

  其次,視頻會(huì )議系統通常會(huì )面臨出差員工從外地接入,參加會(huì )議這樣的情況,臨時(shí)會(huì )議錄音功能非常重要。市場(chǎng)上現有的產(chǎn)品一般的解決思路是靠一臺筆記本電腦、軟件外加耳麥,組成臨時(shí)的視頻會(huì )議端點(diǎn)。但是,長(cháng)時(shí)間使用耳麥容易造成疲勞,也不利于兩位以上的出差員工同時(shí)參與。因此,雅馬哈研制了一系列輕巧、便于攜帶的Web會(huì )議用傳聲揚聲器,采用USB供電的方式,供連接筆記本電腦使用。

  針對此類(lèi)產(chǎn)品,谷田如此描述他們的技術(shù)設計思路:這類(lèi)小型揚聲器具備和個(gè)人電腦、音樂(lè )播放器連接,以增強其使用率;但更重要的是,不能忽略其傳聲和會(huì )議錄音的功能,只錄最需要的聲音。在一次對此類(lèi)產(chǎn)品PJP-25UR的體驗中,記者一邊利用揚聲器大聲播放電腦中的音樂(lè ),同時(shí)利用揚聲器錄音現場(chǎng)的對話(huà)。最后播放錄音,里面只能聽(tīng)到記者說(shuō)話(huà)的聲音,完全沒(méi)有音樂(lè )等雜聲。田丸卓也表示,這是通過(guò)對揚聲器和軟件的設定實(shí)現的。

  多終端自由接入會(huì )議

  在企業(yè)辦公自動(dòng)化朝統一通信發(fā)展的大趨勢下,視頻會(huì )議應該要考慮到“無(wú)處不在”的接入特性。谷田告訴記者,多種多樣的連接終端可以使與會(huì )者成功應對各種場(chǎng)面,雅馬哈的設計理念是在產(chǎn)品中配置3個(gè)端口:LAN連接、模擬電話(huà)線(xiàn)、與PC連接的AUDIO(IN/OUT)。這一理念使得手機、固定電話(huà)、PC、筆記本電腦都可穩定用聲音加入IP音頻會(huì )議、Web會(huì )議或者視頻會(huì )議系統。

  日本雅馬哈株式會(huì )社Sound Network事業(yè)部長(cháng)田丸卓也:“寶利通在中國市場(chǎng)會(huì )出現一個(gè)新的競爭者——雅馬哈。”

  雅馬哈中國網(wǎng)絡(luò )會(huì )議系列產(chǎn)品技術(shù)總監谷田:“使會(huì )議系統更逼真地滿(mǎn)足人工智能需求,是網(wǎng)絡(luò )會(huì )議技術(shù)未來(lái)的發(fā)展方向。”

  VoIP技術(shù)支持模塊

  為了在IP網(wǎng)絡(luò )中實(shí)現語(yǔ)音傳輸并保證一定的服務(wù)質(zhì)量,基于IP的語(yǔ)音傳輸系統中通常包含有以下的技術(shù)支持模塊。

  信令模塊

  信令是順利實(shí)現電話(huà)呼叫和保證話(huà)音質(zhì)量的重要技術(shù)前提,目前被廣泛接受的IP語(yǔ)音傳輸控制信令體系包括ITU-T的H.323系列和IETF的會(huì )話(huà)初始化協(xié)議SIP。

  編碼模塊

  話(huà)音壓縮編碼技術(shù)是IP語(yǔ)音傳輸技術(shù)的一個(gè)重要組成部分。目前,主要的編碼技術(shù)有ITU-T定義的G.729、G.723(G.723.1)等。

  QoS保障模塊

  IP語(yǔ)音傳輸業(yè)務(wù)的QoS保障技術(shù)是當前業(yè)界探討最多的話(huà)題,IETF建議了數種支持QoS的技術(shù)解決方案,主要有:綜合服務(wù)(Int-serv)/資源預留協(xié)議(RSVP)、區分服務(wù)(DiffServ)、多協(xié)議標簽交換(MPLS)、業(yè)務(wù)流量工程(Traffic Engineering)等。

中計報(www.ccidnet.com)



相關(guān)鏈接:
四招打造SMB視頻會(huì )議方案 2008-05-28
視頻會(huì )議系統應用方案的比較 2008-05-28
孫朝暉:移動(dòng)多媒體廣播的發(fā)展戰略 2008-05-26
中小企業(yè)安全性是移動(dòng)運營(yíng)商視頻監控產(chǎn)品主要針對點(diǎn) 2008-05-22
視頻化身消息應用服務(wù):你看到我了嗎? 2008-05-20

分類(lèi)信息:        
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 麻江县| 东港市| 城步| 广元市| 和顺县| 拉萨市| 永嘉县| 遂宁市| 博乐市| 和龙市| 城步| 陇西县| 方山县| 湛江市| 孟村| 嘉荫县| 承德市| 固原市| 泾阳县| 揭西县| 射阳县| 巴楚县| 横峰县| 阿拉善右旗| 泰来县| 南开区| 柳江县| 江达县| 浦江县| 乳山市| 马公市| 兴和县| 泰兴市| 东平县| 沅江市| 渭源县| 昂仁县| 尼勒克县| 仙居县| 延吉市| 金平| http://444 http://444 http://444 http://444 http://444 http://444