首頁(yè)>>廠(chǎng)商>>語(yǔ)音識別與合成>>得意音通

自然語(yǔ)言理解技術(shù),智能信息服務(wù)的核動(dòng)力

鄧永強 鄭方 2004/04/19

  自從互聯(lián)網(wǎng)普及以后,人們難于獲取信息的苦惱,很快就變?yōu)楸贿^(guò)多、龐雜的信息包圍的煩擾。雖然通過(guò)搜索引擎、目錄、人工編輯的社區等工具,人們可以獲得一定的輔助;但是這些工具的準確性和方便性仍很不足夠,急迫需要向智能化、精確化、專(zhuān)業(yè)化、個(gè)性化等等以用戶(hù)為中心的智能信息服務(wù)。智能信息服務(wù)將成為下一代互聯(lián)網(wǎng)的主旋律;而自然語(yǔ)言理解技術(shù)可以為信息服務(wù)帶來(lái)革命性的理念和嶄新的應用,有效提高服務(wù)的質(zhì)量和滿(mǎn)意度,為相關(guān)行業(yè)和信息服務(wù)業(yè)創(chuàng )造更多的發(fā)展空間,是智能信息服務(wù)的核動(dòng)力。

一、 走向實(shí)用的自然語(yǔ)言理解技術(shù)

  用自然語(yǔ)言與計算機進(jìn)行交流,獲取合適的信息,得到滿(mǎn)意的服務(wù),是人們長(cháng)期以來(lái)所追求的。自然語(yǔ)言理解是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現人與計算機之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。NLU是自然語(yǔ)言理解(Natural Language Understanding)的縮寫(xiě)。

  隨著(zhù)計算機技術(shù)和人工智能總體技術(shù)的發(fā)展,自然語(yǔ)言理解不斷取得進(jìn)展。機器翻譯是自然語(yǔ)言理解最早的研究領(lǐng)域。由于早期研究中理論和技術(shù)的局限,所開(kāi)發(fā)的機譯系統的技術(shù)水平較低,不能滿(mǎn)足實(shí)際應用的要求。到了1970年代初期,對語(yǔ)言理解對話(huà)系統的研究取得進(jìn)展。進(jìn)入1980年代之后,自然語(yǔ)言理解的應用研究廣泛開(kāi)展,機器學(xué)習研究又十分活躍,并出現了許多具有較高水平的實(shí)用化系統。這些系統是自然語(yǔ)言理解研究的重要成果,表明自然語(yǔ)言理解在理論上和應用上取得了突破性進(jìn)展。

  在中國,語(yǔ)音和語(yǔ)言處理技術(shù)的研發(fā)略晚于國外。清華大學(xué)智能技術(shù)與系統國家重點(diǎn)實(shí)驗室屬下的語(yǔ)音技術(shù)中心1979年創(chuàng )立(原名語(yǔ)音實(shí)驗室),至今已有25年的歷史。在以清華大學(xué)語(yǔ)音技術(shù)中心為代表的頂尖的學(xué)術(shù)機構的帶動(dòng)下,中國的語(yǔ)音和語(yǔ)言處理技術(shù)得到很大發(fā)展。

  相對于規范語(yǔ)言,對自然語(yǔ)言的理解具有更大的難度。這是因為自然語(yǔ)言包含大量的口語(yǔ)語(yǔ)言現象,諸如:省略、指代、更正、重復、強調、倒序等等。涉及到語(yǔ)音的口語(yǔ)對話(huà)系統將還包括噪音、含混不清、口頭語(yǔ)、吃音、音變等等口語(yǔ)語(yǔ)音現象。

  而相對于基于關(guān)鍵詞的技術(shù),自然語(yǔ)言理解技術(shù)的優(yōu)勢是:(1)直接:在信息查詢(xún)時(shí),用戶(hù)可以不必進(jìn)行多級菜單的選取而直奔主題。(2)靈活:用戶(hù)查詢(xún)不必嚴格按照某些"關(guān)鍵詞"進(jìn)行詢(xún)問(wèn),只要用戶(hù)的敘述在"語(yǔ)義"上與要查詢(xún)的一致。

  一個(gè)技術(shù)優(yōu)越而適用性好的自然語(yǔ)言理解系統,應該具備支持上下文相關(guān)分析(包括省略分析)、話(huà)題自由變換、人機混合主導以及口語(yǔ)對話(huà)等技術(shù)特點(diǎn)。

  上下文相關(guān)分析是指系統在理解當前語(yǔ)句時(shí)可以聯(lián)想用戶(hù)以前所說(shuō)的話(huà),進(jìn)行綜合分析,因此即使有時(shí)用戶(hù)所說(shuō)的話(huà)有一定的省略,系統照樣可以理解。

  話(huà)題自由變換是指系統允許用戶(hù)在多個(gè)話(huà)題之間不斷轉換,系統照樣可以記住以前的談話(huà)內容,比如用戶(hù)在問(wèn)航班起飛時(shí)間時(shí),突然問(wèn)目的地與本地的時(shí)差,然后再確認要先前詢(xún)問(wèn)的航班,系統都能滿(mǎn)意回答。而目前的一些系統,對話(huà)往往只能局限于某一個(gè)話(huà)題,一旦用戶(hù)變換話(huà)題,系統將無(wú)所適從。

  人機混合主導則是完全的自然對話(huà),用戶(hù)可以轉換話(huà)題后在回到原來(lái)的話(huà)題(像人一樣);用戶(hù)可以"答非機問(wèn)"(多回答或少回答);……而系統都可以根據實(shí)際情況提取語(yǔ)義信息,如果用戶(hù)詢(xún)問(wèn)的信息足夠,那么系統直接回答問(wèn)題;而如果用戶(hù)詢(xún)問(wèn)的信息不全或者用戶(hù)遲疑太久,那么系統則主動(dòng)詢(xún)問(wèn)來(lái)獲取足夠的信息。而不具備人機混合主導性能的系統只能等用戶(hù)發(fā)問(wèn),如果用戶(hù)根本不知道問(wèn)什么,那么系統將一直待機等待。

  口語(yǔ)對話(huà)是自然語(yǔ)言理解技術(shù)實(shí)現的難點(diǎn),但是也是應用系統適用性的關(guān)鍵點(diǎn)。口語(yǔ)中,人們的語(yǔ)言很隨意,可以省略、更正、倒敘等等,這些口語(yǔ)現象是傳統的單單基于詞法分析的理解系統所難以解決的,而引入基于關(guān)鍵語(yǔ)義的技術(shù)卻可以很好地解決。

  從目前的理論和技術(shù)現狀看,通用的、高質(zhì)量的自然語(yǔ)言處理系統,仍然是較長(cháng)期的努力目標,但是針對一定應用,具有相當自然語(yǔ)言處理能力的實(shí)用系統已經(jīng)出現。北京得意音通技術(shù)公司依托于清華大學(xué)語(yǔ)音技術(shù)中心,已經(jīng)在某些領(lǐng)域實(shí)現了商品化、產(chǎn)業(yè)化,典型的實(shí)用系統包括:智能短信服務(wù)、智能搜索引擎、智能聊天機器人等。

二、商機無(wú)限的智能信息服務(wù)

  互聯(lián)網(wǎng)時(shí)代,信息服務(wù)給人們帶來(lái)極大方便和創(chuàng )造著(zhù)巨大的社會(huì )效益、經(jīng)濟價(jià)值的同時(shí),也帶來(lái)了信息爆炸、信息垃圾等等煩惱。采用了自然語(yǔ)言理解技術(shù)的智能信息服務(wù),將給陷入信息汪洋大海的人以指南,幫助他們更自由自主、隨心所欲地遨游,引導他們快速、準確地獲得所需的信息和服務(wù),從而大大地拓展信息服務(wù)的發(fā)展空間,為相關(guān)產(chǎn)業(yè)帶來(lái)無(wú)限的商機。最近一段時(shí)間,智能信息服務(wù)已經(jīng)成為國際IT業(yè)的最新潮流,獲得了億萬(wàn)網(wǎng)民的青睞。對于使用漢語(yǔ),熱衷于短信、網(wǎng)上聊天的中國用戶(hù)而言,智能信息服務(wù)的實(shí)用性以及蘊含的商機更是顯而易見(jiàn)。

  采用自然語(yǔ)言理解技術(shù)的智能信息服務(wù)創(chuàng )造了電子服務(wù)新概念,其最大的特點(diǎn)是具有中文自然語(yǔ)言理解功能。它首先對提出的問(wèn)題進(jìn)行斷詞、斷句,然后根據系統預先設置的語(yǔ)義規則理解整句話(huà)的意思,形成相應的查詢(xún)條件,在現有數據庫進(jìn)行快速而準確查詢(xún),給出用戶(hù)需要的答案或者提示用戶(hù)進(jìn)一步輸入有關(guān)的信息。由于自然語(yǔ)言理解技術(shù)發(fā)展的階段性,目前還做不到象人一樣具有足夠智能的、通用的智能理解,但是只要劃定具體的領(lǐng)域(領(lǐng)域范圍可大可小,如天氣、體育等簡(jiǎn)單信息查詢(xún),也可以是交友、購物、保健等寬泛的智能聊天/咨詢(xún)等等),性能先進(jìn)的自然語(yǔ)言理解技術(shù)都能量身定做出具足夠實(shí)用性的智能信息服務(wù)系統,自動(dòng)理解客戶(hù)用自然語(yǔ)言發(fā)出的相關(guān)領(lǐng)域的問(wèn)題,使網(wǎng)絡(luò )交流變得更人性化,信息查詢(xún)變得更方便、快速和準確,從而獲得高質(zhì)量的電子服務(wù)。以下是現階段自然語(yǔ)言理解主要的應用。

  智能短信服務(wù)。短信服務(wù)商可根據具體應用領(lǐng)域定制一系列的智能短信業(yè)務(wù),如旅游交通、吃喝玩樂(lè )、金融證券、交友網(wǎng)聚、智力競猜等受歡迎的服務(wù),讓服務(wù)商和用戶(hù)都拋開(kāi)厚重的手冊和復雜的編碼,代之以口語(yǔ)化的自然語(yǔ)言通過(guò)短信輸入,短信系統能迅速理解用戶(hù)的意思,提供準確、周到的信息和服務(wù)。這樣的服務(wù)將直接刺激用戶(hù)使用短信服務(wù)的興趣和頻率,并為短信服務(wù)商和電信運營(yíng)商開(kāi)發(fā)更新的、更具吸引力的業(yè)務(wù)創(chuàng )造了很好的條件。

  智能聊天機器人。目前流行于各大網(wǎng)站、各類(lèi)即時(shí)通訊軟件的聊天機器人還沒(méi)有應用成熟的智能語(yǔ)言理解技術(shù),僅僅實(shí)現了基本的、簡(jiǎn)單的對話(huà)交流、信息查詢(xún)等功能。引入自然語(yǔ)言理解技術(shù),能建立新型智能聊天機器人,通過(guò)與用戶(hù)對話(huà)、聊天等生動(dòng)、靈活的形式,了解用戶(hù)的需求,利用智能搜索技術(shù)采集和分析互聯(lián)網(wǎng)和知識庫的信息內容,進(jìn)行自動(dòng)過(guò)濾、篩選、獲取有效內容,對相關(guān)信息內容進(jìn)行智能化編輯整理,并返回給用戶(hù);這樣,聊天機器人的服務(wù)將會(huì )更易用、更實(shí)用,能實(shí)現功能強大而實(shí)用的智能聊天、智能游戲、個(gè)性化的新聞定制、智能網(wǎng)絡(luò )搜索、智能電子商務(wù)等業(yè)務(wù),給用戶(hù)以極大的方便、無(wú)限的樂(lè )趣。

  智能搜索引擎。普通的搜索引擎引入中文自然語(yǔ)言理解和知識管理技術(shù),構造成新的智能搜索引擎,就能提供全新的信息查詢(xún)服務(wù),創(chuàng )造更綜合的增值服務(wù)。目前的搜索引擎由于只使用關(guān)鍵詞技術(shù),沒(méi)有引入自然語(yǔ)言理解,每次搜索時(shí)只是按照關(guān)鍵詞進(jìn)行匹配,返回的大量信息和鏈接,其中很大部分是垃圾信息或者不是用戶(hù)需要的信息,往往導致用戶(hù)無(wú)所適從。而門(mén)戶(hù)網(wǎng)站或者專(zhuān)業(yè)網(wǎng)站雖然對信息進(jìn)行很好的分類(lèi),但是首先要用戶(hù)記住網(wǎng)址,還要懂得分類(lèi)的標準,然后逐層點(diǎn)擊相應的分類(lèi)鏈接,才能獲得所需的信息。這樣的信息分類(lèi)查詢(xún)給信息服務(wù)商產(chǎn)生很大的工作量,服務(wù)成本和進(jìn)入門(mén)檻顯著(zhù)提高,而用戶(hù)使用起來(lái)也不方便,導致用戶(hù)的流失。基于內容的智能搜索引擎是依靠語(yǔ)義網(wǎng)絡(luò )、漢語(yǔ)分詞、句法分析、處理同義詞等語(yǔ)言理解技術(shù)最大程度地了解用戶(hù)的信息需求,獲得更高的易用性、更準確的范圍定位、更智能的搜索結果。

  運用了先進(jìn)的自然語(yǔ)言理解技術(shù),智能搜索引擎可以識別并回答用戶(hù)的問(wèn)題,使用戶(hù)擺脫了傳統搜索引擎基于關(guān)鍵字的束縛,指引用戶(hù)更有效、更快捷地尋找到所需的資料,同時(shí)為用戶(hù)提供相關(guān)的、有參考價(jià)值的其他內容。由于這些特點(diǎn),使得智能搜索技術(shù)能夠在互聯(lián)網(wǎng)信息檢索的各個(gè)方面得到廣泛的應有。它可以為大型綜合搜索引擎提供后臺支持,使之具有人性化、交互性的特點(diǎn)。它能夠方便地實(shí)現垂直搜索引擎的專(zhuān)業(yè)類(lèi)別內搜索;當然也可以為信息門(mén)戶(hù)網(wǎng)站提供方便快捷的站內信息搜索服務(wù)。

  智能搜索引擎除了在互聯(lián)網(wǎng)上使用外,也可以支持WAP協(xié)議而應用在手機上。其實(shí)用戶(hù)往往在逛街、旅游、交通等室外環(huán)境、移動(dòng)狀態(tài)時(shí)更需要隨時(shí)查詢(xún)信息。手機是很好的查詢(xún)工具,但是手機的屏幕小、內存少、帶寬窄,不適合接收和保存大量的信息,更不可能翻看數以百計、千計的信息。傳統的基于關(guān)鍵詞搜索或者分類(lèi)信息查詢(xún)模式都存在一定的缺陷,特別不適合在手機上使用;而基于自然語(yǔ)言理解技術(shù)的智能搜索引擎,就能很好地為手機用戶(hù)提供隨時(shí)、隨地、隨心的信息服務(wù)。

  舉一個(gè)典型的應用:精品購物指南報與得意音通公司合作提供的智能生活資訊信息服務(wù)系統,采用中文自然語(yǔ)言理解技術(shù),在吃喝玩樂(lè )、影視娛樂(lè )、消費購物、戶(hù)外運動(dòng)、美食餐飲、醫療保健等領(lǐng)域通過(guò)互聯(lián)網(wǎng)、短信、WAP等多種通訊手段,為商家和用戶(hù)提供更方便、直接的信息交流和互動(dòng)手段,成為在北京生活、工作、學(xué)習和旅游的廣大消費者重要的信息查詢(xún)工具。

三、未來(lái)應用展望

  用戶(hù)們呼喚自然語(yǔ)言,因為它是人機交互的最高境界,是人機交互最自然的方式。有理由相信,在不遠的將來(lái),任何人、在任何時(shí)刻、在任何場(chǎng)所、在任何設備上,都可以通過(guò)自然語(yǔ)言方便瀏覽網(wǎng)頁(yè)、互相傳遞信息,實(shí)現隨時(shí)隨地溝通交流的目標。

  不久的將來(lái),我們可能會(huì )經(jīng)常遇到這樣的應用場(chǎng)景。一個(gè)人到一個(gè)新的城市,如北京,他想盡快了解有關(guān)北京的生活服務(wù)信息,就可以用手機或者電話(huà)打到一個(gè)提供智能信息服務(wù)的系統。他可以直接用口語(yǔ)去問(wèn)一個(gè)擁有海量信息的服務(wù)器:北京有哪些好玩的地方,哪些地方能夠提供很好的餐飲服務(wù),哪些地方可以購物,那些地方可以享受文化娛樂(lè );還可以與系統進(jìn)行人機對話(huà),輕松地買(mǎi)機票、訂房間等等。他通過(guò)自然語(yǔ)言與智能信息服務(wù)系統進(jìn)行人機交互,就能享受周到的服務(wù)。在這樣的例子中,需要用到很多的技術(shù)和服務(wù),其中最關(guān)鍵的就是交談式語(yǔ)音識別和理解系統。

  北京2008年奧運的舉辦,將是自然語(yǔ)言理解技術(shù)迅猛發(fā)展的大好契機,北京奧運會(huì )同時(shí)也將是智能信息服務(wù)的巨大舞臺。奧運會(huì )最大困難之一是"語(yǔ)言障礙"。國內外產(chǎn)業(yè)界緊密合作,要利用現代信息技術(shù),特別是自然語(yǔ)言理解的最新科學(xué)技術(shù)成就,研制"面向奧運的多語(yǔ)言智能信息服務(wù)網(wǎng)絡(luò )系統",力爭在2008年北京奧運會(huì )期間為各國運動(dòng)員、記者、觀(guān)眾和來(lái)自全世界數以百萬(wàn)計的旅游者提供綜合、全面、多語(yǔ)種、可定制的信息服務(wù),以實(shí)現申奧報告提出的"任何人、在任何時(shí)間、任何場(chǎng)所都能夠安全、方便、快捷、高效地獲取可支付得起的、豐富的、無(wú)語(yǔ)言障礙的、個(gè)性化的信息服務(wù)"的承諾。

  北京奧運的多語(yǔ)言信息服務(wù)將包括多語(yǔ)言信息同步發(fā)布、信息查詢(xún)和語(yǔ)音交互式的電子商務(wù),并重點(diǎn)提供基于位置的信息服務(wù)。另外還提供人際交流的輔助工具,如口語(yǔ)翻譯機和自動(dòng)翻譯電話(huà)。系統將在賽事安排、比賽成績(jì)等奧運相關(guān)信息查詢(xún),住宿、天氣、交通、旅游、餐飲、娛樂(lè )和購物等公共服務(wù)信息查詢(xún),比賽、演出門(mén)票、機票、火車(chē)票訂購,以及社交活動(dòng)等場(chǎng)合提供充滿(mǎn)人性化的多語(yǔ)言智能信息服務(wù),相當于建立了一支虛擬志愿者信息服務(wù)大軍。智能信息服務(wù)網(wǎng)絡(luò )系統不僅將成為北京奧運會(huì )的閃光點(diǎn),有關(guān)成果也必將應用和推廣到國內以及世界不同的地區和領(lǐng)域,從而推動(dòng)信息服務(wù)、IT產(chǎn)業(yè)以及相關(guān)領(lǐng)域的發(fā)展,形成新的經(jīng)濟增長(cháng)點(diǎn)。

  和人類(lèi)進(jìn)步過(guò)程中其他任何一種技術(shù)的發(fā)展歷程一樣,自然語(yǔ)言理解技術(shù)在任何一個(gè)不同的成熟階段都有一個(gè)不同的應用形式和不同的市場(chǎng)定位。在這種技術(shù)到市場(chǎng)再到技術(shù)的螺旋式上升的過(guò)程中,技術(shù)越來(lái)越成熟,市場(chǎng)也越來(lái)越成熟,從而讓技術(shù)更好地為人類(lèi)服務(wù)。自然語(yǔ)言理解技術(shù)給智能信息服務(wù)提供了威力巨大的核動(dòng)力,智能信息服務(wù)給人類(lèi)更自然、自主的信息交流手段,將創(chuàng )造出全新的產(chǎn)業(yè)空間。人們渴望發(fā)展自然語(yǔ)言理解技術(shù)以加速信息、知識與文化的交流,促進(jìn)社會(huì )、經(jīng)濟、科學(xué)的進(jìn)步,這是自然語(yǔ)言理解技術(shù)新的強大的推動(dòng)力量,也是每一個(gè)國家都面臨的新的挑戰。

得意音通公司供稿 CTI論壇編輯



相關(guān)鏈接:
得意珠三角綜合智能信息增值平臺項目中標 2009-08-20
北京軟件產(chǎn)品質(zhì)量檢測檢驗中心對《海量語(yǔ)音文件的目標說(shuō)話(huà)人篩選系統》進(jìn)行測試 2009-06-25
廣東政府和清華大學(xué)舉行了全面開(kāi)展產(chǎn)學(xué)研合作協(xié)議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開(kāi)源for Windows Mobile5.0 2009-01-23
得意聲紋識別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類(lèi)信息:  移動(dòng)增值_與_語(yǔ)音合成TTS     熱點(diǎn)專(zhuān)題_移動(dòng)增值_新聞   文摘   技術(shù)_語(yǔ)音合成_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 海伦市| 昭觉县| 阿拉善左旗| 太仓市| 娄底市| 偃师市| 盐城市| 津南区| 古丈县| 滦平县| 新乡市| 勐海县| 北安市| 山东省| 柞水县| 平湖市| 遂宁市| 曲麻莱县| 云和县| 湘乡市| 延长县| 盐边县| 临夏市| 贺兰县| 雷波县| 襄樊市| 岳西县| 广西| 岗巴县| 兴仁县| 桐柏县| 和龙市| 镇坪县| 铜鼓县| 磴口县| 镇雄县| 神农架林区| 阿拉善盟| 平利县| 汾西县| 广水市| http://444 http://444 http://444 http://444 http://444 http://444