TRS電信行業(yè)114企業(yè)搜索引擎解決方案
2007/03/22
1.概述
1.1方案背景
2006年,隨著(zhù)中國互聯(lián)網(wǎng)搜索市場(chǎng)的迅猛發(fā)展,百度、Google、雅虎、搜狐搜狗、新浪愛(ài)問(wèn)、中國搜索等國內外搜索引擎在中國市場(chǎng)展開(kāi)了空前激烈的競爭。在搜索市場(chǎng)的巨大市場(chǎng)價(jià)值的吸引下,國內電信運營(yíng)商紛紛推出向綜合信息服務(wù)提供商轉型的戰略舉措,加入爭奪搜索市場(chǎng)份額的行列。
2006年6月,中國電信全面升級114查號業(yè)務(wù),推出了全新的號碼百事通業(yè)務(wù),為將近8億的電話(huà)用戶(hù)提供方便、快捷的綜合信息服務(wù)。號碼百事通立足于百姓的衣、食、住、用、行、樂(lè ),著(zhù)眼于生活的便利、便捷,致力于為公眾提供綜合信息服務(wù)。在中國電信瞄準這一巨大的潛力市場(chǎng)的同時(shí),國內另一固網(wǎng)運營(yíng)巨頭中國網(wǎng)通,也開(kāi)始在其北方10省推廣類(lèi)似的電話(huà)搜索引擎服務(wù)。重量級的電信運營(yíng)商加入搜索引擎市場(chǎng)的爭奪,預示著(zhù)2007年搜索市場(chǎng)將產(chǎn)生風(fēng)起云涌的變化。
目前用戶(hù)對互聯(lián)網(wǎng)服務(wù)的使用、獲取方式的變化以及服務(wù)商為此進(jìn)行的技術(shù)創(chuàng )新,是搜索形態(tài)變遷的關(guān)鍵,也是不同搜索服務(wù)商競爭的核心。作為互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展最重要的方向之一,以Google、百度為代表的第二代搜索服務(wù)實(shí)際上與互聯(lián)網(wǎng)服務(wù)整體發(fā)展的第二個(gè)階段是相互對應的。第一階段是網(wǎng)站呈現,目錄分類(lèi);第二階段是內容交互,網(wǎng)絡(luò )搜索;第三階段是任意聚合,個(gè)性搜索;第四階段是自由交互,智能發(fā)布與搜索。第三代互聯(lián)網(wǎng)搜索引擎將在個(gè)性化、語(yǔ)義智能分析、搜索結果優(yōu)化等方面取得明顯進(jìn)步。
雖然電信運營(yíng)商推出搜索引擎有其本身的品牌和資源優(yōu)勢, 但是常規的互聯(lián)網(wǎng)搜索模式已經(jīng)被成熟的搜索引擎深度挖掘,百度、google等搜索巨頭長(cháng)期積累的競爭優(yōu)勢卻不是短時(shí)間就能趕超。那么電信運營(yíng)商的新搜索引擎如何才能立足搜索市場(chǎng)并在局部勝出呢?其關(guān)鍵在于深入整合挖掘電信運營(yíng)商的企業(yè)內部網(wǎng)絡(luò )資源和信息資源優(yōu)勢,側重于特定關(guān)鍵領(lǐng)域提供特色搜索服務(wù),為用戶(hù)提供真正有價(jià)值的信息。
對于中國電信和中國網(wǎng)通而言,114巨大的品牌資源、龐大的用戶(hù)群、廣泛的知名度是電信運營(yíng)商實(shí)現信息服務(wù)平臺的最佳載體。通過(guò)114平臺的發(fā)展,刻意逐步將基于語(yǔ)音的增值服務(wù)嫁接到統一的平臺上來(lái),并為客戶(hù)提供提供衣、食、住、用、行、樂(lè )等方面便利快捷的綜合信息。目前,中國電信的號碼百事通業(yè)務(wù)和中國網(wǎng)通的114電話(huà)導航業(yè)務(wù),在國內各省區陸續展開(kāi)。而作為該業(yè)務(wù)核心的114企業(yè)搜索引擎更是2007年各省市電信公司建設的重中之重。
北京拓爾思(TRS)信息技術(shù)有限公司是國內企業(yè)搜索引擎和內容管理軟件的領(lǐng)導廠(chǎng)商, 公司在企業(yè)搜索引擎領(lǐng)域占據著(zhù)國內企業(yè)級搜索引擎市場(chǎng)的70%。TRS公司結合電信企業(yè)建設114搜索引擎的需求,應用多年來(lái)自主開(kāi)發(fā)的TRS
Database Server作為企業(yè)搜索引擎服務(wù)的平臺,配套TRS文本挖掘基礎件、TRS網(wǎng)絡(luò )信息雷達和數據內容分發(fā)服務(wù)模塊,向電信行業(yè)推出智能、安全、跨平臺、個(gè)性化的電信行業(yè)114企業(yè)搜索引擎解決方案。此方案已經(jīng)在中國電信全國中心114企業(yè)搜索引擎項目和上海電信號碼百事通搜索引擎項目中獲得了成功應用。
1.2 企業(yè)搜索引擎與互聯(lián)網(wǎng)搜索引擎的區別
搜索引擎的出現,整合了互聯(lián)網(wǎng)上眾多的網(wǎng)頁(yè)資源,并提供信息導航和信息查詢(xún)服務(wù),使信息的價(jià)值得到了網(wǎng)民和廠(chǎng)商的普遍認可。一提到搜索引擎,就自然聯(lián)想到互聯(lián)網(wǎng)搜索引擎,再加上一些廠(chǎng)商刻意的推波助瀾,造成了互聯(lián)網(wǎng)搜索引擎取代所有搜索引擎的概念。而實(shí)際上我們可以看到不同搜索引擎之間的差別很大。
TRS電信114搜索引擎是以TRS的企業(yè)級搜索引擎為基礎的。TRS所說(shuō)的企業(yè)搜索引擎(Enterprise Search Engine,簡(jiǎn)稱(chēng)ESE)中的企業(yè)并非指單純的企業(yè),政府、教育、科研、媒體、醫療、軍隊、安全部門(mén)都有類(lèi)似的應用需求,這里的“企業(yè)”可以理解為“企業(yè)級”,即企業(yè)級搜索引擎。那么,對于企業(yè)級搜索,我們對“搜索”的訴求又是什么呢?和互聯(lián)網(wǎng)搜索引擎相比,它又有哪些不同呢?
實(shí)際上,搜索引擎服務(wù)是內容管理技術(shù)的一個(gè)典型應用。我們不妨從內容管理的框架來(lái)看搜索引擎的各個(gè)環(huán)節,即從信息內容的采集,加工,管理,到服務(wù),以至到信息內容的“發(fā)現”來(lái)比對一下企業(yè)級搜索引擎的不同。
*SEO:搜索引擎優(yōu)化,利用工具或其他手法奪取較好的網(wǎng)絡(luò )排名。
1、復雜結構數據的搜索
互聯(lián)網(wǎng)上搜索的數據一般都是網(wǎng)頁(yè)形式的,盡管這幾年網(wǎng)上豐富起來(lái)的圖片、MP3等信息形式,但其組織形式仍是基于HTML組成的網(wǎng)頁(yè)。而企業(yè)級用戶(hù)需要搜索的數據既有互聯(lián)網(wǎng)站上的,也有內部網(wǎng)站上的;既有網(wǎng)頁(yè)形式的,又有各種數據庫形式的,如SQL
Server、Oracle數據庫等;既有結構化數據,又更多的是各種電子文件格式的非結構化及半結構化數據,如Word、Excel、Lotus
Notes、PDF、XML等;既有文本形式的數據,又有多媒體形式的數據;而且,同一機構的數據還可能分布在不同介質(zhì)的載體上。
然而,不管數據的形式、來(lái)源、位置、平臺如何不同,企業(yè)用戶(hù)總是希望內外數據能無(wú)縫結合,用一個(gè)搜索工具和統一的界面,發(fā)出幾個(gè)簡(jiǎn)單的檢索請求就能對所有資源進(jìn)行檢索,并很快就能有滿(mǎn)意的結果。
并且,互聯(lián)網(wǎng)搜索內容對于用戶(hù)來(lái)說(shuō)都是未知的,而企業(yè)級搜索的對象基本上是已知信息源,其中包括企業(yè)資料庫、目錄、幫助文本、源代碼信息庫、新聞組等,在對這些信息進(jìn)行索引時(shí),用戶(hù)需要按照內容而不是通過(guò)比較源鏈接來(lái)進(jìn)行排列。
2、嚴格的安全搜索
在企業(yè)內部,安全的問(wèn)題是無(wú)法回避的。因為企業(yè)內部的信息不象“人人平等”的互聯(lián)網(wǎng)信息,其信息內容帶有明顯的“等級”安全特性。所以,當搜索技術(shù)變得無(wú)所不能,人們反而開(kāi)始擔心,如果搜索的結果泄漏了企業(yè)的機密怎么辦?如果企業(yè)原有的安全架構對新的搜索技術(shù)失效了怎么辦?這些疑問(wèn)都讓用戶(hù)感到如鯁在喉,岌岌小心。
很多業(yè)內人士在談到搜索安全的話(huà)題就憂(yōu)心忡忡,他們普遍認為搜索環(huán)境并沒(méi)有為企業(yè)級應用做好足夠的準備,未來(lái)充滿(mǎn)太多的變數。而在一些實(shí)際的應用中,我們看到,即便為數據定義了文檔級和數據庫級的雙重安全保障,搜索引擎的"魔爪"還能透過(guò)授權的索引文檔來(lái)"搜索"它們。
因此,針對企業(yè)網(wǎng)中不同的用戶(hù)對不同的資源,其使用權限都可能不一樣,需要企業(yè)搜索引擎能夠對用戶(hù)、資源、權限分級管理和控制,確保系統的安全。
3、高可靠的查全和查準
作為專(zhuān)業(yè)用戶(hù),企業(yè)用戶(hù)需要查找的信息專(zhuān)業(yè)性強、概念復雜,而對查詢(xún)的查全率和查準率有著(zhù)非常高的要求。因此,需要利用各種手段來(lái)提高搜索引擎的查準率和查全率。
從查全率來(lái)看,互聯(lián)網(wǎng)搜索引擎無(wú)從談起查全率,因為互聯(lián)網(wǎng)上的信息如此泛濫無(wú)邊,任何一個(gè)搜索引擎服務(wù)商都無(wú)法窮盡互聯(lián)網(wǎng)上的每個(gè)網(wǎng)頁(yè)。而在企業(yè)級的某些應用中,是不允許有所遺漏的檢索。必須對企業(yè)內部每個(gè)需要提供服務(wù)的信息進(jìn)行索引。在檢索機制上必須保障效率的前提下達到全面搜索的要求。
同樣的道理,在互聯(lián)網(wǎng)上因為信息自由的特點(diǎn),決定了搜索只能通過(guò)“關(guān)鍵詞匹配”這種核心檢索手段去實(shí)現。而在企業(yè)內部,信息的組織復雜了許多。企業(yè)級搜索引擎有完善的信息分類(lèi)體系,元數據,對象數據多層邏輯的組織形式,在查詢(xún)上滿(mǎn)足基于對象數據內容和元數據標引體系的精確查詢(xún)要求。
4、智能化的檢索服務(wù)
企業(yè)內部的搜索服務(wù),帶有鮮明的業(yè)務(wù)特性,不像互聯(lián)網(wǎng)搜索引擎僅提供信息參考。在企業(yè)內部的搜索結果將直接參與到企業(yè)的運營(yíng)、決策中。所以,對于搜索的結果處理,搜索過(guò)程中采用相關(guān)智能技術(shù)以達到迅速、準確、全面定位目標信息非常重要。例如采用相關(guān)度分析技術(shù),使相關(guān)度較高的結果排在結果列表的前面,相關(guān)度較低的結果排在后面,并屏蔽無(wú)用和錯誤的信息;構造強大的語(yǔ)義規則庫,使系統能夠正確地判斷與檢索詞相關(guān)的同義詞、近似詞、上位詞、下位詞,幫助用戶(hù)判斷結果的相關(guān)度,并進(jìn)行進(jìn)一步的查詢(xún);支持完善的信息分類(lèi)體系,對檢索結果自動(dòng)分類(lèi)或者信息聚類(lèi);提供智能化的概念擴展查詢(xún)等,都將有利于企業(yè)對信息資源的高效利用。
5、企業(yè)搜索引擎通常都和企業(yè)其他的IT應用有機結合
以?xún)热莨芾砑夹g(shù)為框架,搜索技術(shù)為支撐,企業(yè)搜索引擎通常與數據管理、內容管理、記錄管理、競爭情報、團隊協(xié)同、過(guò)程管理、信息門(mén)戶(hù)等知識管理的各個(gè)環(huán)節密切結合,構成管理企業(yè)知識資產(chǎn)的完整而又靈活的體系。知識內容管理對搜索引擎技術(shù)提出了更高的要求,而先進(jìn)的搜索引擎技術(shù)則為知識內容管理提供了工具和保障。在市場(chǎng)上我們也可以看到,國內外企業(yè)級搜索引擎廠(chǎng)商,有許多也是知識內容管理解決方案的提供商。
6、實(shí)時(shí)的信息搜索服務(wù)
正如前所敘,企業(yè)內部的搜索服務(wù),具備業(yè)務(wù)特性,需要將搜索結果參與企業(yè)的運營(yíng)和決策。所以通過(guò)搜索引擎提供的服務(wù),必須能夠動(dòng)態(tài)地反應實(shí)際情況,即當內部的信息發(fā)生變化時(shí),必須能夠實(shí)時(shí)反應。在企業(yè),不允許出現像互聯(lián)網(wǎng)搜索引擎服務(wù)那樣信息滯后更新的現象。
1.3 電信114企業(yè)搜索引擎建設需求分析
2007年,要想在搜索市場(chǎng)占領(lǐng)先機,就需要使電信114企業(yè)搜索引擎具備差異化的競爭優(yōu)勢。如何培養用戶(hù)使用習慣?如何聚集商業(yè)客戶(hù)合作伙伴?如何實(shí)現平臺搜索技術(shù)的改造升級?這些成為是電信公司建設114搜索引擎需要面對和解決的問(wèn)題。目前各省市基本都建設了號碼百事通和114電話(huà)導航的平臺。
從客戶(hù)需求角度分析,114搜索引擎用戶(hù)存在前向查詢(xún)客戶(hù)和后向被查詢(xún)客戶(hù)兩種角色,這兩種客戶(hù)對于號碼百事通業(yè)務(wù)有著(zhù)不同的需求和價(jià)值:
從前向查詢(xún)客戶(hù)角度分析:
首先,前向查詢(xún)客戶(hù)撥打114是要獲得能夠解決衣食住行各類(lèi)生活問(wèn)題的相關(guān)線(xiàn)索,具體而言,就是提供各類(lèi)服務(wù)組織的電話(huà)號碼。
其次,用戶(hù)獲得信息線(xiàn)索后需要進(jìn)行一定的選擇比較,即客戶(hù)為了最終解決某個(gè)問(wèn)題或完成某件事情,需要把獲得的信息、線(xiàn)索進(jìn)行比較分析,找到最佳路徑。
再次,進(jìn)行訂單交易,即客戶(hù)通過(guò)比較選擇后,確定了對象,有直接轉接或者預訂的需求。在現代的信息社會(huì )里,“預先確定”已經(jīng)成為人們享受某項服務(wù)之前的必要環(huán)節。
最后,完成服務(wù),即客戶(hù)實(shí)現最終消費、解決問(wèn)題或者完成服務(wù)的過(guò)程。在這個(gè)環(huán)節中,客戶(hù)可能會(huì )用到電子支付,也會(huì )有服務(wù)質(zhì)量反饋等后續事務(wù)。
由此可見(jiàn),前向客戶(hù)需求鏈的存在,為114搜索引擎業(yè)務(wù)提供了良好的發(fā)展空間。正是為了滿(mǎn)足前向客戶(hù)需求、最大限度地為客戶(hù)提供“一站式”便捷服務(wù),號碼百事通需要建立豐富的本地生活類(lèi)信息數據庫,為前向客戶(hù)提供查詢(xún)轉接、短信播報等業(yè)務(wù),從而獲得廣闊的號碼信息增值服務(wù)新市場(chǎng)。
從后向被查詢(xún)客戶(hù)需求角度分析:
與前向查詢(xún)客戶(hù)的需求環(huán)節相對應,根據需求層次不同,后向被查詢(xún)客戶(hù)的需求分為三類(lèi):
第一類(lèi),后向客戶(hù)需要將114平臺作為信息發(fā)布的媒介。中國電信114有著(zhù)廣泛的客戶(hù)群體,像使用電視、報刊、互聯(lián)網(wǎng)這些主流媒體一樣,政企客戶(hù)需要盡可能地在114這一語(yǔ)音媒體上發(fā)布更多的信息。中國電信114能夠以其誠信、高品質(zhì)的品牌形象,為政企客戶(hù)提供廣傳播、可信賴(lài)的語(yǔ)音信息發(fā)布平臺,能夠讓更多的客戶(hù)了解后向客戶(hù)的服務(wù)能力和企業(yè)形象。
第二類(lèi),后向客戶(hù)需要114成為企業(yè)的一個(gè)營(yíng)銷(xiāo)渠道。高品質(zhì)企業(yè)客戶(hù)看重中國電信良好的品牌形象和114“一對一”信息傳遞的特性,希望114能夠成為其強有力的營(yíng)銷(xiāo)渠道。傳統的企業(yè)營(yíng)銷(xiāo)采用公共媒體廣泛行銷(xiāo),近來(lái)越來(lái)越多的企業(yè)開(kāi)始注重精準信息的分眾傳遞,即根據目標客戶(hù)群的年齡、職業(yè)、地域特征,選擇信息投放范圍和信息投放方式,以期把營(yíng)銷(xiāo)做得快速、準確、有力度。例如,“分眾傳媒”瞄準中國高中端商務(wù)人士做專(zhuān)業(yè)樓宇廣告聯(lián)播,在納斯達克成功上市;
第三類(lèi),后向客戶(hù)需要114成為其業(yè)務(wù)交易平臺。企業(yè)使用114進(jìn)行宣傳、營(yíng)銷(xiāo)之后,需要進(jìn)一步延伸服務(wù),盡可能地促成交易。信用卡、電子支付的盛行,為電話(huà)支付、在線(xiàn)交易(bizon-line)提供了堅實(shí)的基礎,114延伸為業(yè)務(wù)交易平臺,可以更大程度地為前后向客戶(hù)提供服務(wù)。
可見(jiàn),后向客戶(hù)的需求同樣為號碼百事通業(yè)務(wù)提供了廣闊的發(fā)展空間,號碼百事通誠信、便捷、廣泛服務(wù)的品牌形象,能夠為優(yōu)質(zhì)政企客戶(hù)提供良好的宣傳、營(yíng)銷(xiāo)和交易平臺。
業(yè)務(wù)的豐富也對114企業(yè)搜索引擎提出了更高的建設要求。大致需求有以下幾點(diǎn):
1.對業(yè)務(wù)應用所需的企業(yè)信息庫急需快速補充、整理和完善,才能為前端查詢(xún)用戶(hù)提供有價(jià)值的信息服務(wù)
在業(yè)務(wù)應用方面,114企業(yè)搜索引擎的業(yè)務(wù)應用主要包括優(yōu)先報號、實(shí)名查詢(xún)、品牌查詢(xún)、臨時(shí)報號、查詢(xún)轉接、短信報號、話(huà)務(wù)呼轉、企業(yè)名片、企業(yè)廣告、指路服務(wù)、個(gè)人號簿、企業(yè)總機、簽約客戶(hù)分析、注冊客戶(hù)分析等14大類(lèi)。
這些業(yè)務(wù)應用推廣的關(guān)鍵是必須保證數據庫中的信息必須準確、有效、及時(shí)。目前從全國范圍看,各省電信公司的企業(yè)信息庫還需快速補充和完善,以應對日益增長(cháng)的外部電話(huà)和網(wǎng)絡(luò )搜索的需求。
2.對于龐大的信息資源庫和數據庫內的信息要進(jìn)行特定領(lǐng)域的挖掘和搜索
由于基于114轉型的電話(huà)搜索業(yè)務(wù),主要是向前端用戶(hù)提供準確、及時(shí)、深入的衣、食、住、行、樂(lè )等相關(guān)的綜合信息服務(wù)。因此針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù),才能真正獲得目標用戶(hù)的青睞。所以需要建立需要具有特色垂直搜索功能的114企業(yè)搜索引擎。
3.跨地域、跨業(yè)務(wù)、跨平臺的信息共享不到位,無(wú)法發(fā)揮規模效應
全國各省市的電信公司分布區域大,業(yè)務(wù)應用眾多,公司內部存在各種數據庫和信息平臺。企業(yè)內部的數據和信息沒(méi)有進(jìn)行很有的共享和利用,所以無(wú)法發(fā)揮全國電信公司的規模效應;114企業(yè)搜索引擎應實(shí)現對各省本地和跨區域的信息查詢(xún),并支持對互聯(lián)網(wǎng)信息的查詢(xún)。
3.平臺需要聚集并支持大規模的商業(yè)合作伙伴運營(yíng),后臺商務(wù)信息的互動(dòng)發(fā)布,競價(jià)排名。
電信行業(yè)114企業(yè)搜索引擎,不僅需要滿(mǎn)足前向查詢(xún)用戶(hù)查詢(xún)需求,而且為后向被查詢(xún)企業(yè)客戶(hù)創(chuàng )造了優(yōu)先接觸目標消費者和發(fā)布商務(wù)廣告的機會(huì )。
4.各省電信公司都需要開(kāi)發(fā)自己的特色業(yè)務(wù),因此要求平臺具有良好的擴展性。
為了解決上述問(wèn)題,需要各地電信114企業(yè)數據信息庫的數據模型統一并且進(jìn)行升級改造,建設全國統一搜索引擎以實(shí)現全國114信息的共享和全國跨地域信息查詢(xún)。
1.3 電信114企業(yè)搜索引擎建設目標
114企業(yè)搜索引擎的建設將會(huì )延伸114的功能,豐富114的信息服務(wù)內容和形式,力爭把114做成語(yǔ)音搜索領(lǐng)域的Google。
電信企業(yè)建設114搜索引擎建設工程將實(shí)現以下目標:
- 幫助電信公司建設全國統一114企業(yè)搜索引擎,實(shí)現跨省查詢(xún)業(yè)務(wù),并為沒(méi)有建設搜索引擎的省份提供省內114企業(yè)搜索引擎。
- 支持對各省市電信公司114業(yè)務(wù)應用相關(guān)內部數據庫和信息資源庫進(jìn)行補充完善,并進(jìn)行個(gè)性化服務(wù)的信息挖掘和整合。系統支撐大規模用戶(hù)跨地域和跨平臺搜索。
- 114企業(yè)搜索引擎具備開(kāi)發(fā)特定領(lǐng)域垂直搜索的能力,各地電信公司可以在此平臺上進(jìn)行二次開(kāi)發(fā)。
- 聚集商業(yè)客戶(hù)及合作伙伴,滿(mǎn)足企業(yè)客戶(hù)競價(jià)排名、信息發(fā)布、商機獲取、資源共享等的雙向需求。
2.TRS電信114企業(yè)搜索引擎解決方案架構.
TRS公司作為國內企業(yè)級搜索引擎和內管理領(lǐng)域的領(lǐng)導軟件廠(chǎng)商,一直在該領(lǐng)域擁有先進(jìn)的理念、成熟的產(chǎn)品和先進(jìn)的信息檢索、內容管理和文本挖掘技術(shù)。TRS電信114企業(yè)搜索引擎2006年在中國電信號碼百事通全國中心搜索引擎項目,和上海電信號碼百事通搜索引擎的基礎上得到了成功的應用,積累了豐富的行業(yè)實(shí)踐經(jīng)驗。這些項目實(shí)踐對全國各地電信企業(yè)建立或升級114企業(yè)搜索引擎也具有良好的示范意義。
TRS公司結合電信行業(yè)114業(yè)務(wù)應用需求,依托自身企業(yè)搜索引擎產(chǎn)品和中文信息處理技術(shù),推出的的電信114企業(yè)搜索引擎解決方案,能夠全面整合索引搜索電信114業(yè)務(wù)應用的信息內容,并向用戶(hù)提供高效的、準確的、安全的、個(gè)性化的搜索體驗。其框架圖如下:
從圖中可以看到,TRS電信114企業(yè)搜索引擎采用TRS高性能的TRS Database Server 6.0集群構作為索引和搜索基礎平臺;TRS數據庫網(wǎng)關(guān)作為跨平臺數據導入工具,整合索引電信企業(yè)組織內部各類(lèi)應用系統、數據庫、外購信息庫、自建信息庫等多種信息資源;TRS網(wǎng)絡(luò )信息雷達作為網(wǎng)絡(luò )信息采集工具,定向采集特定的網(wǎng)絡(luò )信息資源;TRS
CKM作為文本挖掘的工具,應用文本自動(dòng)分類(lèi)、自動(dòng)聚類(lèi)、信息過(guò)濾等中文處理技術(shù)對業(yè)務(wù)應用信息技術(shù)深度挖掘分析;TRS內容分發(fā)服務(wù)器作為內容服務(wù)模塊,實(shí)現內容的個(gè)性化搜索服務(wù)。并且整個(gè)架構擁有很強的擴展性,對用戶(hù)開(kāi)放開(kāi)發(fā)接口,電信企業(yè)可以自行開(kāi)發(fā)具有特色的搜索服務(wù)。
2.1 系統整合電信多種信息來(lái)源,支持內容實(shí)時(shí)增量索引
在電信企業(yè)內部,許多信息內容的創(chuàng )建和生產(chǎn)都分散在各個(gè)應用系統中,而這些應用系統的數據存儲基本上都是采用關(guān)系型數據庫或者NOTES系統中。這些外部信息資源可能包括企業(yè)CRM系統、10000號系統、帳務(wù)系統等應用系統,也可能包括查號數據庫、企業(yè)信息庫、用戶(hù)信息庫等業(yè)務(wù)應用數據庫,也可能包括外購資源、自建數據庫等其他信息源。
TRS公司推出的企業(yè)搜索引擎解決方案,利用TRS公司多年來(lái)自主開(kāi)發(fā)的TRS Database Server作為企業(yè)搜索引擎服務(wù)的平臺。可以將電信企業(yè)內外部多種格式、多種介質(zhì)形態(tài)、多種存儲方式的內容信息,以實(shí)時(shí)的方式將這些信息進(jìn)行索引。并且在索引的過(guò)程中力求能夠做到準確,并配合以相關(guān)智能語(yǔ)言技術(shù)做信息的去重、自動(dòng)標引等能力。其框架如圖:
TRS支持包括Oracle、SQL Server、DB2、Sybase和Mysql等業(yè)界主流關(guān)系數據庫系統,既可以實(shí)現數據庫數據一次性向TRS
Server的遷移,實(shí)現歷史數據的采集入庫到數據管理平臺;也可以實(shí)現增量動(dòng)態(tài)運行方式,無(wú)縫透明支持各種應用數據的數據庫采集。將應用中的數據實(shí)時(shí)地反映到114企業(yè)搜索引擎平臺服務(wù)器中(TRS
Database Server)。
2.2 集群架構支撐大規模部署應用,支持內容海量安全管理
在電信114企業(yè)搜索引擎應用中,海量信息的管理完全不同于互聯(lián)網(wǎng)搜索引擎。首先在信息總量上,因為114企業(yè)搜索引擎應用是分散在各個(gè)電信企業(yè)內部,并且每個(gè)地域、每個(gè)應用系統的數據量都是海量的。隨著(zhù)業(yè)務(wù)應用的增加,數據量將會(huì )成倍增長(cháng)。TRS電信114企業(yè)搜索引擎平臺服務(wù)器在系統架構上,應用集群技術(shù),支持分布式部署,實(shí)現在單臺或者數臺機器中實(shí)現電信企業(yè)內部海量數據的管理。從信息安全的角度,電信114企業(yè)搜索引擎服務(wù)保障業(yè)務(wù)信息是按秩序、按組織規則授權方式的搜索。而不象互聯(lián)網(wǎng)搜索引擎上的人人搜索。
TRS全文數據集群服務(wù)器,是架構在多個(gè)物理TRS全文數據庫服務(wù)器之上的分布式管理系統,它支持數據分布及負載均衡兩種方式,并支持兩種方式的組合運用,滿(mǎn)足用戶(hù)海量數據和高并發(fā)環(huán)境下的分布式檢索、檢索性能和可靠性要求。
“TRS全文數據庫服務(wù)器組”內的數據庫服務(wù)器之間負載均衡
組內的數據庫服務(wù)器由集群服務(wù)器統一調度,一個(gè)服務(wù)請求只發(fā)往組內的一個(gè)數據庫服務(wù)器,一個(gè)“TRS全文數據庫服務(wù)器組”至少包含一個(gè)數據庫服務(wù)器。
“TRS全文數據庫服務(wù)器組”之間實(shí)現分布式檢索
用戶(hù)一個(gè)檢索請求需要根據其所包含目標對象的分布情況,發(fā)往其中部分或全部的數據庫服務(wù)器組,TRS全文數據庫集群服務(wù)器對檢索結果集歸并處理后返回給用戶(hù)。
采用TRS全文數據庫系統V6的集群架構可實(shí)現以下目標:
- 海量數據隨需擴展和分布檢索
- 大規模用戶(hù)高并發(fā)條件下保證高性能
- 實(shí)現無(wú)單點(diǎn)故障的高可靠性應用
TRS企業(yè)搜索引擎平臺服務(wù)器(TRS Database Server)除了采用得到業(yè)界廣泛使用全文檢索的全部功能和性能,針對企業(yè)信息內容搜索引擎服務(wù)的管理和資源建設的新需求,發(fā)展了包括Native
XML, 集群,Unicode, 自然語(yǔ)言處理及智能檢索等眾多新功能,結合TRS領(lǐng)先的結構化和非結構化聯(lián)合查詢(xún)技術(shù),從而滿(mǎn)足了用戶(hù)對電信114搜索引擎的廣泛需求。更為重要的是,TRS電信114企業(yè)搜索引擎平臺服務(wù)器提供了多種安全機制的管理,涉及到系統安全和內容安全各個(gè)方面。為安全的搜索奠定堅實(shí)基礎。
- Native XML: 能夠為更精確的檢索提供存儲和檢索手段。
- 集群:滿(mǎn)足海量信息處理和負載均衡的苛刻需求。
- Unicode: 以中文為主,提供多語(yǔ)言支持,實(shí)現了國際化。
- 自然語(yǔ)言及智能檢索:實(shí)現更加人性化和達到更好的檢索效果。
- 異構:結構化和非結構化異構信息聯(lián)合查詢(xún)。
2.3應用垂直搜索實(shí)現內容挖掘分析利用,支持電信企業(yè)開(kāi)發(fā)特色搜索服務(wù)
搜索引擎的出現,整合了互聯(lián)網(wǎng)上眾多的網(wǎng)頁(yè)資源,并提供信息導航和信息查詢(xún)服務(wù),使信息的價(jià)值得到了網(wǎng)民和廠(chǎng)商的普遍認可。但是,搜索引擎的發(fā)展格局是多方面的,市場(chǎng)需求的多元化也導致了搜索引擎的行業(yè)化和細分化,從而“垂直搜索引擎”成為了搜索引擎發(fā)展的必然趨勢之一。
TRS認為:垂直搜索引擎是針對某一個(gè)行業(yè)或組織,滿(mǎn)足行業(yè)專(zhuān)業(yè)需求、或者組織某項業(yè)務(wù)需求的專(zhuān)業(yè)搜索引擎,是搜索引擎的細分和延伸,是對某類(lèi)網(wǎng)頁(yè)資源和結構化資源的深度整合,并為用戶(hù)提供符合專(zhuān)業(yè)用戶(hù)操作行為的信息服務(wù)方式。比如:用戶(hù)搜索廣州天河區的可帶寵物就餐的川菜館的電話(huà)、菜單價(jià)格、交通指路等這就是一種垂直搜索。
TRS作為國內垂直搜索引擎的領(lǐng)軍企業(yè),全面支持垂直搜索的相關(guān)技術(shù),并率先在國內進(jìn)行了垂直搜索引擎的實(shí)踐,為用戶(hù)成功實(shí)施了包括中央政府門(mén)戶(hù)網(wǎng)站政府搜索引擎、公安部搜索引擎、專(zhuān)利搜索引擎、企業(yè)經(jīng)濟情報預警搜索引擎等等成功案例。
在電信行業(yè)建設114企業(yè)搜索引擎的背景下,雖然TRS作為搜索引擎廠(chǎng)商提供了成熟的基于企業(yè)級搜索的搜索引擎產(chǎn)品,但是各地電信企業(yè)對信息內容進(jìn)行再組織、再開(kāi)發(fā),特別是應用智能的知識挖掘技術(shù)進(jìn)行內容的挖掘和分析,并根據業(yè)務(wù)需求開(kāi)發(fā)業(yè)務(wù)排序和展示,從而為用戶(hù)開(kāi)發(fā)特色搜索服務(wù)。如生活搜索、購物搜索、旅游搜索、票務(wù)搜索、教育搜索、行路搜索等等特色搜索服務(wù)。
2.4搜索高效、準確,向用戶(hù)提供智能個(gè)性搜索體驗
在搜索性能方面,TRS全文數據庫在普通PC服務(wù)器環(huán)境下,在千萬(wàn)級記錄的數據庫上,也能獲得亞秒級查詢(xún)速度。集群架構的TRS電信114搜索引擎可以根據不同用戶(hù)的規模,滿(mǎn)足大規模座席的查詢(xún)速度和并發(fā)數量的要求。
在要滿(mǎn)足高效搜索的同時(shí),TRS企業(yè)搜索引擎平臺服務(wù)器熔煉了TRS公司多年在中文智能處理方面的研究成果,并結合十多年來(lái)的企業(yè)及搜索引擎的應用經(jīng)驗。多種中文智能處理技術(shù)的應用,如智能分詞,字詞索引結合、主題詞表概念擴展等技術(shù)的應用,同時(shí)TRS搜索引擎內嵌中文自動(dòng)分詞系統,使得查全率和查準率都得到極大的保障。
在TRS電信114企業(yè)搜索引擎解決方案中。采用了模塊化的內容分發(fā)服務(wù)模塊。讓用戶(hù)可以方便地通過(guò)頁(yè)面設計模板封裝等方式來(lái)實(shí)現個(gè)性化的搜索提交,結果個(gè)性呈現。并且系統結合多種信息分發(fā)機制,將搜索、瀏覽、訂閱等功能有機集成。而對于信息發(fā)現和評估,系統也提供了很好的支持,并可以根據搜索的統計,來(lái)評估信息內容的使用情況及信息用戶(hù)的搜索習慣。電信企業(yè)也可以根據自己的需求,開(kāi)發(fā)符合本地用戶(hù)習慣的搜索頁(yè)面和結果排序頁(yè)面。
3.方案特點(diǎn)和優(yōu)勢
1、軟件產(chǎn)品成熟度高
TRS全文數據庫系統自80年代面向市場(chǎng)以來(lái),有近2000家企業(yè)級用戶(hù)的成功案例,特別是新華社多媒體數據庫、公安搜索引擎、中央政府門(mén)戶(hù)等高端項目的應用。
2、自主、領(lǐng)先的核心技術(shù)
TRS軟件產(chǎn)品完全基于自主、領(lǐng)先的核心技術(shù)開(kāi)發(fā),特別是本項目應用的全文檢索技術(shù)、網(wǎng)絡(luò )信息搜索技術(shù)、文本挖掘基礎件,從功能、性能和產(chǎn)品穩定性方面都有業(yè)界領(lǐng)先的實(shí)力。
3、強大的項目實(shí)施開(kāi)發(fā)力量
TRS公司總部在北京設有研發(fā)中心,軟件產(chǎn)品開(kāi)發(fā)人員約有130多人,在上海設有分公司和項目實(shí)施開(kāi)發(fā)人員,具有強大的項目實(shí)施開(kāi)發(fā)和服務(wù)力量。
4、完善的方案設計、內置的集群架構、良好的擴展能力
本方案根據項目需求,進(jìn)行了搜索引擎、網(wǎng)絡(luò )信息搜索、數據上載同步等各方面的完整設計,并以TRS自身技術(shù)實(shí)現了分布式負載均衡搜索引擎集群、和網(wǎng)絡(luò )信息搜索集群,具有分層集群架構和良好的擴展能力
5、廣泛的高端項目成功案例和良好市場(chǎng)形象
本項目采用TRS業(yè)內領(lǐng)先而成熟的搜索解決方案和產(chǎn)品搭建搜索引擎系統,其具備多方面的優(yōu)勢:
4.1“安全”的搜索引擎
TRS搜索引擎技術(shù)支持內容安全性控制,可以通過(guò)域、IP段、URL等廣域網(wǎng)范圍的控制,實(shí)現授權搜索采集,不亂采集。同時(shí),TRS對查詢(xún)內容進(jìn)行分級控制,特定的人只能搜索和查詢(xún)特定的內容。
在TRS搜索引擎技術(shù)中提供了信息智能過(guò)濾和禁用詞典設置,通過(guò)這些技術(shù),保障搜索引擎在提供便捷的搜索服務(wù)的同時(shí),也保證對不良信息搜索的過(guò)濾。
另一方面,TRS搜索引擎技術(shù)在安全模塊設計上提供了對PKI/PMI體系支持的開(kāi)放接口,在未來(lái),很容易將本系統整合到信息安全保障體系之中。
4.2更高的搜索準確性和智能性
TRS搜索引擎技術(shù)支持按詞索引、按字索引、按關(guān)鍵詞索引,字詞混合索引,適應不同應用環(huán)境的需求,同時(shí)TRS搜索引擎內嵌中文自動(dòng)分詞系統--檢索“北大”,檢索不出“東北大學(xué)”。
內嵌歧義處理實(shí)例規則庫,正確識別歧義片斷,提高分詞準確性分詞系統要達到一定的準確率,需要和人一樣不斷積累知識,也就是不斷積累分詞規則。TRS公司從80年代末就開(kāi)始積累分詞規則,
這些規則是需要從大量的語(yǔ)料中統計產(chǎn)生,如果語(yǔ)料的數量不夠則產(chǎn)生的規則往往帶有片面性,TRS積累了20~30GB的文本語(yǔ)料, 且這些語(yǔ)料能反應現中文語(yǔ)言的特點(diǎn)。如果一個(gè)語(yǔ)句切分時(shí)有歧義片段,有適合的規則則按規則切分歧義片段,提高查準率;
在查詢(xún)方面,TRS提供了基于詞典的智能擴展查詢(xún),可以按同義詞、主題詞等詞典進(jìn)行智能擴展查詢(xún),例如,在查詢(xún)“銳器”時(shí),系統將自動(dòng)將包括“匕首”“刀”內容的結果提供給用戶(hù)參考。
4.3個(gè)性化的搜索體驗
TRS搜索引擎內容分發(fā)服務(wù)模塊充分考慮了信息搜索過(guò)程中工作繁忙、對信息的時(shí)效性要求高等工作特點(diǎn)。提供了任務(wù)定制查詢(xún)、專(zhuān)欄預設查詢(xún)、個(gè)性化排序等功能。例如:使用者可以定制查詢(xún)任務(wù),比如“專(zhuān)項斗爭”、“專(zhuān)題文件”等單項任務(wù),又如可以定制查詢(xún)更新時(shí)間,查詢(xún)系統將根據定制的任務(wù),定期進(jìn)行相關(guān)信息查詢(xún),定期將查詢(xún)結果推送到用戶(hù)的工作界面,方便信息需求者。
另外,系統還提供了個(gè)人檢索歷史記錄、個(gè)性化界面設置等等功能,不同的使用者可以選擇適合自己的工作查詢(xún)界面,提升系統的易用性和靈活性。
4.4強大的異構資源整合搜索
TRS搜索引擎技術(shù)不但能搜索網(wǎng)頁(yè)內容,而且能搜索各種RDBMS, 文件系統等多種異構資源數據進(jìn)行整合搜索,為用戶(hù)提供更全面的信息搜索應用。在未來(lái),可以在當前搜索引擎系統上不斷擴展新的搜索應用。
4.5標準、開(kāi)放的系統,提供強大的系統擴展能力
標準、開(kāi)放是一個(gè)應用系統得以發(fā)展和壯大的基礎,通過(guò)標準開(kāi)放的模式,可以保證用戶(hù)更多地采用先進(jìn)的技術(shù)搭建個(gè)性化的應用。
隨著(zhù)技術(shù)的發(fā)展,各個(gè)軟件供應商越來(lái)越在某一領(lǐng)域具有專(zhuān)利或優(yōu)勢技術(shù),但是用戶(hù)的需求是全方位的,因此,最好的解決方案就是采用統一規范標準的接口進(jìn)行應用集成,這也是國際化軟件發(fā)展趨勢。
TRS公司設計的建設方案在很多方面為系統應用集成提供了保證,如支持系統三層體系結構,支持J2EE標準中間件,支持XML數據交換規范,提供底層數據庫的各種平臺的完善的開(kāi)發(fā)接口,提供模塊組件,支持二次開(kāi)發(fā),開(kāi)放底層數據存儲格式等等。
本系統在架構設計方面,不但滿(mǎn)足了現有的需要,而且為系統未來(lái)發(fā)展進(jìn)行了考慮。首先,數據層采用了TRS集群服務(wù)器,實(shí)現了TRS全文檢索數據庫的集群和負載均衡應用,在應用層實(shí)現了應用服務(wù)器的集群和負載均衡設計,在采集方面利用分布式采集和任務(wù)集中控制的模式可以進(jìn)行大規模采集應用,在未來(lái)可以通過(guò)增加硬件的方式,就能提供系統的處理能力。
另外,隨著(zhù)未來(lái)負載和訪(fǎng)問(wèn)量的增加,可以分步建立鏡像中心,滿(mǎn)足大規模應用需要。
4.6具有充分滿(mǎn)足需求的自主核心技術(shù)和產(chǎn)品.
TRS公司在本項目所涉及的眾多方面具有全方位的核心技術(shù)和產(chǎn)品,并且公司發(fā)展的戰略定位和本項目的需求完全吻合。
本方案涉及底層數據庫系統、中文知識挖掘、信息搜索等多種技術(shù),是一個(gè)大型和復雜的信息系統,TRS信息技術(shù)有限公司在信息檢索、內容管理和知識管理方面具有領(lǐng)先的產(chǎn)品和技術(shù)優(yōu)勢,致力于成為中文內容管理領(lǐng)域的領(lǐng)導者。TRS全文信息檢索系統已經(jīng)在超過(guò)1千家用戶(hù)的多個(gè)系統和應用中得到成功應用;TRS中文知識管理和自然語(yǔ)言處理方面的研究成果,是業(yè)界第一個(gè)實(shí)用化的相關(guān)產(chǎn)品,其中包括中文自動(dòng)分類(lèi)系統、自動(dòng)聚類(lèi)系統、網(wǎng)頁(yè)內容過(guò)濾、內容去重等。這些研究成果來(lái)源于公司相關(guān)的研究機構-中文信息處理研究中心-承擔的國家自然科學(xué)基金、國家863計劃等國家級研究項目。TRS公司致力于成為中國信息檢索和內容管理市場(chǎng)的技術(shù)和市場(chǎng)領(lǐng)導者,并且把行業(yè)化應用作為我們的既定戰略,因此在技術(shù)研發(fā)的持續投入上符合用戶(hù)對信息系統持續發(fā)展的需求。
4.7采用先進(jìn)的搜索引擎技術(shù).
近年來(lái)搜索引擎技術(shù)得到較大發(fā)展,為本系統的實(shí)現提供了技術(shù)手段。本系統所涉及的搜索引擎相關(guān)技術(shù)包括網(wǎng)頁(yè)自動(dòng)采集和更新、網(wǎng)頁(yè)自動(dòng)分析技術(shù)。
網(wǎng)頁(yè)自動(dòng)采集和更新
為保證本系統要求功能的順利實(shí)現,所采用的搜索引擎技術(shù)具備以下功能:
- 支持增量更新的策略,每次采集只采集上次更新后新生成的網(wǎng)頁(yè),而不是全部再采集一遍,從而保證信息更新的效率。增量更新策略是對信息采集非常重要的方法,也是網(wǎng)絡(luò )上搜索引擎普遍存在的缺點(diǎn)。
- 支持靈活的采集策略,包括可以指定采集的目錄和層次,以及使用檢索邏輯來(lái)定位內容,比如可以采用“自行車(chē)-比賽”這樣的檢索邏輯來(lái)控制抓取“有關(guān)自行車(chē),但并不是關(guān)于自行車(chē)比賽”的網(wǎng)頁(yè)。除了在采集模塊提供檢索邏輯定位內容的方式,我們還在發(fā)布模塊提供專(zhuān)題服務(wù)的方式實(shí)現同樣的功能,而且我們建議應采用以專(zhuān)題服務(wù)為主實(shí)現網(wǎng)頁(yè)內容定位。具體內容參見(jiàn)設計方案中的專(zhuān)題服務(wù)部分。
網(wǎng)頁(yè)自動(dòng)分析技術(shù)
采集到的網(wǎng)頁(yè),為了滿(mǎn)足本系統的應用,必須經(jīng)過(guò)以下加工處理:
- 正文內容提取:剔除廣告、導航信息、版權等無(wú)用信息,只保留正文內容以及必要的圖表;
- 格式自動(dòng)轉換:自動(dòng)將HTML格式轉換為T(mén)EXT文件,方便再加工;
- 屬性自動(dòng)標引:對有條件分析出標題、版次、日期、作者、欄目、分類(lèi)等屬性的網(wǎng)頁(yè),分析并標注這些屬性信息(元數據自動(dòng)提取);
- 屬性自動(dòng)提取:自動(dòng)搜索、記錄網(wǎng)頁(yè)中的單位名稱(chēng)、系統名稱(chēng)等標識網(wǎng)頁(yè)屬性的信息。
4.8基于內容的自動(dòng)分類(lèi)和聚類(lèi)技術(shù)
為了對采集到的大量網(wǎng)頁(yè)信息進(jìn)行標注分類(lèi),必須采用適當的機器自動(dòng)分類(lèi)方法,盡量減少需要人工參與的環(huán)節。但是,必要的人工干預能夠提供分類(lèi)的準確率。
在本方案系統應用設計中所提出的機檢分類(lèi)和自動(dòng)分類(lèi),分別代表了語(yǔ)義規則分類(lèi)方法和統計原理分類(lèi)方法兩種典型的分類(lèi)技術(shù),為了描述方便,我們分別稱(chēng)它們?yōu)榛谡Z(yǔ)義規則的自動(dòng)分類(lèi)和基于統計原理的自動(dòng)分類(lèi)。
·基于語(yǔ)義規則的自動(dòng)分類(lèi)(機檢分類(lèi))
基于語(yǔ)義規則的自動(dòng)分類(lèi)是利用人工定義的語(yǔ)義規則對信息進(jìn)行分類(lèi),人們通過(guò)維護一個(gè)規則表來(lái)控制分類(lèi)的效果。
優(yōu)點(diǎn):原理簡(jiǎn)單,容易實(shí)現,控制效果明顯。
缺點(diǎn):語(yǔ)義規則的制定和維護需要大量的人工參與,不能利用語(yǔ)料庫的知識資源;不能有效解決對多語(yǔ)言的支持,對多語(yǔ)言需要分別建立對應的規則表,工作量大;人工制定的語(yǔ)義規則不可能完全反映分類(lèi)的內在規律。
基于語(yǔ)義規則的自動(dòng)分類(lèi)方法比較適合通過(guò)簡(jiǎn)單的規則即可明確判定的分類(lèi),比如按地區分類(lèi),按事件分類(lèi)等。
·基于統計原理的自動(dòng)分類(lèi)(自動(dòng)分類(lèi))
基于統計原理的自動(dòng)分類(lèi)方法是建立在統計學(xué)習理論和機器學(xué)習方法之上的根據內容進(jìn)行自動(dòng)分類(lèi)的方法,其基本原理是利用概率統計學(xué)原理,采用機器在大量語(yǔ)料庫上自動(dòng)學(xué)習的方式,分析出各個(gè)分類(lèi)的內在特征,然后通過(guò)對比未知對象與各個(gè)分類(lèi)特征的相關(guān)程度來(lái)判定其類(lèi)別歸屬。
基于統計原理的計算方法在近年來(lái)得到普及的開(kāi)發(fā)和應用,并在諸如語(yǔ)音識別、漢字識別、拼音輸入法等領(lǐng)域的應用中表現出良好的實(shí)用價(jià)值,比基于規則推理、語(yǔ)義分析等語(yǔ)言學(xué)知識的方法表現出更強的靈活性和適應性。
優(yōu)點(diǎn):學(xué)習過(guò)程由機器自動(dòng)進(jìn)行,不需人工干預;人們對分類(lèi)質(zhì)量的控制轉換成提供語(yǔ)料庫的方式,更加符合信息管理員的工作特點(diǎn);在給定語(yǔ)料庫的前提下,機器對分類(lèi)特征的提取不會(huì )產(chǎn)生遺漏或誤差,計算結果穩定。
缺點(diǎn):基于統計原理的自動(dòng)分類(lèi)適合于對內容進(jìn)行自動(dòng)分類(lèi),而不適合地區、事件、來(lái)源等類(lèi)型的分類(lèi)。
在此系統設計、實(shí)現中,不但可以先按內容、地區、來(lái)源等多種方式快速標引網(wǎng)頁(yè),而且可以基于內容對采集信息進(jìn)行自動(dòng)、準確的分類(lèi),這兩種分類(lèi)方法有機結合為搜索引擎系統提供全面的、準確的、快速的、智能的分類(lèi)服務(wù)。
4.9基于內容的信息去重技術(shù)
在該項目中,采用了信息去重、相似性檢索技術(shù),主要應用在網(wǎng)頁(yè)的排重過(guò)程分析中。雖然簡(jiǎn)單的規則判斷提供了一種可選擇的方式,但合理的方案應是基于網(wǎng)頁(yè)內容本身的判斷,基于網(wǎng)頁(yè)內容的判斷應該是排重的主要手段。因此我們建議采用基于內容的、成熟的信息去重相似性檢索技術(shù)實(shí)現內容的排重判斷,在排重判斷的過(guò)程中,TRS公司設計、實(shí)現的系統將不但處理文字內容,而且要對文中的數字內容進(jìn)行判斷。
4.10優(yōu)異的全文檢索性能
TRS全文檢索系統在行業(yè)里具有領(lǐng)先的性能,是中文全文檢索的事實(shí)上的標準,眾多的全文檢索廠(chǎng)商都以TRS的性能指標作為自己軟件評測的標準和系統發(fā)展方向。
目前國內唯一的商用千萬(wàn)級數據庫——新華社多媒體數據庫就是采用TRS作為底層檢索平臺,目前,該系統已有將近16T數據量,檢索(包括簡(jiǎn)單檢索和復雜檢索)的平均響應時(shí)間是秒級。并且,TRS的檢索性能隨著(zhù)數據的增加不會(huì )呈線(xiàn)性下降,可以在一個(gè)非常廣的數據規模范圍內保證用戶(hù)的實(shí)際應用。
TRS全文數據庫系統V6的性能指標
單機環(huán)境下TRS 全文數據庫系統的性能指標:
集群負載均衡模式下TRS 全文數據庫系統的性能指標:
TRS 全文數據庫系統的性能圖示:
海量數據高并發(fā)環(huán)境下單機、集群訪(fǎng)問(wèn)性能對比圖示:
(排版時(shí),下面的圖可由上面的圖引導而來(lái),例如:在上圖下面兩根線(xiàn)的位置加一個(gè)箭頭)
由上圖我們可以看到,在海量數據高并發(fā)環(huán)境下,TRS全文數據庫服務(wù)器集群負載均衡模式可以成倍提高訪(fǎng)問(wèn)性能。
3.1.1.1索引性能
在技術(shù)規范書(shū)中提出了“系統(以2×3.0G CPU、2G內存、2×146G 15KRPM硬盤(pán)配置檔次的PC Server為標準)平均創(chuàng )建100萬(wàn)條記錄索引的時(shí)間<
1小時(shí);系統在創(chuàng )建索引時(shí)對主機的CPU和內存的占用率不得高于30%。;系統索引膨脹率小于2.5,最多不能超過(guò)3.0。”等索引方面技術(shù)和性能的要求。
根據TRS全文數據庫的測試數據,在Dell2850 2xCPU,4G內存,10000轉硬盤(pán),Redhat AS4.0測試環(huán)境下,數據加載和索引速度單機最高可達每小時(shí)3.5G。
1、索引創(chuàng )建時(shí)間
索引創(chuàng )建時(shí)間跟被創(chuàng )建索引的記錄數無(wú)關(guān),由記錄大小決定的,普通新聞稿記錄,100萬(wàn)條基本上是2GB左右,如果按詞索引,用時(shí)30分鐘,按字索引用時(shí)60分鐘,全冗余(字詞混和)用時(shí)120分鐘。據了解,114項目的數據記錄內容較少,100萬(wàn)條應該在1G以?xún)龋艋\統的按半數大小,索引耗時(shí)應該在1小時(shí)左右。
2、CPU和內存的占有
這個(gè)值沒(méi)有專(zhuān)門(mén)做過(guò)檢查,但創(chuàng )建索引主要是對磁盤(pán)的讀寫(xiě)繁忙,沒(méi)有過(guò)多的計算,所以CPU的占用應該不會(huì )多,至于內存,介于內存的讀寫(xiě)速度比硬盤(pán)快很多,所以會(huì )占用一定數量的內存緩存,考慮到100萬(wàn)條記錄的大小不會(huì )超過(guò)1G,所以影響也不會(huì )大
3、索引空間膨脹率
目前測試情況,按膨脹率最高的全冗余(字詞混和)模式創(chuàng )建索引,膨脹率接近3.0。
4.11成功的應用模式和豐富的應用經(jīng)驗
TRS 公司多年來(lái)服務(wù)于眾多的關(guān)鍵信息系統建設,在應用集成能力和服務(wù)能力上得到了用戶(hù)的認可。
如國務(wù)院新聞辦三網(wǎng)一庫的核心數據庫建設、國家計委縱向網(wǎng)、衛生部信息發(fā)布網(wǎng)站,國家統計局綜合網(wǎng)站信息服務(wù)系統,北京市勞動(dòng)和社會(huì )保障局網(wǎng)站、外交部新聞監控采集系統、新華社多媒體數據庫平臺、中央人民廣播電臺網(wǎng)站內容管理平臺、央視在線(xiàn)主持系統、人民日報資料庫、中糧、中國五礦等等,我們對資源庫建設、入庫、編輯、生成、展示等整個(gè)信息的生產(chǎn)和服務(wù)的應用需求有著(zhù)深刻的理解,這是領(lǐng)先其他公司的顯著(zhù)優(yōu)勢,通過(guò)這些服務(wù),我們與客戶(hù)建立了良好的合作關(guān)系,贏(yíng)得了客戶(hù)的信任。特別是我們?yōu)樾氯A社多媒體數據庫進(jìn)行的提速工作,再次展現了公司在信息檢索技術(shù)領(lǐng)域國際化的領(lǐng)先水平,我們通過(guò)并行檢索、Bi-Gram索引、服務(wù)器群集和數據庫智能化自我管理以及多層次Cache技術(shù)等,使得多媒體數據庫在千萬(wàn)級數據庫記錄的綜合查詢(xún)性能獲得了成倍的提高,這是對關(guān)鍵業(yè)務(wù)的關(guān)鍵性突破。
4.12專(zhuān)注的服務(wù)
TRS專(zhuān)注于咨詢(xún)和開(kāi)發(fā)服務(wù),采用開(kāi)放的體系結構、技術(shù)和產(chǎn)品,確保用戶(hù)的利益,保護現有投資。
TRS公司專(zhuān)注于軟件產(chǎn)品的提供和技術(shù)服務(wù),在咨詢(xún)和服務(wù)能力上居于領(lǐng)先地位,在本項目中,我們在關(guān)鍵性平臺上采用了TRS成熟產(chǎn)品,并且保證提供開(kāi)放的技術(shù)體系,提供完整和可擴充性,提供應用集成能力,同時(shí)根據用戶(hù)需求,推薦針對應用的行業(yè)內具有優(yōu)勢的相關(guān)產(chǎn)品,總體設計方案強調系統組件的最佳組合,選擇合適的技術(shù)和產(chǎn)品。
企業(yè)•廣東移動(dòng)搜索引擎服務(wù)
在廣東移動(dòng)搜索引擎服務(wù)的系統建設中,TRS重點(diǎn)解決了資源信息的整合和安全問(wèn)題。
資源信息的整合包括了對辦公自動(dòng)化數據的整合、對論壇數據的整合、對CM系統數據的整合,通過(guò)整合,實(shí)現統一的檢索入口,實(shí)現統一的Portal服務(wù)。此外,各種數據對原有系統中的權限(主要是Notes系統中的權限)得到了很好的繼承,只有相關(guān)的授權用戶(hù)才能對自己權限范圍內的信息進(jìn)行瀏覽和檢索。
廣東移動(dòng)的搜索引擎從技術(shù)上可以分為三個(gè)部分:Notes業(yè)務(wù)平臺,TRS檢索系統,權限過(guò)濾和顯示模塊。用戶(hù)進(jìn)行全文檢索首先在TRS中命中相應檢索記錄,然后通過(guò)權限過(guò)濾命中相應的數據集合,最終通過(guò)顯示模塊展示給相關(guān)人員經(jīng)過(guò)安全驗證的信息內容。
通過(guò)這種方式,Notes中的全部業(yè)務(wù)權限得到了充分的繼承,有效體現了TRS企業(yè)搜索引擎的開(kāi)放性和可集成能力,充分體現了TRS安全檢索的概念。
通過(guò)共享資源庫的建設,為內部工作人員提供了一個(gè)題材豐富的信息資源系統,采用TRS企業(yè)搜索引擎系統,將各部門(mén)信息資源整理加工,形成集公文、政務(wù)信息、行業(yè)規章、地方特色信息等資源的數據庫,為各級領(lǐng)導提供決策服務(wù)參考,為相關(guān)工作人員提供信息快速查詢(xún)平臺。
安全檢索和資源整合服務(wù),使內部的信息得到有序的共享,并進(jìn)一步優(yōu)化了管理流程,實(shí)現“一站式”信息發(fā)布和辦公服務(wù)模式。
CTI論壇編輯
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
马龙县|
呼玛县|
涟源市|
新闻|
博兴县|
福安市|
乐平市|
万载县|
林西县|
聂拉木县|
江源县|
合川市|
文安县|
湾仔区|
沾化县|
独山县|
固镇县|
进贤县|
屏山县|
西充县|
拜城县|
峨山|
丰宁|
绥德县|
股票|
牟定县|
洞口县|
泰兴市|
昔阳县|
于田县|
冷水江市|
北安市|
西吉县|
乐业县|
霸州市|
沁阳市|
尖扎县|
荆州市|
孟村|
缙云县|
东乡县|
http://444
http://444
http://444
http://444
http://444
http://444