• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>

    技術(shù)提取智慧:文本挖掘的三大應用

    2016-06-29 09:25:18   作者:杜爾森·德倫(Dursun Delen)   來(lái)源:36大數據   評論:0  點(diǎn)擊:


      隨著(zhù)各種機構收集的非結構化數據不斷增加,文本挖掘的價(jià)值定位和流行度也處于上升階段。越來(lái)越多的機構意識到利用文本挖掘從他們的文本資源庫中提取知識的重要性。
      以下將展示文本挖掘模范式的應用類(lèi)別中的一小部分。
      市場(chǎng)營(yíng)銷(xiāo)應用
      通過(guò)分析客服中心提供的非結構化數據,文本挖掘可以提高交叉銷(xiāo)售和向上銷(xiāo)售的業(yè)績(jì)。由客服中心接線(xiàn)人員所做的記錄整理而成的文本,以及轉錄的與顧客的對話(huà)可以被文本挖掘算法用來(lái)提取新穎、可操作的信息,旨在了解消費者對公司產(chǎn)品及服務(wù)的看法。此外,博客、產(chǎn)品評價(jià)以及網(wǎng)上討論板塊的帖子則是了解顧客情感的金礦。這些豐富的信息資源只要加以恰當的分析就能夠被用于提高顧客滿(mǎn)意度,延長(cháng)顧客的整體忠誠度。
      文本挖掘同時(shí)已經(jīng)成為消費者關(guān)系管理不可或缺的工具。公司用文本挖掘分析豐富的非結構化數據,再聯(lián)合企業(yè)數據庫中相關(guān)的結構化數據,就可以預測消費者的觀(guān)念以及后續的購買(mǎi)行為。舉例來(lái)說(shuō),文本挖掘可以有效地提高數學(xué)模型的效用,以預測顧客流失率。這樣,就能夠對那些被列入最有可能流失的顧客及時(shí)使用“挽留技巧”來(lái)保留。
      將產(chǎn)品看作一系列屬性值對而不是原子實(shí)體,可以潛移默化地提高多種商業(yè)應用的有效性,例如,需求預測、分類(lèi)優(yōu)化、產(chǎn)品推薦、零售商與生產(chǎn)商間的分類(lèi)比較,還有產(chǎn)品供應商選取。伽尼(Ghani)使用文本挖掘技術(shù)開(kāi)發(fā)了一個(gè)系統來(lái)推測產(chǎn)品的顯性和隱性屬性,以加強零售商分析產(chǎn)品數據庫的能力。系統以各種屬性的形式展現產(chǎn)品,不需要多少人力就能夠根據不同屬性分配價(jià)值。系統通過(guò)將監控的和半監控的學(xué)習技術(shù)應用到零售商網(wǎng)站的產(chǎn)品描述上,以了解這些屬性。
      安保應用
      文本挖掘在安保領(lǐng)域最廣泛、最著(zhù)名的應用要算是高機密的美國ECHELON監控系統了。傳聞ECHELON能夠識別電話(huà)、傳真、郵件和其他各類(lèi)形式數據的內容,攔截通過(guò)衛星、公共交換電話(huà)網(wǎng)和其他微波傳送的信息。
      2007年,歐洲刑警組織開(kāi)發(fā)了一款綜合系統以獲取、儲存、分析數量龐大的結構化和非結構化的數據源,追蹤跨境的有組織犯罪。該系統被命名為“情報支持綜合分析系統”,旨在整合當今市場(chǎng)上最先進(jìn)的數據和文本挖掘技術(shù)。系統在跨境執法方面大大提高了歐洲刑警組織的效率。
      在美國國家安全局的指導下,聯(lián)邦調查局和中央情報局正聯(lián)手開(kāi)發(fā)超級計算機數據與文本挖掘系統。該系統旨在構建一個(gè)巨型數據倉庫以及一批種類(lèi)多樣的數據和文本挖掘模塊,并以此為聯(lián)邦、各州和地方執法機構的知識發(fā)現提供支持。在這之前,聯(lián)邦調查局和中央情報局也擁有各自獨立的數據庫,但是這些數據庫之間基本沒(méi)有什么關(guān)聯(lián)。
      另一個(gè)與安保有關(guān)的文本挖掘應用實(shí)例就是測謊。夫勒(Fuller)將文本挖掘與罪犯(或嫌疑犯)的真實(shí)供述相關(guān)聯(lián),研發(fā)出預測模型以區分謊言和實(shí)話(huà)。模型利用從文本陳述中提取的豐富線(xiàn)索預測不合作樣本,準確率高達70%。考慮到線(xiàn)索僅僅來(lái)自于文本陳述,沒(méi)有口頭和視覺(jué)線(xiàn)索,這樣的準確率算得上是有著(zhù)重大意義的成功。此外,與測謊儀等其他測謊技術(shù)相比,這種方法避免了過(guò)多的中介物干擾,并且不僅可以用于文本,還可以用于語(yǔ)音錄音腳本的可能性。
      生物醫學(xué)應用
      文本挖掘在眾多醫學(xué)領(lǐng)域和某些生物醫學(xué)領(lǐng)域有著(zhù)巨大的應用前景。第一,該領(lǐng)域的出版發(fā)行文獻和出版專(zhuān)營(yíng)店(特別是隨著(zhù)“開(kāi)源期刊的出現”)正以指數爆炸的速度增長(cháng);第二,與其他形式的文獻相比,醫學(xué)文獻更加標準化,有秩序,更便于挖掘;最后,醫學(xué)文獻的術(shù)語(yǔ)相對統一固定,本體相當地標準化。一些教科書(shū)式的經(jīng)典范例已經(jīng)成功地利用文本挖掘技術(shù)從生物醫學(xué)文獻中提取了新型模式。
      實(shí)驗性技術(shù),比如基因芯片技術(shù)分析、基因表達序列分析和質(zhì)譜蛋白質(zhì)組學(xué)的研究產(chǎn)生了大量與基因、蛋白質(zhì)相關(guān)的數據。正如其他實(shí)驗性方式,一般來(lái)說(shuō),在先前已知的生物實(shí)體信息情景下分析這些數據是必不可少的。文獻資料在驗證實(shí)驗有效性和闡釋實(shí)驗方面意義重大。因此,研發(fā)自動(dòng)文本挖掘工具以協(xié)助這類(lèi)闡釋是當今生物信息學(xué)研究所面臨的主要挑戰之一。
      清楚細胞中蛋白質(zhì)的位置有助于闡明蛋白質(zhì)在生物作用中的角色,并確定它能否作為藥物標靶。文獻中包含了不計其數的定位預測系統,一些關(guān)注具體的生物,另一些則試圖分析更大范圍內的生物。沙特凱(shatkay)等人在2007年提出的一個(gè)綜合系統能夠利用幾種基于序列和文本的特征來(lái)預測蛋白質(zhì)的位置。該系統的創(chuàng )新點(diǎn)在于它選取文本來(lái)源和特征的方式,并能夠將這些數據與基于序列的特征整合起來(lái)。沙特凱等人在先前的數據組和新的數據組上都測試了系統的預測能力,結果顯示,新系統的效果遠遠地超過(guò)了原有系統。
      春(chun)描述了一種能夠通過(guò)美國醫學(xué)索引從文獻中提取致病基因關(guān)系的系統。他們在六個(gè)公共數據庫的基礎上建立了疾病與基因字典,用字典匹配提取候選的關(guān)系項。由于字典匹配會(huì )產(chǎn)生大量的假陽(yáng)性結果,春等人又研發(fā)了基于機器學(xué)習的命名實(shí)體識別,以篩選出錯誤的疾病或基因名稱(chēng)。他們發(fā)現這種關(guān)系提取的成功與否主要取決于命名實(shí)體識別在篩選上的表現,篩選能夠提高26.7%的提取準確性,而花費的代價(jià)僅僅是查全率上的微小滑坡。
      對于掌握大型信息數據庫的出版商們來(lái)說(shuō),文本挖掘可以用來(lái)產(chǎn)生索引以更好地進(jìn)行信息檢索。在科學(xué)性學(xué)科中,由于具體信息常包含在書(shū)面文本中,這點(diǎn)尤為突出。如《自然》雜志提倡的“開(kāi)放式文本挖掘接口”和美國國家衛生研究院的“期刊出版文檔類(lèi)型定義”這樣的新項目已經(jīng)開(kāi)始實(shí)施,預期能夠為機器提供語(yǔ)義線(xiàn)索,以回答文本中的具體問(wèn)詢(xún)而不消除公共通道的出版商壁壘。
      學(xué)術(shù)型機構也加入到了文本挖掘計劃的行列中。英國曼徹斯特大學(xué)和利物浦大學(xué)聯(lián)合成立了文本挖掘國家中心,為學(xué)術(shù)社區提供定制的文本挖掘工具,研究設備和文本挖掘專(zhuān)業(yè)意見(jiàn)。起初,文本挖掘的重點(diǎn)被放在了生物和生物醫學(xué)上,但逐漸擴大到了社會(huì )科學(xué)。美國加州伯克利大學(xué)的信息學(xué)院正在開(kāi)發(fā)一款名為Biotext的軟件,以在文本挖掘和分析方面協(xié)助生物科學(xué)研究者。

    相關(guān)閱讀:

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 乳源| 玛曲县| 得荣县| 潍坊市| 陆丰市| 嘉荫县| 中西区| 且末县| 义马市| 行唐县| 博爱县| 昌江| 汽车| 安福县| 甘洛县| 康定县| 临沭县| 奉化市| 鱼台县| 新田县| 寿光市| 大石桥市| 文登市| 金山区| 台江县| 甘孜县| 湘潭县| 安乡县| 永嘉县| 称多县| 淮滨县| 无锡市| 巧家县| 阿拉善右旗| 南漳县| 台东县| 邳州市| 蒙山县| 民乐县| 井陉县| 萍乡市| http://444 http://444 http://444 http://444 http://444 http://444