首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

發(fā)表評論分享按鈕

語(yǔ)音時(shí)代的到來(lái)與群體式憂(yōu)慮

2012/04/06

  Siri 的流行充分喚起了人們對于語(yǔ)音識別的想象。在與個(gè)人生活緊密結合前,語(yǔ)音識別是難以達到這么火爆的程度的,準確率是最基本的一點(diǎn),不過(guò)基于語(yǔ)義和情感交互才是語(yǔ)音識別的最為迷人的地方,當然,移動(dòng)互聯(lián)網(wǎng)的興起也是這一流行趨勢的引爆點(diǎn)。前幾天,語(yǔ)音識別領(lǐng)先企業(yè)科大訊飛語(yǔ)音云發(fā)布, 同時(shí)隨著(zhù)Nuance 公司 Dragon 系列產(chǎn)品的流行,越來(lái)越多的產(chǎn)品開(kāi)始支持語(yǔ)音控制,有理由相信,語(yǔ)音時(shí)代即將來(lái)臨。

  語(yǔ)音識別時(shí)代的條件已經(jīng)具備

  語(yǔ)音引擎

  在語(yǔ)音識別方面,Nuance 是一家不可忽略的企業(yè),作為 Siri 背后的技術(shù)支持,Nuance 擁有4000余項專(zhuān)利和專(zhuān)利申請,超過(guò)50億部手機和7000萬(wàn)的車(chē)輛使用其技術(shù),三分之二的《財富》100強公司依賴(lài)其解決方案。

  Wolframalpha 雖然不是語(yǔ)音識別技術(shù),但在語(yǔ)義識別方面,他是毫無(wú)疑問(wèn)的先驅?zhuān)瑯右彩亲鳛?Siri 背后的搜索引擎,它對語(yǔ)音識別的意義十分重大。

  在語(yǔ)音識別方面的研究,科大訊飛,IBM,貝爾研究所的成果也令人矚目。

  云計算能力

  大量的機器學(xué)習才可能讓語(yǔ)音引擎不斷完善,云計算的超級計算能力讓這點(diǎn)成為可能,商業(yè)化云平臺的不斷成熟,使基于云計算的語(yǔ)音識別不再困難。

  智能設備

  在A(yíng)ndroid 和iOS的推動(dòng)下,移動(dòng)互聯(lián)網(wǎng)迎來(lái)了爆發(fā)性增長(cháng),智能手機和平板電腦已經(jīng)十分普遍,與 PC 相比,手持設備因為易攜等優(yōu)勢,語(yǔ)音識別能得到更加生活化的應用,而這也就是語(yǔ)音識別得以廣泛應用的基礎。

  高速網(wǎng)絡(luò )

  語(yǔ)音識別,速度對于用戶(hù)體驗毋庸置疑,高質(zhì)量的語(yǔ)音識別依賴(lài)于高速網(wǎng)絡(luò ),而這也將隨著(zhù)3G和4G網(wǎng)絡(luò )的普及而被解決。

  語(yǔ)音識別可能是巨變的開(kāi)端

  對 Google 等公司,Siri毫無(wú)疑問(wèn)是一個(gè)威脅,在語(yǔ)音時(shí)代之前,普通搜索引擎是互聯(lián)網(wǎng)的入口,但是在語(yǔ)音時(shí)代,人們已經(jīng)有了更加方便和人性化的工具。影響雖然不是替代,但它代表了一種更方便的工作、生活方式,而這也將催生行業(yè)的變革。

  Sherry Turkle,這位 MIT 的社科教授稱(chēng),人類(lèi)更加傾向于可以說(shuō)話(huà)的設備,好像這就是他們的知心伴侶。相對于打字,語(yǔ)音來(lái)的更加便捷與精確,這種區別上所導致的影響,可能就像 Paul Ricci (Xerox 前執行官)所言,類(lèi)似80年代鼠標和圖形化界面對于電腦的影響。說(shuō)話(huà)是人類(lèi)的天性,但打字與技巧和熟練度有關(guān),在一句話(huà)就可以解決問(wèn)題的時(shí)代,為什么還需要辛苦的輸入。

  不僅對于搜索,對于汽車(chē)導航,甚至是飛機訂票、呼叫中心等事宜都可以用語(yǔ)音識別技術(shù)來(lái)替代,Nuance 公司已經(jīng)成功推出了一款用于航空客服的語(yǔ)音交互系統 Wally ,據紐約時(shí)報介紹,相當的用戶(hù)辨認不出他們是在同機器對話(huà),掛電話(huà)時(shí)甚至友好的說(shuō)了謝謝。

  語(yǔ)音控制,另一把科技雙刃劍

  語(yǔ)音識別可能帶來(lái)顛覆性變革,但也會(huì )隨之帶來(lái)一些新的問(wèn)題,同社交網(wǎng)絡(luò )興起一樣,語(yǔ)音識別或許會(huì )產(chǎn)生一個(gè)問(wèn)題:隱私。

  每一次的語(yǔ)音識別請求,我們的聲音都會(huì )被上傳到到服務(wù)器分析,為了讓語(yǔ)音識別系統更加準確,系統也必須學(xué)習,材料就是這些我們上傳的語(yǔ)音。人聲音的特質(zhì)(聲紋),就像是指紋一般獨一無(wú)二,指紋和聲音都是密碼方面常用且重要的憑據,如果自己的聲音數據被泄漏,信息安全得不到保障。在紐約時(shí)報對 Nuance 的報道中,Nuance 稱(chēng)在美國,除了聯(lián)邦政府,他們擁有最大的聲音信息數據量。同時(shí),語(yǔ)音合成技術(shù)的成熟,也使得語(yǔ)音詐騙有存在的可能性,試想一個(gè)電話(huà)打來(lái),聽(tīng)聲音是自己的朋友,找自己借錢(qián)什么的,誰(shuí)又能區別真假呢?湯姆·克魯斯在《碟中諜3》中假扮霍夫曼時(shí)合成聲音的以假亂真或許就成為現實(shí)。而科大訊飛在其招股書(shū)中提到,其中英文語(yǔ)音合成技術(shù)的自然度能超過(guò)真人發(fā)音水平(4.0分)。

  在語(yǔ)音識別應用越來(lái)越廣泛的時(shí)候,還有一個(gè)大的問(wèn)題是不能忽視,那就是對機器的高度依賴(lài)對人的生理和心理所產(chǎn)生的改變,Pranav Mistry 在 TED 的演講《第六感技術(shù)的驚異潛力》中提出了一個(gè)觀(guān)點(diǎn):科技的發(fā)展,不是要讓人類(lèi)越來(lái)越機器化,而是讓人變得越來(lái)越人性化。科技能改善生活,但也存在道德和文化上的難題。

比特網(wǎng)



相關(guān)閱讀:
專(zhuān)訪(fǎng)科大訊飛吳曉如:語(yǔ)音云服務(wù) 深入千家萬(wàn)戶(hù) 2012-03-27
語(yǔ)音操控體驗攪熱移動(dòng)互聯(lián)網(wǎng) 2012-01-30
捷通華聲董事長(cháng)張連毅:HCI前景不可限量 2011-12-26
采訪(fǎng)Nuance高層:車(chē)載語(yǔ)音導航新篇章 2011-12-23
人人都愛(ài)上Siri 智能機器人大行其道 2011-11-21

熱點(diǎn)專(zhuān)題:  語(yǔ)音合成TTS 語(yǔ)音識別ASR  

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 定兴县| 翁源县| 石景山区| 河源市| 西乡县| 阳春市| 葫芦岛市| 玛多县| 定安县| 原平市| 六盘水市| 方山县| 安庆市| 淮安市| 泗水县| 绥化市| 简阳市| 博湖县| 中西区| 闻喜县| 乌拉特前旗| 和政县| 新巴尔虎右旗| 阜宁县| 永春县| 藁城市| 辉县市| 土默特左旗| 萝北县| 于田县| 井研县| 东港市| 甘泉县| 洞口县| 西吉县| 娄底市| 高碑店市| 渝中区| 文成县| 威海市| 高安市| http://444 http://444 http://444 http://444 http://444 http://444