• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁(yè) > 新聞 > 國際 >

    語(yǔ)音接口 我們已站到下一個(gè)交互時(shí)代的邊緣

    2016-06-27 15:18:48   作者:寧宇   來(lái)源:網(wǎng)易科技   評論:0  點(diǎn)擊:


      據國外媒體報道,近日美國《連線(xiàn)》雜志撰文指出,隨著(zhù)計算機處理、語(yǔ)音識別、移動(dòng)通信、云計算、神經(jīng)網(wǎng)絡(luò )等技術(shù)的發(fā)展日趨成熟,語(yǔ)音接口技術(shù)迎來(lái)了飛躍,虛擬語(yǔ)音助理業(yè)務(wù)的發(fā)展迎來(lái)了變革時(shí)期。
      你或許聽(tīng)過(guò)這樣一個(gè)故事。1979年,年輕的史蒂夫喬布斯造訪(fǎng)了位于位于加利福尼亞州帕洛阿圖市的施樂(lè )帕克研究中心(Xerox PARC),并見(jiàn)證了帕克研發(fā)的計算機圖形用戶(hù)界面。一位PARC的工程師使用鼠標原型對計算機進(jìn)行了相關(guān)操作,下拉菜單、點(diǎn)擊互相重疊的計算機窗口。在整個(gè)演示過(guò)程中,喬布斯所看到的操作方式與以前完全不同。喬布斯后來(lái)說(shuō),“不到十分鐘,我就清楚有一天所有計算機都會(huì )以這種方式運行。”
      傳說(shuō)中喬布斯帶領(lǐng)蘋(píng)果的團隊復制了PARC的用戶(hù)圖形界面。在隨后的近四十年內,個(gè)人計算機技術(shù)開(kāi)始以前所未有的速度向前發(fā)展,從第一臺Macintosh一路發(fā)展至最新的iPhone手機。計算機的用戶(hù)圖形界面克服了命令行以及文字界面的缺點(diǎn),將更多的普通人帶進(jìn)計算機世界,使更多的人能夠使用計算機,他們所需要的技能僅僅是操作鼠標指向、單擊或拖動(dòng)。
      在并不遙遠的未來(lái),我們依舊會(huì )因PARC創(chuàng )造的用戶(hù)圖形界面和其因決策失誤而導致錯過(guò)個(gè)人電腦發(fā)展黃金時(shí)期而唏噓不已。但在喬布斯造訪(fǎng)PARC的時(shí)候,而另外一個(gè)獨立團隊正在研究關(guān)于人機交互的全新模式,也就是今天所說(shuō)的會(huì )話(huà)用戶(hù)界面。這些科學(xué)家設想了這樣一個(gè)世界,在幾十年后的電腦功能時(shí)如此強大,需要用戶(hù)記住關(guān)于計算機操作的每一個(gè)命令是完全不切實(shí)際的。科學(xué)家想到用戶(hù)會(huì )倒退回來(lái),用一種蛻變的方式與計算機協(xié)同工作,而這種方式的接口就是普通人類(lèi)語(yǔ)言。
      在研究會(huì )話(huà)用戶(hù)界面的團隊中,有一位名為羅恩·卡普蘭(Ron Kaplan)的科學(xué)家。他長(cháng)相粗壯,說(shuō)話(huà)卻細聲細語(yǔ),留著(zhù)山羊胡子,但有頭發(fā)稀疏。卡普蘭是一位語(yǔ)言學(xué)家,同時(shí)也是一位心理學(xué)家和計算機專(zhuān)家,其將著(zhù)名語(yǔ)言學(xué)家諾姆·喬姆斯基的理論用于人機交互語(yǔ)言的重構。卡普蘭指出,在上世紀70年代,他的團隊所開(kāi)發(fā)的會(huì )話(huà)用戶(hù)界面離實(shí)際應用還有相當的距離。他們勉強開(kāi)發(fā)出一個(gè)會(huì )話(huà)用戶(hù)系統,用戶(hù)可以使用標準英語(yǔ)來(lái)預定機票。但是這種技術(shù)無(wú)法用于大規模的系統性工作,因此也就無(wú)法普及。卡普蘭表示,“當時(shí)這種技術(shù)的成本過(guò)高,大概要達到每個(gè)用戶(hù)一百萬(wàn)美元。”事實(shí)上,這種技術(shù)需要更快處理速度,更為智能、更高效的分布式處理電腦。卡普蘭當時(shí)估計需要15年的時(shí)間。
      卡普蘭現在稱(chēng),“四十年后,我們終于準備好了。”
      現在,卡普蘭是語(yǔ)音識別軟件公司Nuance Communications的首席科學(xué)家以及副總裁。該公司是世界上最大的語(yǔ)音接口業(yè)務(wù)公司之一。該公司為福特開(kāi)發(fā)了車(chē)內語(yǔ)音系統Sync system,對蘋(píng)果Siri的開(kāi)發(fā)也至關(guān)重要,其與各行業(yè)均有良好的合作關(guān)系。但最近,Nuance發(fā)現很多公司都在涌入語(yǔ)音接口市場(chǎng)。從亞馬遜、Intel到微軟谷歌,幾乎每一個(gè)大科技公司都在研發(fā)會(huì )話(huà)用戶(hù)接口,此外還有數十個(gè)初創(chuàng )企業(yè)也在從事相關(guān)研究。我們正處于語(yǔ)音接口技術(shù)的變革之中。這些公司相信,不久之后,用戶(hù)能夠跟自己的設備如同和朋友談話(huà)一樣交互。用戶(hù)的設備能夠聽(tīng)到用戶(hù)在說(shuō)什么、表達什么意思。
      你或許以及過(guò)驚嘆于現在社會(huì )的技術(shù)發(fā)展,但這些新的工具和接口將進(jìn)一步拓展你的數字生活,克服圖形用戶(hù)界面在安全、友好、易用性方面的缺點(diǎn)。更貼近自然語(yǔ)言的會(huì )話(huà)接口將會(huì )進(jìn)一步拉近你和技術(shù)之間的關(guān)系,更貼心,更友好,更富于個(gè)性化。
      這種技術(shù)的重大轉變不僅有利于硅谷,更使得普羅大眾受益。史蒂夫·喬布斯在1979年就看到了圖形用戶(hù)界面的重要性,清楚其是拓展計算機市場(chǎng)的重要方式。但即便是圖形用戶(hù)界面,依舊把大量受眾拒在賽博空間的大門(mén)之外。它依舊需要用戶(hù)去學(xué)習計算機語(yǔ)言。而現在,隨著(zhù)語(yǔ)音技術(shù)的發(fā)展,電腦最終將學(xué)會(huì )如何直接與人類(lèi)對話(huà)。在不斷學(xué)習和完善中,人類(lèi)將打通通向科技世界的通天塔。
      但我們也要清楚,雖然語(yǔ)音技術(shù)已經(jīng)存在多年,但迄今為止依舊不夠成熟。當然,你可以舉例說(shuō)現在的電話(huà)自動(dòng)應答系統還算不錯(打進(jìn)電話(huà)付款,說(shuō)“支付”便可調用相應功能)。事實(shí)上,現在的語(yǔ)音接口都依賴(lài)于固定化的語(yǔ)言,而在某些情況下還不具備自然語(yǔ)言的功能。譬如你可以問(wèn)Google Now紐約市人口數量,它對答如流;你問(wèn)帝國大廈的位置,它也能應對。但倘若你問(wèn)其包括帝國大廈在內的紐約市人口數量,它就會(huì )不知所云。同樣,蘋(píng)果語(yǔ)音助手Siri也一貫如此,其最主要的本領(lǐng)就是幫你調用谷歌搜索。現在的語(yǔ)音接口,與電影中描述的場(chǎng)景差距還很明顯。
      然而,當你徜徉在硅谷,和人們談及關(guān)于語(yǔ)音接口的相關(guān)技術(shù),他們的回答如出一轍:現在不同了。
      在六月初的一天,語(yǔ)音識別技術(shù)公司SoundHound首席執行官凱文·莫哈耶爾(Keyvan Mohajer)向我展示了公司耗費近十年時(shí)間研發(fā)出的應用程序原型。SoundHound此前曾發(fā)布了一款應用,可以通過(guò)語(yǔ)音識別并搜索流行音樂(lè )。當用戶(hù)對著(zhù)手機哼唱一首曲子時(shí),該應用可以識別并搜索出所哼唱的曲子名稱(chēng)。事實(shí)證明,該應用僅僅是莫哈耶爾夢(mèng)想的一部分:開(kāi)發(fā)世界上最先進(jìn)的、基于語(yǔ)音的人工智能技術(shù)。
      莫哈耶爾向我展示的這款應用原型名為Hound。莫哈耶爾手持一款智能手機Nexus 5,點(diǎn)擊了一個(gè)麥克風(fēng)圖標打開(kāi)程序,開(kāi)始向Hound提問(wèn)。開(kāi)始只是一些簡(jiǎn)單的問(wèn)題,諸如柏林當地時(shí)間或是日本的人口,應用程序都給出了正確的答案。隨即莫哈耶爾話(huà)峰一轉,問(wèn)“那么它們之間的距離是多少?” Hound通過(guò)理解之前的對話(huà),很快給出了答案——“大約5536英里”。
      這種問(wèn)題開(kāi)始接二連三出現,但Hound都對答如流。莫哈耶爾要求Hound根據要求的利率及條件計算出貸款一百萬(wàn)美元的情況下每月所還按揭,Hound也很快計算出是4270.84美元。
      莫哈耶爾又問(wèn),“Space Needle所在國首都人口是多少?” Hound指出莫哈耶爾所問(wèn)的就是華盛頓的人口,并隨即給出了答案。“日本和中國人口都有多少?首都在哪里?它們的國土面積有多少平方英里?有多少平方公里?有多少人住在印度?還有德國、意大利以及法國的區號是多少?”莫哈耶爾問(wèn)出了一連串的問(wèn)題,但Hound都作出了正確的回答。
      Hound目前還處于測試階段,但它可能是迄今為止識別速度最快,功能最為強大的語(yǔ)音識別系統。它可以同時(shí)進(jìn)行語(yǔ)音識別以及自然語(yǔ)言處理,符合現在的技術(shù)以及市場(chǎng)需求。事實(shí)上,各種語(yǔ)音識別系統的飛速發(fā)展只是時(shí)間問(wèn)題。
      畢竟在當前,語(yǔ)音接口技術(shù)的基礎技術(shù)——卡普蘭所稱(chēng)的“門(mén)控技術(shù)”已經(jīng)趨于成熟,成本也可接受。這是關(guān)于技術(shù)融合的經(jīng)典:計算機處理、語(yǔ)音識別、移動(dòng)通信、云計算、神經(jīng)網(wǎng)絡(luò )等技術(shù)的發(fā)展都已經(jīng)成熟,成本也達到可以接受的水平,可以使得會(huì )話(huà)用戶(hù)接口市場(chǎng)化。
      更進(jìn)一步,不僅僅是相關(guān)技術(shù)的成熟推動(dòng)了會(huì )話(huà)用戶(hù)接口的研發(fā),而客觀(guān)的市場(chǎng)需求也是推動(dòng)其發(fā)展的重要因素。隨著(zhù)越來(lái)越多的無(wú)顯示設備連入網(wǎng)絡(luò ),諸如你家中的燈具、煙霧報警器,我們也需要一種可行的方式與設備進(jìn)行交互,這種交互不需要按鈕、菜單或是圖標。
      在另一方面,圖形用戶(hù)界面已經(jīng)接近其自然限制。程序的功能越來(lái)越多,在圖形用戶(hù)界面中充斥的菜單和圖標選項也越來(lái)越復雜。你可以想象一下Photoshop或者是Excel,功能強大,但有著(zhù)大量的菜單項,或者需要記住各種快捷鍵的使用方式。即便是裁剪一張照片也要從各色工具欄中找出正確選項。卡普蘭指出,“圖形用戶(hù)界面已經(jīng)到達極限,現在它已經(jīng)處于超載的邊緣。”
      這就是即將到來(lái)的虛擬語(yǔ)音助理市場(chǎng),當你被淹沒(méi)在紛繁復雜的界面窗口、工具欄以及菜單選項時(shí)來(lái)拯救你,在你和設備之間建立便捷、高效的聯(lián)系。
      也許目前我們與虛擬語(yǔ)音助理的關(guān)系尚不緊密,但很快這一狀況就會(huì )改病啊。今年秋季,隨著(zhù)一批新款智能手機的上市,很快相應的會(huì )話(huà)用戶(hù)接口發(fā)展也將出現一次飛躍。當你升級到iOS 9、Andriod 6或是Windows 10時(shí),你會(huì )發(fā)現直接使用內置應用的頻率會(huì )越來(lái)越少,更多的是使用蘋(píng)果Siri或是谷歌的Google Now以及微軟的Cortana。而在不遠的將來(lái),數十億的Facebook用戶(hù)將可以打開(kāi)一個(gè)聊天窗口,通過(guò)智能語(yǔ)音助手調用各項功能。語(yǔ)音接口將不再是輔助的方式,而將成為主流和第一選擇。甚至于在某些情況下,它將是用戶(hù)的唯一選擇。譬如在蘋(píng)果的HomeKit系統中,確保一切設備關(guān)閉的唯一可行操作就是對蘋(píng)果的語(yǔ)音助手說(shuō)“晚安,Siri”。
      這些虛擬語(yǔ)音助理研發(fā)的初衷是將復雜簡(jiǎn)單化。對于現在的用戶(hù)來(lái)講,頻繁的下拉菜單操作過(guò)于復雜,調用一個(gè)功能需要按步驟操作,流程過(guò)于繁瑣。相比于此,虛擬語(yǔ)音助手清楚手機內每一個(gè)程序以及每一項功能,你可以通過(guò)說(shuō)話(huà)來(lái)調用這些功能。同時(shí)隨著(zhù)時(shí)間的推移,這種人工智能將知曉一切。
      需要指明的是,語(yǔ)音技術(shù)并不會(huì )完全取代觸控屏,甚至是鼠標和鍵盤(pán)。如果你需要使用臺式機,肯定會(huì )保留這些人機交互方式。雖然更多時(shí)間你可能會(huì )問(wèn)虛擬語(yǔ)音助理如何調用功能,譬如“裁剪工具在哪里?”
      但是,對于某些特定群體的人來(lái)說(shuō),會(huì )話(huà)用戶(hù)接口技術(shù)的發(fā)展將會(huì )在很大程度上取代其對圖形用戶(hù)界面的使用。諸如一些年輕人都通過(guò)麥克風(fēng)輸入文本而不是通過(guò)鍵盤(pán)。語(yǔ)音消息應用Cord創(chuàng )始人以及首席執行官托馬斯格諾(Thomas Gayno)指出,“他們只是不打字。”而對于更大一部分人來(lái)說(shuō),圖形用戶(hù)界面完全不適合其使用。那些視障者、老年人在圖形用戶(hù)界面前都受到了這種障礙的影響。因此,有些人稱(chēng)現代計算機接口為“直覺(jué)”并不十分準確。
      克里斯·莫里(Chris Maury)對此深有體會(huì )。2010年夏季,這位24歲的企業(yè)家在攻讀博士學(xué)位的過(guò)程中輟學(xué)轉而創(chuàng )業(yè)。但長(cháng)時(shí)間的熬夜使得其視力逐步下降,一位醫生診斷其患上了斯特格氏癥,這種病癥會(huì )使視力逐步退化甚至完全失明。
      作為一名技術(shù)人士,莫里不得不考慮如何應對無(wú)法看到電腦屏幕的狀況。但在整個(gè)美國,對于2000萬(wàn)視障人士來(lái)說(shuō),除了屏幕閱讀器別無(wú)選擇。
      要使用屏幕閱讀器,用戶(hù)需要通過(guò)鍵盤(pán)移動(dòng)光標,選中需要閱讀的屏幕文字,將其轉換成一長(cháng)串的URL,通過(guò)機器語(yǔ)言讀出來(lái)。這種相關(guān)的設備高達數千美元,并且需要幾十個(gè)小時(shí)的培訓。隨著(zhù)數字環(huán)境越來(lái)越復雜,屏幕閱讀器的使用越來(lái)越不方便。莫里表示,“即便是打開(kāi)一個(gè)谷歌搜索也需要很多步驟,這太可怕了。”
      當莫里視力開(kāi)始退化時(shí),他經(jīng)常訪(fǎng)問(wèn)Blind Twitter去了解情況。莫里開(kāi)始明白視障人士迫切需要一種技術(shù)。他意識到語(yǔ)音接口對于某些特定用戶(hù)更為便捷,而幾乎在同一時(shí)間,相關(guān)的語(yǔ)音技術(shù)也風(fēng)行整個(gè)硅谷。
      因此,莫里開(kāi)始著(zhù)手為視障人士開(kāi)發(fā)相關(guān)技術(shù)。他創(chuàng )辦了一家名為Conversant Labs的公司研發(fā)語(yǔ)音接口技術(shù)。公司推出的第一個(gè)產(chǎn)品是一個(gè)名為SayShopping的iPhone應用,其可以完全通過(guò)語(yǔ)音從Target.com上購買(mǎi)東西。但莫里有更大的想法,公司將于今年年底發(fā)布語(yǔ)音接口框架,為iOS的應用開(kāi)發(fā)者提供會(huì )話(huà)接口。莫里還希望能夠開(kāi)發(fā)一款完全基于語(yǔ)音技術(shù)的計算機應用環(huán)境,同時(shí)也可通過(guò)頭部運動(dòng)來(lái)下達指令。莫里指出,“這些實(shí)現都是有可能的,只是需要創(chuàng )建。”
      2014年秋季,亞馬遜發(fā)布來(lái)名為Echo的新產(chǎn)品,這款智能控制設備內置了名為Alexa的虛擬語(yǔ)音助理,其廣告語(yǔ)是“喚醒話(huà)語(yǔ)”。Echo采用了遠場(chǎng)語(yǔ)音識別技術(shù),甚至在嘈雜房間也可準確識別話(huà)語(yǔ)。此外它還具有監聽(tīng)功能,你可以在家中隨時(shí)和其對話(huà)。
      當我開(kāi)始使用Alexa時(shí),它可以告訴我天氣,回答基本的問(wèn)題,在智能手機上顯示購物清單或者是播放音樂(lè ),并沒(méi)有過(guò)多特別之處。但是隨著(zhù)時(shí)間推移,Alexa更聰明也更完善,它熟悉我的聲音、會(huì )開(kāi)玩笑、能同時(shí)運行多個(gè)計時(shí)器。測試版發(fā)布七個(gè)月后,2015年其公開(kāi)版最終上線(xiàn),Alexa的可用性越來(lái)越強。我了解了它,而它也在了解我。
      這也是關(guān)于會(huì )話(huà)科技的深層次道理:你只有在與語(yǔ)音助理的深入交互中才會(huì )發(fā)現其功能。同行業(yè)的諸多公司都認識到這一點(diǎn),都在努力使其語(yǔ)音助手達到個(gè)性化和適應性的平衡,使他們更加討人喜歡,易于接受。譬如微軟在開(kāi)發(fā)語(yǔ)音助手Cortana時(shí),其名稱(chēng)取材自游戲《光暈(Halo)》中的重要角色。Cortana工程團隊主管Mike Calcagno表示,“Cortana代表了機智和堅韌”。的確,在產(chǎn)品早期即便其可靠性低,益處少,也會(huì )引起人們注意。
      這種方式也有策略方面的考量。在微軟、Nuance等公司的研究中,當語(yǔ)音助理無(wú)處不在、當它了解你的習慣你的環(huán)境、了解你的喜好你的生活時(shí),它就是不可或缺的存在。通過(guò)這種人工智能控制所有應用程序和設備的方式自然也就成為必然。
      為此,無(wú)論是亞馬遜、谷歌、微軟,還是Nuance或者SoundHound,都在致力于會(huì )話(huà)平臺技術(shù)的研發(fā)。這些公司清楚,用戶(hù)會(huì )選擇最了解他們的語(yǔ)音助理。讓我們做好迎接虛擬語(yǔ)音助理的準備。更重要的是,一旦選擇了其中之一,你就不會(huì )再輕易放手。
    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 小金县| 梅州市| 绥化市| 翁牛特旗| 高邑县| 云林县| 盐边县| 巢湖市| 七台河市| 兴海县| 进贤县| 东乌| 曲水县| 象山县| 濮阳县| 潮州市| 博乐市| 洛宁县| 普安县| 射洪县| 肇庆市| 桐柏县| 资兴市| 偃师市| 青岛市| 连城县| 牡丹江市| 阜城县| 阜新| 会昌县| 涡阳县| 庄浪县| 奉贤区| 裕民县| 鱼台县| 手机| 会昌县| 日喀则市| 湘潭市| 专栏| 静乐县| http://444 http://444 http://444 http://444 http://444 http://444