通用汽車(chē)旗下的安吉星從 1995 年開(kāi)始在北美向用戶(hù)提供語(yǔ)音導航、救援、車(chē)輛安全防護、娛樂(lè )等信息服務(wù),并且第一個(gè)進(jìn)入中國市場(chǎng);福特從 2010 年開(kāi)始與微軟合作推出車(chē)載信息系統 Ford Sync,這一系統可以識別 19 國語(yǔ)言,包括一些方言,能夠理解一萬(wàn)條語(yǔ)音指令;近幾年,豐田的 G-book、福特 My Ford 和日產(chǎn)的 CarWings 也開(kāi)始隨潮流涌現。
這意味著(zhù),當我們駕駛時(shí),不必分心在中控屏幕上選擇目的地,也不必伸手去接聽(tīng)電話(huà)。甚至有一天,我們可以暢想:吩咐汽車(chē)去做任何事情。
下面回到現實(shí)。
汽車(chē)廠(chǎng)商每年在中控屏幕幾十億人民幣的投入,本意是想提升汽車(chē)的科技感和用戶(hù)操作的便捷性。但令他們失望的是,大部分車(chē)主并不為此而買(mǎi)單,依然習慣在車(chē)內用手機導航或者查詢(xún)信息。
造成這一現象的原因可以簡(jiǎn)單理解為:以往一些初級的語(yǔ)音控制類(lèi)的應用,比如導航、語(yǔ)音撥號等等,用戶(hù)要啟動(dòng)這些服務(wù)必須按照產(chǎn)品手冊的說(shuō)明,完整地說(shuō)出固定格式的句子,才能被機器識別。在這些應用中,數據庫是簡(jiǎn)單而又原始的,在識別過(guò)程中也沒(méi)有太多算法可言,它們只是負責「搬運」。
不注重用戶(hù)體驗,使得語(yǔ)音交互成為汽車(chē)場(chǎng)景下相當雞肋的產(chǎn)品。
2014 年以前,科大訊飛主要的關(guān)注點(diǎn)還不在汽車(chē)上。當時(shí)團隊認為語(yǔ)音在汽車(chē)上的應用只是一個(gè)點(diǎn)綴。那時(shí)訊飛的角色是一個(gè)小模塊供應商,將語(yǔ)音技術(shù)授權授權給第三方廠(chǎng)商。
2014 年后,科大訊飛團隊慢慢意識到語(yǔ)音有可能成為汽車(chē)上的剛性應用和入口,他們開(kāi)始和汽車(chē)廠(chǎng)商接觸與合作。為此還專(zhuān)門(mén)成立了一個(gè)百人規模的團隊專(zhuān)門(mén)負責車(chē)載語(yǔ)音研發(fā)與服務(wù)的工作。
上周末,包括雷鋒網(wǎng)在內的幾家媒體參觀(guān)了科大訊飛和奇瑞的總部。獲知雙方聯(lián)合開(kāi)發(fā)了一款深度定制語(yǔ)音技術(shù)的車(chē)載系統: Cloudrive2.0,搭載在奇瑞的新車(chē)艾瑞澤 5 車(chē)型上。

「這是一個(gè)整體的軟件系統,包括信息服務(wù)、車(chē)和駕駛者的交互。」科大訊飛執行總裁吳曉如在媒體溝通會(huì )上說(shuō)道。這意味著(zhù)科大訊飛從語(yǔ)音技術(shù)的提供商,到現在成為一個(gè)「云加端」的軟件和服務(wù)系統。而這種云端與本地的打通,可以為一些本地無(wú)法完全識別的內容提供聯(lián)網(wǎng)識別,并經(jīng)由云端下載更新包來(lái)完善離線(xiàn)識別效果。

Cloudrive2.0 界面
從功能上和操作上,這套系統與汽車(chē)廠(chǎng)商推出的車(chē)載系統并無(wú)二致:導航、語(yǔ)音控制、藍牙電話(huà)、4G 上網(wǎng)和倒車(chē)影像等等,用戶(hù)可以通過(guò)方向盤(pán)或中控臺上的物理按鍵喚醒語(yǔ)音命令,也可以用「小艾你好」語(yǔ)音喚醒指令代替。
訊飛使用了麥克風(fēng)陣列定位人聲,在駕駛和副駕駛位置的麥克風(fēng)位于中控屏幕下方,可以準確定位音源位置。

訊飛麥克風(fēng)陣列板
不過(guò)從體驗上來(lái)說(shuō),訊飛的語(yǔ)音服務(wù)做得更加流暢。按照官方的說(shuō)法,汽車(chē)在高速行駛時(shí),語(yǔ)音的識別率也能保證在 90% 以上。這是因為在硬件上,訊飛使用了麥克風(fēng)陣列定位人聲,在駕駛和副駕駛位置的麥克風(fēng)位于中控屏幕下方,可以準確定位音源位置。
一般說(shuō)來(lái),汽車(chē)場(chǎng)景下車(chē)載系統應該有三種交互方式:語(yǔ)音、觸摸和按鍵。
觸摸交互或按鍵交互是設定好的一層一層界面,比如點(diǎn)擊第一個(gè)圖標,然后出現第二個(gè)畫(huà)面。語(yǔ)音方式并不一樣,語(yǔ)音的交互是扁平化的:如果用戶(hù)表達的意思足夠精確,能夠直接呈現最終結果。
「這給我們提出了一個(gè)很大的挑戰,就是我們能不能基于用戶(hù)對車(chē)載系統發(fā)生語(yǔ)音交互的時(shí)候,把用戶(hù)最需要的那條信息呈現出來(lái)。」吳曉如告訴我們。
但事實(shí)上這項挑戰在 6 個(gè)月內便完成了,并且還取得了不錯的效果。科大訊飛汽車(chē)事業(yè)部總經(jīng)理劉俊峰給出一個(gè)數字是:上線(xiàn)三四個(gè)月以來(lái),用戶(hù)的這種活躍的比例達到 85% 以上,在線(xiàn)平均時(shí)長(cháng)達兩個(gè)小時(shí)。
在與奇瑞合作之前,訊飛并沒(méi)有車(chē)載系統的整合經(jīng)驗。為此,2015 年訊飛入股美行科技,后者是車(chē)載信息系統、電子地圖軟件、位置服務(wù)領(lǐng)域產(chǎn)品和服務(wù)商;中國移動(dòng)作為訊飛的股東方,也提供一些資源上的合作,包括咪咕音樂(lè )的版權以及車(chē)聯(lián)網(wǎng)相關(guān)的流量套餐服務(wù);對于涉及到用戶(hù)在服務(wù)過(guò)程中遇到的各類(lèi)問(wèn)題,訊飛又參股了呼叫中心公司。
有了這些資源和支持與整合,為訊飛快速推進(jìn) Cloudrive2.0 打下了基礎。從另一個(gè)角度看,能與汽車(chē)廠(chǎng)商進(jìn)行合作,這也證明訊飛的語(yǔ)音技術(shù)得到了前者的認可。
盡管如此,在媒體溝通會(huì )上吳曉如向我們坦言,目前在車(chē)載語(yǔ)音的技術(shù)環(huán)節上還需要繼續突破。比如如何留下有效信息,過(guò)濾無(wú)效信息、如何適應多種噪音環(huán)境、如何保證在自然語(yǔ)言下,實(shí)現更有效地多輪人機交互等等。這也是下一階段他們要攻克的難題。
上個(gè)月初,「互聯(lián)網(wǎng)女皇」稱(chēng)號的瑪麗·米克爾發(fā)布了一份互聯(lián)網(wǎng)趨勢報告,213 頁(yè)的報告內容,十分之一的篇幅給了語(yǔ)音。她認為:語(yǔ)音技術(shù)的爆發(fā),技術(shù)成熟是核心原因之一。目前,語(yǔ)音識別準確率已從 2010 年的 70% 上升到今年的 90%。可以預見(jiàn)的是,如果語(yǔ)音識別準確率從 95% 提升到 99%,將從量變引發(fā)質(zhì)變。
吳曉如說(shuō),汽車(chē)在語(yǔ)音應用的門(mén)檻剛剛取得突破性進(jìn)展,未來(lái)語(yǔ)音交互在汽車(chē)領(lǐng)域的應用將翻番。