同時(shí)人工智能開(kāi)始替代人類(lèi)的雙手進(jìn)行部分工作,比如AI語(yǔ)音助手接收聲音信號通過(guò)數據分析和識別,響應人類(lèi)指令完成指定操作。
AI技術(shù)的每一次革新,都會(huì )對社會(huì )生活進(jìn)行一次深度改變。從智能音箱走進(jìn)千家萬(wàn)戶(hù),到智能車(chē)聯(lián)陪伴日常行程,在數字化升級、消費轉型的風(fēng)口面前,我們可以期待怎樣的AI技術(shù)打開(kāi)未來(lái)的智能生活?
在剛剛結束的騰訊技術(shù)開(kāi)放日-騰訊云小微AI語(yǔ)音專(zhuān)場(chǎng),來(lái)自騰訊智能平臺產(chǎn)品部AI語(yǔ)音專(zhuān)家帶來(lái)關(guān)于語(yǔ)音識別、自然語(yǔ)言理解、智能對話(huà)機器人等行業(yè)應用探索等領(lǐng)域的精彩分享,從騰訊云小微AI語(yǔ)音助手的角度,揭開(kāi)AI語(yǔ)音助手在技術(shù)和應用領(lǐng)域的探索和最新成果。

云+端協(xié)調、軟硬件一體,打造魯棒的車(chē)載語(yǔ)音識別系統
在直播中提到,就構建魯棒的車(chē)載語(yǔ)音識別系統而言,人工智能首先要解決的難題就是數據分析與識別,只有將各個(gè)行業(yè)的寶貴經(jīng)驗搜集并形成數據庫,再通過(guò)電腦自動(dòng)識別知識并進(jìn)行分析,才能從億萬(wàn)條數據中剝絲抽繭,找到匹配用戶(hù)使用場(chǎng)景的正確反饋。
但是在實(shí)際應用環(huán)境如汽車(chē)使用過(guò)程中,車(chē)載語(yǔ)音識別面臨著(zhù)重重挑戰。在語(yǔ)音識別將人類(lèi)的聲音信號轉化為文字或者指令的過(guò)程中,用戶(hù)口音、環(huán)境噪聲、海量POI以及場(chǎng)景化語(yǔ)音均構成影響識別系統決策的變量,尤其考驗語(yǔ)音識別系統的基礎穩定性。
為此騰訊云小微AI語(yǔ)音助手在接收信號后,通過(guò)聲學(xué)前端處理,對豐富的聲音信息進(jìn)行甄別,分流至本地語(yǔ)音識別、云語(yǔ)音識別以及云+端協(xié)調機制進(jìn)行精準識別,提供更為精準的技術(shù)解決方案。

以常見(jiàn)的環(huán)境噪聲處理為例,當用戶(hù)聲音信號發(fā)出,在路噪、風(fēng)噪、空調、音響等不同噪聲類(lèi)型的干擾下,很容易讓車(chē)載語(yǔ)音識別發(fā)生理解偏差。騰訊云小微AI語(yǔ)音助手從車(chē)內語(yǔ)音交互場(chǎng)景出發(fā),通過(guò)騰訊自有技術(shù)和硬件設備完成回聲消除、噪聲抑制以及定位和拾音,確保得到干凈的語(yǔ)音信號,同時(shí)在聲學(xué)模型層面從訓練數據、特征提取、網(wǎng)絡(luò )結構等方面進(jìn)行針對性?xún)?yōu)化以提升識別系統對噪聲的魯棒性。

在基礎能力方面,因為有騰訊云加持,再根據自主研發(fā)的全棧AI技術(shù),整合前端降噪、語(yǔ)音識別、語(yǔ)義理解、人聲合成、圖像識別能力,能夠提供云到端的完整的AI解決方案。
在直播中,我們還看到了騰訊云小微AI語(yǔ)音助手在不同用戶(hù)口音輸入語(yǔ)音情況下如何做出精準反饋。騰訊云小微AI語(yǔ)音助手的魯棒性源自容錯性極小的兩套處理方案,一是基于遷移學(xué)習的分地域模型方案,二是引入地域向量的單模型方案。在這樣的智能車(chē)載語(yǔ)音識別系統下,騰訊云小微AI語(yǔ)音助手聯(lián)合騰訊車(chē)聯(lián)TAI已合作多家國內頭部車(chē)企和熱銷(xiāo)車(chē)型,通過(guò)騰訊云小微車(chē)載語(yǔ)音識別系統的助力,無(wú)懼用戶(hù)口音,精準識別語(yǔ)音指令,滿(mǎn)足車(chē)內交互場(chǎng)景的語(yǔ)音需求。

實(shí)現深度學(xué)習的自然語(yǔ)義理解,打造基于理解的人機交互
自然語(yǔ)義理解是人機自然對話(huà)的核心技術(shù)基礎。如何讓語(yǔ)音助手實(shí)現家庭、汽車(chē)和辦公室的無(wú)縫連接,甚至可以預測并解決用戶(hù)的需求,只有懂“深度學(xué)習”并可以進(jìn)行“理解”的語(yǔ)音技術(shù)才能勝任這樣的要求。
在技術(shù)開(kāi)放日上,深入探討了這項AI技術(shù)如何實(shí)現深度學(xué)習。人工智能技術(shù)基于數據的邏輯分析,在一定程度上的確可以實(shí)現自我學(xué)習,但是相較于人類(lèi)的情感需求、精神狀態(tài),再智能的AI語(yǔ)音助手也難以讀懂主人的“心”,因此具備理解能力的人機交互成為技術(shù)攻關(guān)的重點(diǎn)所在。
根據騰訊技術(shù)開(kāi)放日-騰訊云小微專(zhuān)場(chǎng)直播所演示,騰訊云小微AI語(yǔ)音助手以高質(zhì)量低延時(shí)語(yǔ)音合成、智能語(yǔ)音交互系統,進(jìn)化成為真正以用戶(hù)需求為導向的個(gè)性化服務(wù)。

物聯(lián)網(wǎng)時(shí)代,語(yǔ)義理解成為語(yǔ)音交互的核心所在。通過(guò)聲學(xué)前端處理,降低干擾信號、抑制回聲,提升語(yǔ)音識別效果、語(yǔ)音喚醒效果,隨即將文字轉換為命令字,通過(guò)語(yǔ)料模型匹配,做領(lǐng)域分發(fā)。在這個(gè)過(guò)程中騰訊云小微AI語(yǔ)音助手支持自然語(yǔ)音識別,語(yǔ)義理解、語(yǔ)音指令隨意說(shuō),系統均可很好的理解并執行,同時(shí)將文本轉化為語(yǔ)言流,在終端設備上進(jìn)行語(yǔ)音播報。

僅以智能語(yǔ)音交互系統為例,騰訊云小微AI語(yǔ)音助手向我們展示了在智能車(chē)聯(lián)模式中,人車(chē)之間愉悅的交互體驗。高效自然的語(yǔ)音輸入方式,輸入速度遠高于手動(dòng)輸入;安全行車(chē)釋放雙手,切換導航、調換歌曲不分散注意力;更重要的是騰訊云小微AI語(yǔ)音助手能夠讀懂車(chē)主語(yǔ)音中所包含的語(yǔ)氣、情緒等豐富信息,以做出正確的判斷,讓行車(chē)過(guò)程省心省力。
高質(zhì)量低延時(shí)語(yǔ)音合成則為我們展示了智能語(yǔ)音系統的深度學(xué)習能力。基于“互聯(lián)網(wǎng)+”自然語(yǔ)言理解發(fā)展成自然的人-機器交互方式是指基于自然語(yǔ)言理解技術(shù)重塑人與機器之間的交互方式,使自然語(yǔ)言成為人-機器之間進(jìn)行交互的自然接口。通過(guò)騰訊云小微AI語(yǔ)音助手的語(yǔ)音合成能力,支持純中文、純英文以及中英混搭的合成場(chǎng)景,提供50+種不同男女聲音色,個(gè)性化音色定制能力,王者榮耀妲己、李白定制語(yǔ)音包;采用業(yè)內領(lǐng)先的算法,優(yōu)化不同場(chǎng)景中的語(yǔ)音音色,讓AI語(yǔ)音助手發(fā)聲更為自然。

這是因為騰訊云小微AI語(yǔ)音助手采用專(zhuān)門(mén)為機器設計的語(yǔ)言編寫(xiě)程序來(lái)“告知”機器,當用戶(hù)發(fā)出某項聲音指令時(shí),機器通過(guò)深度學(xué)習掌握指令的真實(shí)意圖并執行,達成機器說(shuō)脫口秀的效果。怎么讓機器的音質(zhì)高保真、韻律更加自然連貫?騰訊云小微AI語(yǔ)音助手給出的答案是神經(jīng)網(wǎng)絡(luò )語(yǔ)音合成系統,整體架構上使用序列建模的聲學(xué)模型與神經(jīng)網(wǎng)絡(luò )聲碼器。通過(guò)GAN優(yōu)化Parallel Wave Net、Wave RNN、Feather Wave等技術(shù)升級,達到高質(zhì)量、高穩定性的自然人聲。
客服機器人的功能設計與實(shí)現,開(kāi)放能力降低企業(yè)智能化成本
如何通過(guò)AI語(yǔ)音助手幫助企業(yè)級用戶(hù)進(jìn)行商業(yè)變現?以客服機器人的接入與實(shí)現角度,指出能力獲取的方式之一正是在技能開(kāi)放平臺通過(guò)標準協(xié)議、賬號打通、商業(yè)轉化、推薦運營(yíng)全面由開(kāi)發(fā)者定制方案,構建由開(kāi)發(fā)者到用戶(hù)的語(yǔ)音服務(wù)路徑,讓開(kāi)發(fā)者以成本最小化接入客服機器人,實(shí)現個(gè)性化和精準服務(wù)效果最大化,在服務(wù)咨詢(xún)階段引入客服機器人功能,對節約前端客服人力,提升服務(wù)運營(yíng)效率。
在騰訊云小微AI語(yǔ)音專(zhuān)場(chǎng)我們了解到,騰訊云小微技能開(kāi)放平臺是唯一支持小程序接入的AI行業(yè)解決方案,目前已經(jīng)開(kāi)放與京東和大眾點(diǎn)評的合作,用戶(hù)語(yǔ)音指令即可操作在京東和大眾點(diǎn)評的購物和服務(wù),幫助小程序實(shí)現更智能化的用戶(hù)體驗。


騰訊云小微AI語(yǔ)音助手以自身技術(shù)為突破點(diǎn),在客服機器人的實(shí)現與接入上,構建起完整的工程閉環(huán)。面對未知狀態(tài)(動(dòng)態(tài))、非結構化環(huán)境下客服機器人的環(huán)境感知、環(huán)境交互、環(huán)境功能等三個(gè)方面的需求,在功能設計與實(shí)現層,按智能環(huán)境系統設計提供客服配置、客服使用、發(fā)現問(wèn)題、解決問(wèn)題的手段完成任務(wù)需求。
在客服配置上,騰訊云小微AI語(yǔ)音助手將文本模式分類(lèi)拆分為知識庫檢索、服務(wù)售前、服務(wù)售后等模式,檢索為功能性檢索,售前、售后可根據問(wèn)題回答策略轉向人工模式。其中分層模塊的搭建上注重知識庫的基礎搭建,模塊分工明確,流程簡(jiǎn)單。

在客服使用中,采用多線(xiàn)程方式、人機協(xié)同,區別普通的聊天機器人,依靠系統功能事件&指令的智能交互,形成更為精準、人性化的索引推薦。
當然,客服機器人還需要加強訓練,挖掘算法、索引堆砌并不能解決問(wèn)題,更多需要明確的系統規則和流程。想要發(fā)現問(wèn)題、解決問(wèn)題,重要的是實(shí)現人工、機器人的交互,在線(xiàn)客服、模型算法、統計監控、配置平臺,缺一不可。例如從人工服務(wù)界面引用客服機器人的索引,進(jìn)而給出服務(wù)明確的答案。只有快速迭代優(yōu)化的深度學(xué)習,才能適應數字化時(shí)代的商業(yè)發(fā)展需求。

在客服機器人的接入上,應用入口有電商平臺網(wǎng)站、WAP平臺、微信小程序入口、內部客服助手、語(yǔ)音交互方式等,實(shí)現形式基本都是在線(xiàn)模式,webchat方式通過(guò)IM、微信小程序、APP入口等實(shí)現。
在自然語(yǔ)言處理技術(shù)方面,我們主要分享了騰訊云小微的兩項前沿技術(shù),1)在2019法研杯閱讀理解賽道中獲得冠軍采用的方案;2)一篇關(guān)于信息抽取的發(fā)表在人工智能?chē)H會(huì )議IJCAI-2020上的最新論文。通過(guò)直播,我們看到了騰訊云小微在知識抽取與問(wèn)答領(lǐng)域的技術(shù)積累,并以豐富的案例形象生動(dòng)的展示了相關(guān)技術(shù)在實(shí)際應用中的作用。

不僅如此,我們還能從騰訊云小微AI語(yǔ)音助手強大的開(kāi)放能力中發(fā)現更多領(lǐng)域的應用探索,比如為企業(yè)定制品牌IP形象。這在以往不敢想象,在5G、直播風(fēng)口,虛擬人以安全、可控、高效成為眾多企業(yè)熱衷的對象,而通過(guò)騰訊云小微語(yǔ)音助手提供智能語(yǔ)音交互,根據不同硬件終端和應用場(chǎng)景,可以觸發(fā)豐富的表情動(dòng)作,快速換形象。因為騰訊云小微AI語(yǔ)音助手的全雙工交互功能,高度智能化免喚醒、主動(dòng)引導對話(huà),再加上騰訊系正版IP授權服務(wù),AI語(yǔ)音助手的商業(yè)變現價(jià)值擁有廣闊的市場(chǎng)機會(huì )。