• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 專(zhuān)家觀(guān)點(diǎn) >

    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路

    2016-12-08 09:26:57   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      本文整理自鈦媒體-鈦坦白分享課“AI已來(lái),讓機器聽(tīng)懂你的聲音”,以下為捷通華聲總經(jīng)理武衛東的分享內容。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
    捷通華聲總經(jīng)理武衛東
      大家晚上好,非常有幸在鈦坦白跟大家分享關(guān)于“從語(yǔ)音到全方位人工智能,AI技術(shù)的融合發(fā)展之路”的心得體會(huì )。
      人工智能源于何處,緣何爆發(fā)
      人工智能技術(shù)經(jīng)歷了半個(gè)多世紀的發(fā)展,現在的人工智能通過(guò)計算方法能夠賦予機器一些類(lèi)似人的感知功能,像人有口眼耳手,這是我們的感官功能。我們還有大腦,這是我們的思維認知功能,那么機器人是不是可以具備這些擬人化的功能呢?
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      像人的嘴是用來(lái)說(shuō)話(huà)的,耳朵是用來(lái)聽(tīng)聲音的,這就催生了像語(yǔ)音合成、語(yǔ)音識別這樣的語(yǔ)音技術(shù)。
      圖像識別就像人觀(guān)察外界事物的眼睛,手是用來(lái)拿東西和寫(xiě)字的,這就催生了OCR、手寫(xiě)識別技術(shù)等這樣的一些圖像識別技術(shù)。
      在眾多感知功能方面,人工智能技術(shù)還涉及到很多功能,包括人臉識別,聲紋識別,指紋識別等等。經(jīng)過(guò)十幾年的發(fā)展,我們看到人工智能技術(shù)中最難的實(shí)際上是與認知相關(guān)的一些技術(shù)。人的認知,即人的大腦,是個(gè)非常復雜的結構,可以說(shuō)到今天,我們自己也沒(méi)有研究清楚我們自己的大腦。
      近幾年來(lái),神經(jīng)網(wǎng)絡(luò )尤其是深度學(xué)習,提升了感知計算的一些模型方法,相關(guān)感知方面的技術(shù)取得了比較大的進(jìn)步。
      實(shí)際上,神經(jīng)網(wǎng)絡(luò )的一些算法研究,早在二三十年前就開(kāi)始了。我記得原來(lái)在學(xué)校的時(shí)候,我們有很多的研究人員就從事在圖像模式識別方面的一些研究,但是由于當時(shí)的算法能力以及設備能力有限,很難去在復雜結構和深層次結構上提升算法模型。
      現在的GPU技術(shù)使得過(guò)去復雜的算法模型能夠通過(guò)有效的訓練,提升訓練速率,并能夠通過(guò)算法和大數據的加工,實(shí)現更加普適性和實(shí)用性的一些模型,供我們做一些智能化的應用。
      我們看到現在的語(yǔ)音識別技術(shù),能夠達到百分之九十幾,接近于人的甚至在某些方面超過(guò)人的這樣一個(gè)準確率。通過(guò)深度學(xué)習,語(yǔ)音識別已經(jīng)實(shí)現了一些突破。
      尤其是隨著(zhù)互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,現在交互終端、智能終端,給我們在研究方面提供了大量的、真實(shí)的場(chǎng)景數據,有了這些大的數據,使用神經(jīng)網(wǎng)絡(luò )算法,通過(guò)訓練,可以讓語(yǔ)音識別技術(shù)更加實(shí)用化。
      從業(yè)20年談?wù)Z(yǔ)音技術(shù)發(fā)展
      在語(yǔ)音方面,實(shí)際上大家看到,真正最早能夠形成實(shí)用化的語(yǔ)音技術(shù)是從語(yǔ)音合成開(kāi)始的,也就是我們說(shuō)的TTS技術(shù)。
      下面給大家放一些聲音,大家可以聽(tīng)一聽(tīng),現在在語(yǔ)音合成方面,從過(guò)去比較機械的音色發(fā)展到現在流暢、自然的聲音。
      比如說(shuō)我們在一些大型的場(chǎng)館會(huì )議,像奧運會(huì ),世博會(huì ),包括一些公共場(chǎng)所,像高鐵站,機場(chǎng)聽(tīng)到的廣播聲,很多實(shí)際上都是通過(guò)語(yǔ)音合成技術(shù)合成出來(lái)的。另外,我們推出了可以唱歌的TTS技術(shù),歌唱TTS實(shí)際上就是在標準的語(yǔ)音合成基礎上,結合現在一些應用場(chǎng)景,比如說(shuō)一些娛樂(lè )機器人,教育機器人,玩具等等,在應用場(chǎng)景當中,我們做的更加娛樂(lè )化的TTS技術(shù)。
      現在大家都在探索和研究一個(gè)新方向,情感TTS。因為不管怎么樣的一個(gè)算法,達到完全像人一樣的自然、有情感、富有喜怒哀樂(lè )情緒的TTS技術(shù),還是有很多的研究工作要做。當前TTS作為一種信息的交流、信息的播報是完全可以達到實(shí)用化的程度。經(jīng)過(guò)這十幾年的時(shí)間,捷通華聲在TTS方面,國內市場(chǎng)占有率超過(guò)了50%。
      我再說(shuō)說(shuō)語(yǔ)音識別,昨天錢(qián)博士,我們清華的一個(gè)師弟特別提到了語(yǔ)音識別技術(shù)的發(fā)展。現在實(shí)際上就是說(shuō)在語(yǔ)音識別方面國內也有一些從事語(yǔ)音識別技術(shù)應用和研究的企業(yè),但是從語(yǔ)音識別現在目前發(fā)展的現狀看,普通話(huà)在一個(gè)自然的場(chǎng)景中識別率達到96%,97%,其實(shí)已經(jīng)不是什么太高的目標。
      但是96%、97%實(shí)際上并不是一個(gè)真實(shí)應用場(chǎng)景的指標,我們要利用這項技術(shù),能夠達到人人說(shuō)話(huà)、大多數常見(jiàn)聲音環(huán)境中都能達到這么高的一個(gè)準確率,還是有很多工作要做的。我個(gè)人認為,現在大家說(shuō)96%、97%實(shí)際上是一個(gè)在技術(shù)層面達到的高度,但是實(shí)際上在實(shí)用化方面,要達到這樣一個(gè)高度,我感覺(jué)恐怕國外語(yǔ)音公司也不敢這么說(shuō),我們國內的一些人有時(shí)候在這方面會(huì )更多的注入一些商業(yè)化宣傳。
      大家知道,語(yǔ)音識別是從2001年、2002年就進(jìn)入了中國市場(chǎng),但當時(shí)的語(yǔ)音識別,主要是基于命令詞條的識別。經(jīng)過(guò)十幾年的發(fā)展,語(yǔ)音識別技術(shù)進(jìn)入到自由說(shuō)的狀態(tài),當人自然說(shuō)話(huà)、自然表達時(shí),能夠準確識別,這推動(dòng)語(yǔ)音識別進(jìn)入到實(shí)現應用的階段。
      比如說(shuō)在手機端用輸入法這樣的一些app或者是工具,對著(zhù)手機尤其是現在的手機,都支持多麥克風(fēng),在近講模式下,如果你的普通話(huà)說(shuō)得比較好,96%、97%比如說(shuō)像我這樣講話(huà),98%、99%的識別率也是可能的。但是如果說(shuō)話(huà)帶著(zhù)方言,很重的方言,去識別,達到這個(gè)高度,也不是太容易,至少我現在沒(méi)有看到哪家在方言普通話(huà)或者普適性人群上面達到這樣一個(gè)高度。
      當然,這里邊還包括不同的輸入設備,比如說(shuō)在電話(huà)端,8K的窄帶數據識別率如果能達到97%,那真的是效果非常好了,現在大家的水平基本上在80%上下。那么在一些特殊領(lǐng)域里邊,通過(guò)一些垂直領(lǐng)域的優(yōu)化,模型的優(yōu)化,能達到85%,這已經(jīng)是一個(gè)很好的水平。
      在很多智能家居、家電,包括像機器人這樣一些智能終端場(chǎng)景下,有很多環(huán)境噪音,語(yǔ)音識別如果不解決這些數據信號、聲學(xué)信號的抗噪問(wèn)題,語(yǔ)音識別的應用會(huì )受很大的制約。所以現在從事語(yǔ)音的廠(chǎng)家,在麥克風(fēng)陣列這方面也都開(kāi)始做自己的研究,推出了兩麥,四麥甚至六麥這樣一些抗噪模塊,來(lái)解決實(shí)際應用場(chǎng)景下的噪音干擾問(wèn)題。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      大家看到,上面這個(gè)四麥降噪模塊,已經(jīng)在一些機器人里邊,包括一些服務(wù)機器人、兒童教育娛樂(lè )機器人中使用,其中包括線(xiàn)陣和圓陣,重點(diǎn)是解決麥克風(fēng)在遠講、定向、回聲消除,還有語(yǔ)音增強等實(shí)際應用情況。當然,語(yǔ)音識別還包括方言、多語(yǔ)種識別,以及中英文混合等情況,這些問(wèn)題我們也在不斷的研究、實(shí)踐。
      開(kāi)始時(shí)我們提到,在認知功能方面,尤其是像語(yǔ)義理解(NLU),這方面有一些國內企業(yè)在做,捷通在這方面也做了大量的工作,有很多的實(shí)踐和應用。
      例如,在智能終端方面,我們做了對話(huà),包括意圖理解,以滿(mǎn)足智能終端在語(yǔ)義理解和語(yǔ)音識別共同使用過(guò)程中的一些“理解”用戶(hù)指令的要求。另外,在一些行業(yè)的智能客服的系統里邊,我們也采用了支持多輪對話(huà)、同音字智能糾錯、上下文語(yǔ)義分析、相關(guān)問(wèn)題聯(lián)想等功能的語(yǔ)義理解技術(shù),能夠達到更好的用戶(hù)體驗和準確率。當然,語(yǔ)義理解方面要研究的東西還很多。
      語(yǔ)音服務(wù)物聯(lián)網(wǎng) 讓智能設備“能說(shuō)會(huì )聽(tīng)、能思考會(huì )判斷”
      隨著(zhù)移動(dòng)互聯(lián)網(wǎng)、云計算、大數據的發(fā)展,人工智能技術(shù)在物聯(lián)網(wǎng)領(lǐng)域有了越來(lái)越多的需求,或者說(shuō)已經(jīng)成為一種不可或缺的支撐技術(shù)。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      比如在智能機器人方面,我們通過(guò)智能客服系統,來(lái)實(shí)現語(yǔ)音交互、知識庫構建、語(yǔ)義理解,尤其是前端在噪音環(huán)境下,通過(guò)麥克風(fēng)陣列,實(shí)現遠講、抗噪、定向等等功能。在智能機器人領(lǐng)域,我們做了很多行業(yè)應用,比如說(shuō)在稅務(wù)大廳提供咨詢(xún)的稅務(wù)機器人,華夏銀行的大堂經(jīng)理機器人,還有一些圖書(shū)館,購物中心的專(zhuān)業(yè)服務(wù)機器人,當然也包括現在大家看到的很多家用的兒童教育機器人、娛樂(lè )機器人,以及陪伴機器人,通過(guò)應用智能客服系統,這些機器人進(jìn)入了各個(gè)行業(yè),未來(lái)將會(huì )進(jìn)入到我們生活的方方面面。
    靈云智能機器人解決方案
      在智能家居、家電方面,比如說(shuō)電視,我們搜電影時(shí),遙控器按鍵輸入慢,總是讓人很頭疼。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      我們將語(yǔ)音技術(shù)應用到電視遙控器上,比如小米電視,樂(lè )視,還有廣電盒子,通過(guò)語(yǔ)音的交互,實(shí)現電視內容的快速搜索,甚至一些購物,社區服務(wù)等。
    靈云智能語(yǔ)音電視解決方案
      在智能家居方面,整合了語(yǔ)音交互的麥克風(fēng)陣列是一個(gè)非常好的工具,我們可以遠距離隨意控制燈光、調節空調等,通過(guò)引入人工智能技術(shù),讓家居生活更舒適。
      在智能汽車(chē)領(lǐng)域,尤其是現在大家看到的無(wú)人駕駛、輔助駕駛系統中,也是人工智能的一個(gè)很好應用。但是我個(gè)人對于無(wú)人駕駛汽車(chē)未來(lái)的走向,至少目前看,三五年內我感覺(jué)很難真正走向實(shí)用化,因為交通控制,包括很多交通規則,都會(huì )限制無(wú)人車(chē)在這方面的發(fā)展。但是我相信,通過(guò)引入智能化的一些技術(shù),可以在輔助駕駛,包括像一些車(chē)載領(lǐng)域發(fā)揮很好的作用。
      例如,語(yǔ)音交互技術(shù)在智能車(chē)載上的應用,這里邊包括語(yǔ)音識別的抗噪模型訓練、硬件的降噪,以及像喚醒、聲源定向、智能糾錯等技術(shù)層面的要求。另外,汽車(chē)現在實(shí)際上已經(jīng)是人們出行的一個(gè)必備手段了,現在北京的交通大家都知道,車(chē)內設備的語(yǔ)音控制實(shí)際上可以有效提高駕車(chē)的安全性。同時(shí),通過(guò)汽車(chē)這樣一個(gè)移動(dòng)設備,可以給我們提供導航、餐館、訂酒店、訂機票,以及天氣、股票等信息的語(yǔ)音查詢(xún),甚至成為我們生活當中的一個(gè)移動(dòng)辦公場(chǎng)所。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      在這里也提一下,就是我們在汽車(chē)交互方式方面的一個(gè)經(jīng)驗或感覺(jué),可能東西方人對于汽車(chē)的操控習慣不同。比如說(shuō)捷通華聲早在我們成立的時(shí)候,就做了手寫(xiě)識別技術(shù),在歐美的一些高端車(chē)輛上,通過(guò)引入我們的手寫(xiě),比如像法拉利、奧迪、寶馬,還有日韓系的像尼桑、現代等等這些車(chē)里邊用到了我們的手寫(xiě)技術(shù)。我們過(guò)去也不太理解,為什么老外覺(jué)得手寫(xiě)還可以用,后來(lái)發(fā)現,大家可能在一些操作上邊還是習慣有些不同,我們中國人可能更善于講,可能老外更善于做一些實(shí)際的操控性的,所以這個(gè)時(shí)候大家看到我們的語(yǔ)音交互在車(chē)機里邊是大家關(guān)注的一個(gè)熱點(diǎn),但是手寫(xiě)他們也會(huì )用,而且用的量也不少。不管是用語(yǔ)音的交互還是手寫(xiě)的交互,其實(shí)都是通過(guò)這樣的一些人工智能的交互手段,來(lái)提升人們的駕車(chē)體驗,提升駕車(chē)的安全性和舒適性。
      捷通華聲推出首個(gè)全方位人工智能開(kāi)放平臺—靈云
      剛才講了很多物聯(lián)網(wǎng)領(lǐng)域的應用場(chǎng)景,下面重點(diǎn)介紹一下捷通目前做的一些靈云全方位人工智能開(kāi)放平臺方面的工作。
      捷通的靈云平臺(AIcloud.com)是我們早在2011年我們就推出的全球首個(gè)全方位人工智能開(kāi)放平臺,在當時(shí)我們就定立了這么樣一個(gè)目標:要實(shí)現語(yǔ)音、手寫(xiě),拍照,手勢甚至將來(lái)可以使用腦波來(lái)進(jìn)行智能化的一些手段來(lái)進(jìn)行人機交互。經(jīng)過(guò)幾年的建設,靈云平臺已經(jīng)構建了集合十項核心技術(shù)的全方位人工智能開(kāi)放平臺。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      其中包括智能語(yǔ)音方面的,語(yǔ)音合成、語(yǔ)音識別技術(shù);圖像交互方面,OCR、手寫(xiě)識別;生物特征識別方面的人臉識別、聲紋識別和指紋識別;智能語(yǔ)義方面,包括語(yǔ)義理解、機器翻譯、數據挖掘等共10項技術(shù)。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      靈云實(shí)際上是通過(guò)構建這樣一個(gè)云服務(wù)平臺,提供這些能力,并在能力基礎上,提供智能化解決方案,包括全智能客戶(hù)服務(wù)、多維生物特征識別身份認證服務(wù)平臺等深入行業(yè)的解決方案,構建了包括公有云服務(wù)、全智能能力平臺和全智能解決方案組成的產(chǎn)品生態(tài)體系。
      靈云人工智能產(chǎn)品生態(tài)
      靈云構建的B2B2C商業(yè)模式,深入金融、電信、能源、交通、政務(wù)、公檢法等各個(gè)行業(yè),提供全方位的人工智能能力和解決方案。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      靈云支持云+端能力,也就是說(shuō)既可以用我們云端的能力,也可以用我們本地的能力,我們所有的技術(shù)都支持“云+端”的方式訪(fǎng)問(wèn),這樣就讓廣大的開(kāi)發(fā)者和企業(yè)合作伙伴能方便地調用各種應用能力。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      在這些應用當中,我特意介紹一下我們在維語(yǔ)和漢語(yǔ)的翻譯,因為在語(yǔ)音方面,我們除了中文普通話(huà),我們還做了少數民族語(yǔ)言,同時(shí)構建了十幾種國外的包括英文、法文、德文這樣的一些語(yǔ)音交互能力。維漢友誼橋這個(gè)翻譯APP,目前在新疆少數民族地區,已經(jīng)有數百萬(wàn)用戶(hù)在使用,大大方便了我們漢族干部和少數民族間的交流,大家可以下載體驗下。還有一個(gè)也是現在有幾百萬(wàn)用戶(hù)在使用的出國翻譯官,這個(gè)APP也是用了靈云上邊的各種能力,能夠方便的在出國的時(shí)候,你不管去哪個(gè)國家,有了這樣一個(gè)應用就可以方便的和當地人進(jìn)行交流,給大家的出行和旅游提供便利。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      我們一直強調,現在A(yíng)I技術(shù)的應用實(shí)際上已經(jīng)不是單一能力的應用。為什么講融合,AI的融合發(fā)展,實(shí)際上是現在我們遇到的很多應用場(chǎng)景所需要的。在智能終端交互方面,比如說(shuō)現在我們做的機器人,它其中就用到了語(yǔ)音識別,語(yǔ)音合成,語(yǔ)義理解,人臉識別,甚至聲紋識別;在終端應用的場(chǎng)景里邊,包括在家電,現在我們給家電廠(chǎng)商實(shí)際上也在提供一些除了語(yǔ)音交互之外的能力,大家提出來(lái)一些比如說(shuō)像聲紋識別、人臉識別等需求,包括在家庭的陪伴機器人、服務(wù)機器人方面,包括兒童陪伴機器人這塊,也提出了一些比如說(shuō)類(lèi)似圖像的識別、人臉的識別,包括視頻監控等等這方面需求。這些需求,實(shí)際上就是人工智能的融合應用。在捷通的靈云平臺上,如果用了我們這個(gè)平臺的話(huà),這些能力都可以很方便的實(shí)現調用,因為靈云平臺是一個(gè)開(kāi)放平臺,我們的平臺能力,都能夠在開(kāi)發(fā)者社區上方便地調用。
      捷通構建靈云平臺實(shí)際上是我們有一個(gè)愿景,就是希望能夠讓每一家企業(yè)都能夠擁有人工智能,希望每一個(gè)用戶(hù)都能夠享受人工智能帶來(lái)的便捷。源于這個(gè)目標,我們推出了靈云全智能能力平臺,我們會(huì )和更多行業(yè)集成商、平臺廠(chǎng)商,一起來(lái)合作,為企業(yè)提供人工智能能力。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      在智能解決方案方面,我們推出了全智能客戶(hù)服務(wù)和靈云身份認證平臺。我們推出的靈云全智能客戶(hù)服務(wù)是一種客服新模式,它包括了實(shí)體機器人、網(wǎng)絡(luò )版在線(xiàn)智能客服、電話(huà)客服機器人、智能語(yǔ)音導航等智能客服產(chǎn)品,以及智能語(yǔ)音分析、電話(huà)外呼機器人等呼叫中心行業(yè)解決方案,為用戶(hù)提供隨時(shí)隨地、隨手可及的智能客戶(hù)服務(wù),同時(shí)也大幅降低了企業(yè)的客服成本,提升了客戶(hù)服務(wù)效率和質(zhì)量。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      在身份認證方面,隨著(zhù)我們人臉、聲紋、OCR技術(shù)的發(fā)展,我們推出了人證合一綜合“人臉識別+聲紋識別+指紋識別,OCR證照識別”的靈云身份認證服務(wù)平臺,這個(gè)系統已在人行的征信系統里得到應用。現在單一生物特征識別技術(shù),比如說(shuō)人臉技術(shù),包括所有的人工智能技術(shù),大家很難說(shuō)做到100%。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      我們通過(guò)這樣多項技術(shù)的一個(gè)融合,識別時(shí)候我們可以把一個(gè)最小的出錯概率集合到一個(gè)很小的數字集合上,比如說(shuō)我們通過(guò)人臉、聲紋、指紋可能有1%、2%這樣的錯誤率,三種技術(shù)融合,再加OCR,人證合一,可以把這個(gè)錯誤率降到萬(wàn)分之一,甚至更小。這就是我們推出的多維生物特征識別安全身份認證平臺,也是AI技術(shù)融合應用的一個(gè)很好案例。
      融合能力 融合應用 融合服務(wù) 是AI技術(shù)發(fā)展趨勢
      我們給一些公檢法包括政府部門(mén)在一些會(huì )議系統方面做了一些智能解決方案。一方面通過(guò)語(yǔ)音識別實(shí)現會(huì )議轉寫(xiě),解放了筆錄人員,降低速記員的一些勞動(dòng)強度;在整個(gè)會(huì )議系統里邊,實(shí)現電子簽到,利用我們現在手寫(xiě)筆跡技術(shù);通過(guò)人臉識別、身份證識別,確保參會(huì )者的身份;通過(guò)語(yǔ)音交互,我們可以輕松的來(lái)控制投影設備、燈光設備、包括大屏幕的一些切換;另外,通過(guò)語(yǔ)音識別和OCR的組合,可以把會(huì )議內容實(shí)時(shí)結構化轉寫(xiě),并且通過(guò)OCR把一些會(huì )議文件,自動(dòng)掃描錄入,全面、快速記錄會(huì )議內容;還有,通過(guò)實(shí)時(shí)翻譯并語(yǔ)音播報,把會(huì )議內容同步聲音直播,這些場(chǎng)景在我們在一些政府辦公廳已經(jīng)實(shí)現了應用。此外,像我們遇到的一些比如說(shuō)公檢法的辦公人員,他們可能每天要閱讀大量的文件,很費眼睛,所以像我們的語(yǔ)音合成,他們就很受歡迎,這樣的話(huà)他可以去聽(tīng),邊聽(tīng)邊校,這樣就可以把他們的工作變得更加有趣,更加輕松。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      還有一個(gè)很有趣的是什么呢?比如說(shuō)現在我們給銀行做大廳服務(wù)機器人的時(shí)候,一方面通過(guò)語(yǔ)音交互來(lái)咨詢(xún)服務(wù),用智能客服系統來(lái)傳遞用戶(hù)需要的服務(wù)內容。在機器人上邊,還實(shí)現了人臉識別、聲紋識別。對于一些VIP客戶(hù),剛剛到了銀行大廳,他可以通過(guò)人臉識別確認身份,能夠更好的對這些VIP客戶(hù)提供服務(wù),這樣的話(huà)讓VIP客戶(hù)能夠到銀行以后感覺(jué)到一種新的感受。我們做這些能力,其實(shí)就是希望能夠讓這些設備更加智能化,有更多的功能來(lái)服務(wù)好用戶(hù)。
      合作理念:不與合作伙伴爭地盤(pán)
      另外捷通在十幾年的發(fā)展當中,我們也在不斷總結,我們的定位實(shí)際上就是做一個(gè)人工智能能力和解決方案的供應商。我們有數千家的合作伙伴,包括我們在靈云平臺上服務(wù)了四億多用戶(hù),我們也希望能夠實(shí)現一個(gè)準確定位,構建一個(gè)產(chǎn)業(yè)的生態(tài)。這方面和我們的合作伙伴共同探索一些服務(wù)運營(yíng)模式,捷通是絕對不會(huì )去做和我們合作伙伴,合作企業(yè)爭地盤(pán)的事情,這是我們的一個(gè)明確定位,我們就把我們的人工智能的技術(shù)、產(chǎn)品、服務(wù)做好。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      靈云的愿景,就是讓機器“能說(shuō)會(huì )聽(tīng)、能寫(xiě)會(huì )看、能辨音會(huì )認人、能思考會(huì )判斷”。我們希望能夠匯聚大家的力量,共同分享人工智能產(chǎn)業(yè)機遇。
    從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路
      人工智能是長(cháng)跑企業(yè)的使命是將技術(shù)產(chǎn)業(yè)化
      另外,最后想跟大家分享一些思考。
      現在大家可能談到人工智能的時(shí)候,往往就會(huì )想到語(yǔ)音識別,實(shí)際上現在語(yǔ)音識別還有很多很多的工作和路要走,我非常認同昨天錢(qián)博士提出的一些觀(guān)點(diǎn),我感覺(jué)就是說(shuō)人工智能本身是一個(gè)長(cháng)跑,這是一個(gè)沒(méi)有終點(diǎn)的長(cháng)跑,真的需要一些韌性,我們現在很多的技術(shù)不是說(shuō)不好,是沒(méi)有很好的去用,或者用的不好。另外一個(gè),可能大家對這些技術(shù)的期望值有點(diǎn)過(guò)高,也希望產(chǎn)業(yè)界能夠給像捷通這樣,包括其他的一些我們的同仁一些寬容,因為人工智能技術(shù)本身還有很多的工作要做,還有很長(cháng)很長(cháng)的路要走。
      另外,其實(shí)現在大家看到的,這些基礎性研究,不管從國外還是國內,實(shí)際上在一些基礎性的研究尤其是一些方法理論性的研究,主要還是來(lái)自于大學(xué),這也就是為什么靈云和清華大學(xué),捷通華聲和清華大學(xué)建立“靈云科技源自清華”深度合作的原因。我們在清華大學(xué)建了靈云人工智能研究中心,我們有十幾位教授,把他們幾十年來(lái)的研究,積淀的一些東西與產(chǎn)業(yè)結合,把這些技術(shù)成果應用起來(lái)。但是基礎研究的工作,企業(yè)去做恐怕不是太容易,我們還是應該把這些基礎研究的工作交給我們這些教授們,專(zhuān)家學(xué)者們去做。
      那么企業(yè)應該做的是什么呢?我們應該做的是一些應用型的研究,包括一些產(chǎn)業(yè)化的研究,企業(yè)應該結合產(chǎn)業(yè),把我們現在目前能夠實(shí)現的一些人工智能技術(shù)很好地轉化到應用當中去,我覺(jué)得這是我們企業(yè)的使命。
      人工智能技術(shù)的應用市場(chǎng)很廣闊,但是我也感覺(jué),因為我從業(yè)也有二十幾年了,在這個(gè)領(lǐng)域里邊,人工智能技術(shù)我個(gè)人感覺(jué),從技術(shù)本身來(lái)講,不是非常適合于創(chuàng )業(yè)團隊,去拿這個(gè)技術(shù)去創(chuàng )業(yè)。因為這是燒錢(qián)的事,這是燒錢(qián)的行當,我想資本界也應該能夠看到這一點(diǎn),這不是個(gè)黃金坑,大家跳下去不那么容易上來(lái)。捷通做人工智能,其實(shí)也是經(jīng)歷了十幾年這樣的一個(gè)歷程。
      最后,我用我們這個(gè)小機器人唱“五星紅旗”來(lái)結束我今天的分享,謝謝大家。
    悅耳歌聲源自靈云歌唱語(yǔ)音合唱技術(shù)
      鈦媒體是國內首家TMT公司人社群媒體,最有鈦度的一人一媒體平臺,集信息交流融合、IT技術(shù)信息、新媒體于一身的媒體平臺。鈦坦白,作為鈦媒體旗下的微信公開(kāi)課,匯集行業(yè)大牛鈦客,分享行業(yè)干貨。
      靈云平臺更多信息:www.AIcloud.com
      體驗靈云客服機器人:010-82826886-8898

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 涪陵区| 玉田县| 壤塘县| 万山特区| 垣曲县| 临漳县| 正阳县| 喀什市| 嵊泗县| 龙州县| 吉林市| 淮北市| 花莲市| 乌海市| 苏州市| 内黄县| 永顺县| 寿光市| 襄城县| 鄂托克前旗| 南京市| 额济纳旗| 西和县| 五指山市| 滨州市| 桂东县| 鸡东县| 罗甸县| 禹城市| 金秀| 义乌市| 陆川县| 梨树县| 治县。| 广汉市| 卓资县| 田林县| 江油市| 贞丰县| 寿阳县| 阿坝| http://444 http://444 http://444 http://444 http://444 http://444