
面對這群雄爭霸的局面,云知聲IoT副總裁陳吉勝在CES Asia 2017展會(huì )的現場(chǎng)告訴動(dòng)點(diǎn)科技,云知聲的優(yōu)勢在于技術(shù)、產(chǎn)品設計、產(chǎn)品落地的三位一體。而其中,將技術(shù)落地到用戶(hù)愿意購買(mǎi)的產(chǎn)品是關(guān)鍵。
在加入云知聲之前,陳吉勝與云知聲創(chuàng )始人黃偉都是摩托羅拉的老同事,當時(shí)便已經(jīng)開(kāi)始研究語(yǔ)音識別、語(yǔ)音合成以及圖像識別等新型人機自然交互方案,黃偉當時(shí)負責算法的研發(fā),而陳吉勝負責算法的工程落地。之后陳吉勝又到了埃森哲任通信及高科技事業(yè)部經(jīng)理,為國內華為等電信廠(chǎng)商提供圖像處理方面的一些解決方案。再之后他還去了像索尼愛(ài)立信這樣的手機公司。直到2015年6月陳吉勝加入云知聲,負責云知聲的技術(shù)落地與產(chǎn)品化。
好算法并不是會(huì )看論文就能得到的
人工智能大火,相關(guān)創(chuàng )業(yè)企業(yè)也越來(lái)越多,而這些企業(yè)所采用的技術(shù)在本質(zhì)上基本都是深度學(xué)習。然而,有人卻認為人工智能時(shí)代算法并不重要,因為業(yè)界一旦有好的算法出現,很快就能出現在學(xué)術(shù)界的論文里,企業(yè)只要會(huì )看這些大多來(lái)自國外的論文,便能得到這些最先進(jìn)的算法。
對此,陳吉勝認為這個(gè)說(shuō)法有待商榷。“會(huì )看論文并將它實(shí)現只是最基本的要求,這是在PC上實(shí)現的,但在PC上能實(shí)現與在設備上實(shí)現卻是兩個(gè)不同的概念,比如在手機上也能實(shí)現PC上的算法,但功耗呢?因為手機不像PC是連接電源的,所以算法要做進(jìn)一步的優(yōu)化,這只是一個(gè)簡(jiǎn)單的例子,主要是想說(shuō)明,看懂論文、輸出算法只是入門(mén),離真正做出消費者愿意購買(mǎi)的產(chǎn)品,這只是萬(wàn)里長(cháng)城第一步,人才并不那么好找。”
“其實(shí)算法上的核心壁壘還是挺高的。”陳吉勝表示,在算法方面云知聲CTO梁家恩專(zhuān)門(mén)帶領(lǐng)著(zhù)一個(gè)博士碩士比例“相當高”的算法團隊專(zhuān)門(mén)負責,“這是我們的核心競爭力之一。”
算法只是一方面,產(chǎn)品如何落地更關(guān)鍵
“不過(guò),光有技術(shù)也是不行的,你還要將技術(shù)做成可落地可商業(yè)化的產(chǎn)品。這一塊需要有豐富的工程經(jīng)驗,因此我們還組建了一個(gè)研發(fā)團隊和一個(gè)實(shí)施落地的團隊。”陳吉勝表示他們最擅長(cháng)的便是后兩者,即產(chǎn)品研發(fā)和落地。“雖然后面兩個(gè)團隊工程師相對于核心算法團隊更好找,但想要將產(chǎn)品做得非常好,其實(shí)門(mén)檻也非常高。你需要找到既要懂工程又要懂算法還要懂產(chǎn)品的人才。這便是我們的另一個(gè)核心競爭力。”
“我們看見(jiàn)有很多公司,他雖然有很好的技術(shù),但卻一直沒(méi)有辦法實(shí)用化和產(chǎn)品化。”陳吉勝認為其主要問(wèn)題就出在缺乏好的產(chǎn)品研發(fā)和落地實(shí)施團隊上。
為了說(shuō)明這一點(diǎn),陳吉勝還舉例認為如今在語(yǔ)音識別領(lǐng)域,備受追捧的多麥克風(fēng)陣列方案其實(shí)就沒(méi)有考慮好技術(shù)如何落地。“現在都在說(shuō)多麥克風(fēng)陣列效果好,而且是麥克風(fēng)越多效果越好,在理論上這的確是對的。但是難道就不能換個(gè)思路,以更少的麥克風(fēng)實(shí)現多麥克風(fēng)的效果?多一個(gè)麥克就意味著(zhù)多一些成本,而且多麥克與少麥克在使用一段時(shí)間后哪個(gè)會(huì )更容易出問(wèn)題呢?顯然是多麥克風(fēng)方案,這是個(gè)概率問(wèn)題,且意味著(zhù)更高的維修成本。”
陳吉勝還表示,云知聲在美的、格力的智能家居方案中就為了便于制造落地采用了最簡(jiǎn)單的兩麥克風(fēng)方案,“難道是說(shuō)我們做不了4個(gè)、6+1個(gè)甚至更多的麥克嗎?試想在設備上打兩個(gè)洞與打4個(gè)甚至更多個(gè)洞,哪個(gè)更簡(jiǎn)單?而且要使兩個(gè)洞都保持在一個(gè)軸心上,是完全不用操心的——兩點(diǎn)確定一條直線(xiàn)。”
不僅如此,陳吉勝還認為開(kāi)發(fā)出一個(gè)好的算法只是萬(wàn)里長(cháng)城的第一步,而后面技術(shù)落地方面還有千萬(wàn)步要走。具體而言,陳吉勝認為技術(shù)落地至少還有以下這些坑需要注意:
1、交互設計。“就拿語(yǔ)音識別舉例,企業(yè)說(shuō)自己產(chǎn)品的識別率可達95%,但用戶(hù)是不會(huì )知道這個(gè)數字的,他只會(huì )在使用過(guò)程中不斷感知到產(chǎn)品的識別到底好不好,而感知就是交互設計,這第一件事情就能難,怎么讓用戶(hù)愿意來(lái)使用這個(gè)產(chǎn)品。比如人跟一個(gè)智能音響的交流,就必須要非常符合人的使用習慣。而一個(gè)產(chǎn)品要做到符合人的使用習慣,這對設計的要求就非常之高。絕大部分產(chǎn)品都不符合人的使用習慣,否者也就不會(huì )只有一家蘋(píng)果了。”
2、要將產(chǎn)品做穩定。從一個(gè)demo到用戶(hù)可以長(cháng)時(shí)間使用而不出問(wèn)題的產(chǎn)品,這是非常關(guān)鍵也是比較難的。
3、降低成本。你要將成本不斷地往下降,而且性能還不能有什么損失,這也非常考驗工程團隊。
“這些步驟聽(tīng)起來(lái)很枯燥,大家認為其理所當然要做好,但要將其變?yōu)楝F實(shí),這些步驟你就必須要一步步地走過(guò)去。”陳吉勝如此表示。
算法、設計、工程的三位一體化
此外,陳吉勝認為在人工智能或者說(shuō)是語(yǔ)音識別領(lǐng)域,各大公司按技術(shù)先進(jìn)與否其實(shí)可以分成幾個(gè)檔次,一些公司可能會(huì )在稍微高一點(diǎn)的檔次上面,而另一些公司則處于相對低一點(diǎn)的檔次上。“目前人工智能領(lǐng)域主要運用的深度學(xué)習就像是一種兵法,大家得到的兵法都一樣,但更關(guān)鍵的其實(shí)在于如何運用這些兵法。”
“做得好就能更快落地,更快落地就能得到這個(gè)場(chǎng)景下更有價(jià)值的數據,而更好的數據又能使產(chǎn)品更加地完善。這是一個(gè)正向循環(huán)的過(guò)程。”陳吉勝表示云知聲便做到了算法、產(chǎn)品設計、工程落地的三位一體化:
對于甲方客戶(hù)而言,他們開(kāi)始可能會(huì )有多種方案進(jìn)行嘗試,但在最后,他們會(huì )尋找一個(gè)最可行的方案。陳吉勝認為云知聲很有機會(huì )最后中選這個(gè)合作方的。“我們信心的最終來(lái)源就在于算法技術(shù)、工程能力、設計能力的三位一體化,這是根本原因。而表現上則可能是我們得到了很多大客戶(hù)認可,并經(jīng)歷了非常嚴密的測試。”據了解,云知聲目前的合作伙伴已超過(guò)2萬(wàn)家,覆蓋車(chē)載、家居、醫療等領(lǐng)域。
另外,巧婦難為無(wú)米之炊,在人工智能領(lǐng)域,數據一直都是至關(guān)重要的。像蘋(píng)果Siri、搜狗輸入法等等依靠硬件或軟件的巨大市場(chǎng)占有率,似乎在數據收集方面有著(zhù)先天的優(yōu)勢。對此,陳吉勝強調,“在很多實(shí)際公開(kāi)場(chǎng)合下,其實(shí)并沒(méi)有太多人愿意用語(yǔ)音。而我們的語(yǔ)音數據更多來(lái)源于特定場(chǎng)景,比如車(chē)里和家居里面等私密環(huán)境,用戶(hù)愿意放開(kāi)嗓子說(shuō),而且很多時(shí)候不用反而還不方便。所以我們得到的是一些在垂直領(lǐng)域內非常有價(jià)值的數據。”陳吉勝說(shuō)到。
值得一提的是,面對搜狗、科大訊飛、蘋(píng)果、谷歌等競爭對手,陳吉勝認為分級并不意味著(zhù)第一檔以外的企業(yè)就完全沒(méi)有機會(huì )了,“如果你認為只有最好的技術(shù)才有人買(mǎi),那不就意味著(zhù)這些方案的價(jià)格要高到天上去了嗎?市面上有吃十塊錢(qián)雞腿的,也有吃5塊錢(qián)雞腿的。”陳吉勝表示。
打造“云端芯”生態(tài)閉環(huán)
據了解,為了加速語(yǔ)音識別技術(shù)的落地,云知聲打造了一個(gè)“云端芯”的一體化的解決方案,主要包括AI芯、AIUI、AI Service。
“AI芯是一種專(zhuān)門(mén)的芯片,用來(lái)跑離線(xiàn)的智能。而芯片最終還是要運用到終端設備上的,因此需要與人有一定的交互,這就是說(shuō)需要AIUI,而交互有時(shí)候也是需要有云端支持的,這就是AI Service。”陳吉勝表示,“芯片有非常多種,CPU用來(lái)做通用處理,GPU用來(lái)做圖像方面的專(zhuān)用處理,而我們的芯片就用來(lái)做聲音方面的專(zhuān)用處理。”
另外,陳吉勝表示做芯片是一件高風(fēng)險的事,而之所以一定要做AI芯片,其實(shí)也是為了技術(shù)能以更低的成本更快地落地。“并不是說(shuō)通用芯片不夠用,而是說(shuō)通用芯片不合適。通用芯片的計算能力對于語(yǔ)音處理而言已經(jīng)足夠用了,但犯不著(zhù)。比如,你花大價(jià)錢(qián)買(mǎi)了一個(gè)大房子,卻只是用來(lái)晚上睡覺(jué),太浪費了。”
云知聲的AI芯片(Uni One)目前還在研發(fā)中,將內置DNN處理單元,兼容多麥克風(fēng)、多操作系統。未來(lái),AI芯將以模組的形式提供給客戶(hù),客戶(hù)有了模組就意味著(zhù)有了一整套云端芯的服務(wù)。
值得一提的是,就在不久前,云知聲又發(fā)布了一款名叫Pandora的語(yǔ)音中控方案,將遠場(chǎng)語(yǔ)音識別、語(yǔ)義理解等復雜的AI技術(shù)元素整合為一個(gè)整體方案。基于“Pandora”方案打造一款專(zhuān)屬語(yǔ)音中控產(chǎn)品的研發(fā)周期可以控制在6個(gè)月,大大降低了產(chǎn)品化難度與風(fēng)險。
據了解,云知聲成立于2012年6月29日,總部位于北京,在上海、深圳設有分公司,目前員工超過(guò)200人。其最新透露的融資消息是2015年底已經(jīng)完成數千萬(wàn)美金的B+輪融資。