• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 文章精選 >
     首頁(yè) > 新聞 > 文章精選 >

    聊天機器人進(jìn)入深耕應用場(chǎng)景時(shí),什么才是真正的殺手锏?

    2017-09-01 14:05:08   作者:   來(lái)源:雷鋒網(wǎng)   評論:0  點(diǎn)擊:


      雷鋒網(wǎng)按:今年的墨爾本IJCAI 2017上,一眾中國公司參會(huì )并出現在其白金贊助商名單上,其中的小i機器人是8家贊助商名單中比較特別的一家,或許它的AI 造勢不如BAT們來(lái)得那么聲勢浩大,但它的聊天機器人在垂直領(lǐng)域的深耕或許你早有耳聞,通信、金融、電 子政務(wù)、電子商務(wù)、智能硬件這些在同行眼中比較難啃的傳統領(lǐng)域和新興領(lǐng)域它們都一一涉足,競爭對手形態(tài)則從單純的聊天機器人,客服機器人上升到深度語(yǔ)義平臺,云服務(wù)平臺等。如此,在單個(gè)領(lǐng)域,百度DuerOS、騰訊小微、思必馳、三角獸這樣級別的公司都可以算作它的“對手”,但小i機器人跟大家“交鋒”的時(shí)候方向跟對手各有細微側重,多個(gè)領(lǐng)域合力的結果,就是小i聊天機器人在智能客服等領(lǐng)域“市場(chǎng)份額越來(lái)越大”,“各個(gè)垂直領(lǐng)域語(yǔ)言知識庫和業(yè)務(wù)知識庫也愈來(lái)愈豐富”,儼然一匹不可忽視的實(shí)力黑馬。
      究其原因,其一是聊天機器人背后的語(yǔ)義識別的技術(shù)難度本來(lái)就大;其二是聊天機器人應用的具體細分領(lǐng)域,各自領(lǐng)域的行業(yè)壁壘并不低,沒(méi)有一定的行業(yè)積累和時(shí)間投入,對手很難在短時(shí)間內追上。但是聊天機器人接下來(lái)要在學(xué)術(shù)會(huì )議中具體要學(xué)習到什么?實(shí)際應用場(chǎng)景中受技術(shù)影響的因素有多大?具體應用時(shí)要注意些什么?在聊天機器人進(jìn)入深耕應用場(chǎng)景的時(shí)候,又怎么通過(guò)學(xué)術(shù)會(huì )議更上一層樓?就此雷鋒網(wǎng)在IJCAI上特意訪(fǎng)問(wèn)了小i機器人CEO朱頻頻。
      關(guān)于IJCAI采訪(fǎng)IJCAI澳洲主席的時(shí)候,他提到小i是國內第一個(gè)來(lái)贊助這個(gè)大會(huì )的,包括之前小i也出現在諸多人工智能大會(huì )的白金,黃金贊助商名單上,小i贊助學(xué)術(shù)大會(huì )的標準是什么?需求是什么?
      中文自然語(yǔ)言處理在上個(gè)世紀年代已相對成熟,我們做的主要工作是在以前的NLP的基礎上把它工程化,以及解決在行業(yè),領(lǐng)域實(shí)踐中的數據問(wèn)題,去做一些整合工作,再不斷地迭代,形成自己在數據層面、引擎層面的壁壘。
      我們來(lái)學(xué)術(shù)會(huì )議,會(huì )重點(diǎn)關(guān)注是不是有一些比較顛覆性的技術(shù),可能會(huì )重新定義或改變以前的圖像識別,聲音處理,自然語(yǔ)言處理的方法。雖然目前DL已經(jīng)極大地改變了圖像識別的方法,但在自然語(yǔ)言處理方面還不是那么的明顯,在學(xué)術(shù)上也有很多探索,但在實(shí)際應用中還沒(méi)有收到一個(gè)比較好的反饋,IJCAI作為世界頂尖的學(xué)術(shù)會(huì )議,里面有許多不錯的學(xué)生,最新的一些技術(shù),以及跟世界最前沿的一些研究的對接。還有一點(diǎn),最近國內發(fā)布的一些人工智能報告說(shuō)的挺客觀(guān)的一個(gè)事實(shí),其提到國內的人工智能并不落后,甚至在某些應用層面屬于領(lǐng)先,不過(guò)在原創(chuàng )和相對基礎的技術(shù)上,中國相對比較落后,這是我們要去關(guān)注最前沿會(huì )議的一個(gè)關(guān)鍵原因。
      總的來(lái)說(shuō),我們參加學(xué)術(shù)會(huì )議的標準可以歸納為3點(diǎn):向工業(yè)化靠近;跟語(yǔ)言語(yǔ)義比較相關(guān)的;相關(guān)會(huì )議中的國際頂會(huì )。
      這次小i在IJCA Iindustry day的演講主題是《聊天機器人的產(chǎn)業(yè)應用實(shí)踐》,為什么選這個(gè)?您自己去聽(tīng)了哪些演講,主要想學(xué)習或者了解到什么?哪些學(xué)術(shù)論文和討論讓您受到了啟發(fā)?
      學(xué)術(shù)工作很多時(shí)候會(huì )關(guān)注在非常細的一些點(diǎn),比如某個(gè)算法上可能會(huì )提升多少個(gè)百分點(diǎn),這在工業(yè)應用上并非最關(guān)鍵的部分,最關(guān)鍵的部分其實(shí)是看這個(gè)算法的綜合效果,對數據的要求,或者基于數據的工作對整個(gè)系統的提升。
      我自己聽(tīng)了一個(gè)關(guān)于對文章標題的辨識(相符,有歧義,不符合)的相關(guān)論文報告,這個(gè)論文主要講通過(guò)機器學(xué)習,把提取關(guān)系的方法轉化成語(yǔ)義排序的方法,但這就是一種新的方法,效果好不好后面有待驗證。據我的了解,當它采用人工標注的方式去對主流門(mén)戶(hù)網(wǎng)站的媒體文章標題進(jìn)行符合度辨識時(shí),論文的調查結果很有意思。其中發(fā)現新浪搜狐文章標題的百分比顯示正常,今日頭條文章標題的misleading(不符合)的比例則達到了30%,我自己對此的理解就是,這個(gè)地方是個(gè)標題黨。另外還聯(lián)想到一個(gè)點(diǎn)就是知識圖譜,目前它的初始關(guān)系圖大都是人幫建的,然后要去做好本體,以及各個(gè)內在關(guān)系在語(yǔ)義上的描述,但我想目前這塊除了人工標注的方法,有沒(méi)有自動(dòng)的方法?
      接著(zhù)說(shuō)上面關(guān)于對文章標題黨的辨識論文的實(shí)際價(jià)值,同樣的工作,還有互聯(lián)網(wǎng)上非結構化的數據去尋找這樣的關(guān)系,我們更看重其可能可應用于幫助我們去發(fā)現和搜集規則,上面論文提到的排序法可能會(huì )出現一些噪音,不過(guò)通過(guò)這些噪音分析會(huì )不會(huì )反而會(huì )通向真正的解決辦法?答案當然是智者見(jiàn)智,主要看人怎么去參與,根據我們的實(shí)際經(jīng)驗,最好的系統常常是用戶(hù)邊使用邊升級,所以可以嘗試用在數據挖掘中而非生產(chǎn)系統中,這是我暫時(shí)能想到的。
      小i在學(xué)術(shù)研究上的合作院校有哪些?
      目前有復旦,華東師范,中科院軟件所,中科院計算所,中科大(這個(gè)跟很多公司在合作)。另外我們在貴陽(yáng)成立一個(gè)子公司,幫助他們建立大數據的人工智能平臺。今年聯(lián)合復旦實(shí)驗室投了論文,但沒(méi)做重點(diǎn)宣傳,換句話(huà)說(shuō),今年我們公司重心在做產(chǎn)業(yè)化,如果要定一個(gè)目標的話(huà),希望稅后收入希望達到2億,去年是9000萬(wàn)。
      請總結一下您眼里小i本身在IJCAI的幾個(gè)亮點(diǎn)?
      我認為主要有三點(diǎn):
      贊助位置比較靠前(排在中國8家贊助商中的第二),呵呵。
      中國軍團抱團來(lái)參加(一定程度上說(shuō)明中國的人工智能正處在全球領(lǐng)先的位置)。
      在參展的8家中國公司中,我們體量不算大,但我們是一家純粹的人工智能公司,我們所有的收入都來(lái)自人工智能,并不是讓人工智能助力它原本的其它業(yè)務(wù),人工智能對于他們來(lái)說(shuō)或許只是一種工具或手段,但對我們來(lái)說(shuō)是全部,這在國內并不常見(jiàn),可能科大訊飛是屬于這一類(lèi)的。
      關(guān)于行業(yè)應用
      語(yǔ)義識別,現在大公司百度DuerOS、騰訊小微,后起公司有科大訊飛,思必馳、三角獸,小i如何跟這些竟品差異化的?
      人工智能技術(shù)是一系列技術(shù),其它技術(shù)都呈現出這樣的狀態(tài),門(mén)檻降低,現在大家不在乎你能不能做,而是能不能發(fā)揮價(jià)值,在一些細分應用場(chǎng)景,各自的創(chuàng )業(yè)公司都在涉足,比如用在電話(huà)里的callunderstanding跟用在手機里的語(yǔ)音轉寫(xiě)是兩回事,遠場(chǎng)喚醒和語(yǔ)音降噪又是一回事。但我們現在更看重其要產(chǎn)生商業(yè)價(jià)值。
      根據我們的觀(guān)察,basicAI很多公司都能提供,但能做得好的并不多,包括2012,2013年我們跟訊飛有很多競爭,現在沒(méi)啥競爭了,因為各自有各自的產(chǎn)業(yè)方向,現在正確的說(shuō)法應該是稍微交叉。另外,想做這個(gè)方向的公司不少,但現在能形成氣候的公司不多,在產(chǎn)業(yè)里能形成威脅的不多,不少人在走我們之前走過(guò)的路,很多初創(chuàng )公司在語(yǔ)義層面去做。
      另外,有時(shí)候我們發(fā)現,目前95%的語(yǔ)義識別公司都在做2B業(yè)務(wù),但語(yǔ)義識別里面能夠落地的目前就只有智能客戶(hù)等這些相對成熟的場(chǎng)景,一些初創(chuàng )公司一開(kāi)始可以靠有趣的技術(shù)拿到天使投資,但要往A輪B輪靠的話(huà),它就只能找到落地的商業(yè)模式了,這時(shí)候就需要找典型的客戶(hù)代表,所以我們會(huì )碰到一些創(chuàng )業(yè)公司以非常低的價(jià)格在跟客戶(hù)談,因為他們現階段急需案例和客戶(hù)。
      你如何看待小i應用基因行程的關(guān)鍵折點(diǎn)?
      嗯,我印象中比較深刻的幾個(gè)節點(diǎn):
      06年開(kāi)始做智能客服2B的嘗試。
      09年全面轉到2B的方式(當然到現在還沒(méi)到爆發(fā)階段)。
      11年下半年中國運營(yíng)商開(kāi)始采用智能客服機器人(當時(shí)運營(yíng)商開(kāi)始增長(cháng)之前,我們正好已經(jīng)形成了我們產(chǎn)品化的套路,iBot6.0已經(jīng)成型了)。
      11年10月份,蘋(píng)果Siri的發(fā)布,很大程度上把語(yǔ)音語(yǔ)義能力呈獻給消費者和人工智能從業(yè)者的眼中。
      13年上半年,我們給招商銀行做了微信上客服機器人,這個(gè)之后影響非常大,其它銀行紛紛把微信的客服當作一種標配。
      關(guān)于深度語(yǔ)義平臺深度學(xué)習甚至增強學(xué)習的沖擊,有沒(méi)有對小i語(yǔ)義識別技術(shù)提升產(chǎn)生很大的影響?
      根據我們的實(shí)際經(jīng)驗,這兩類(lèi)新的技術(shù)更多起作用的地方,是在數據挖掘,以及整個(gè)學(xué)習體系方面能起到不錯的效果,實(shí)際應用中的作用比預期要差很多。如果一定要說(shuō)沖擊,很多AI創(chuàng )業(yè)者一開(kāi)始的時(shí)候,會(huì )講其系統是用DL(深度學(xué)習)做的,用了最新的什么算法,以此來(lái)助力PR。
      之前我們分析過(guò)國內所有做Customer Service的系統,大家的確都用了一些深度學(xué)習的技術(shù),但在其中占的比例非常之小,但感覺(jué)大部分是用來(lái)做幌子做包裝的成分更大,在自然語(yǔ)音領(lǐng)域使用DL的有效度遠比在CV和云服務(wù)中用的要少。通常做自然語(yǔ)言理解方向又分為兩類(lèi):
      一類(lèi)是百度那種面對巨大data開(kāi)放的;
      一類(lèi)是用在data儲備沒(méi)有那么大的商業(yè)領(lǐng)域。前者可能深度語(yǔ)音識別的用處比較大(機器學(xué)習從非結構化的數據中提取結構化的數據,再進(jìn)行一定的人工智能判斷,開(kāi)放型的這類(lèi)平臺可能更傾向于從龐大的數據里挖掘出來(lái)潛在的某種關(guān)系,譬如知識圖譜關(guān)系的自動(dòng)搜取就很有潛力)。
      但就我們智能語(yǔ)音客服里邊用處比較小,2B業(yè)務(wù)更強調業(yè)務(wù)上的邏輯,比如多輪對話(huà),動(dòng)態(tài)交互,我們更看重做一些scam架構提前預知,幫到用戶(hù)使用的時(shí)候快速把場(chǎng)景建立起來(lái),這個(gè)過(guò)程有一些商業(yè)價(jià)值。目前一些創(chuàng )業(yè)公司做這個(gè)做得還不錯,通過(guò)把一些bigdata的分析,把機器學(xué)習和某些算法把一些常見(jiàn)的場(chǎng)景定義清楚,再變成一個(gè)圖形化的操作界面,使得用戶(hù)覺(jué)得非常方便,這樣用戶(hù)就不用關(guān)心底層技術(shù),只要知道我已經(jīng)預知了某些模型,模型只要定義一些具體的參數,導進(jìn)來(lái)一些數據,結果就會(huì )自動(dòng)出來(lái)。
      總的來(lái)說(shuō),我們需要預知商業(yè)客戶(hù)的常見(jiàn)需求,建立模型,然后方便它不斷激烈商業(yè)邏輯上的數據。案例見(jiàn)多了,預測和洞察能力就會(huì )建立起來(lái)。
      2016年小i機器人發(fā)布最強大腦2.0平臺;2017年小i機器人發(fā)布小i中文深度語(yǔ)義開(kāi)放平臺VS Machine Mind OS,這個(gè)迭代之間,應用了什么新的技術(shù)?
      我們今年的主要目標是深度語(yǔ)義,之前我們做智能客服的時(shí)候沒(méi)人做,現在這個(gè)已變成一種剛需,使用比較久的客戶(hù),它會(huì )關(guān)注解決一系更深入的需求;
      中小客戶(hù)和剛剛創(chuàng )業(yè)的客戶(hù)更關(guān)注FAQ的搜索。
      基于這樣的大前提,也是為了兼顧我們的產(chǎn)品定位,我們分成了basic AI和deep AI,主要通過(guò)云服務(wù)和標準版服務(wù)往外輸出,(在有標注的前提下,能讓用戶(hù)快速上手;deepAI很多能力是小i獨家的能力,知識圖譜的推理不少研究機構就有,我們的方法更容易獲得有效的擴展,多意圖的理解,我們找到了一種非常有效的方法來(lái)解決這一類(lèi)問(wèn)題)。
      舉個(gè)例子,比如“上海的天氣怎么樣,上海的特產(chǎn)是什么?”——“上海的天氣”是個(gè)問(wèn)題,“上海的特產(chǎn)”是個(gè)問(wèn)題,但你不可能求做個(gè)新問(wèn)題就是“上海的天氣和特產(chǎn)是什么”,其實(shí)你在背后做組合,兩個(gè)問(wèn)題組合成一個(gè)問(wèn)題,這種情況下背后在做很多推理工作。深度神經(jīng)網(wǎng)絡(luò )很大的一個(gè)問(wèn)題是,它本身對于自然語(yǔ)義是不理解的,它只是基于一定特征的基礎上做一個(gè)映射,一旦情況有些變化,它需要對整個(gè)句子進(jìn)行學(xué)習和構建。所以現在大家常用的方法,是如何用DL對針對比較大的數據,結合以前的先驗知識,共建一個(gè)效果最好的方法。譬如我們對話(huà)引擎中會(huì )用到一個(gè)主引擎,一個(gè)副引擎,副引擎在特殊情況下啟動(dòng)的。
      另設計一個(gè)好的DL架構也不容易,好比AlpaGo做的圍棋系統,FB也在做,但前者一開(kāi)始的架構設計比較好,包括它自己幾千萬(wàn)盤(pán)的自我對弈,之前人類(lèi)棋局中都沒(méi)出現過(guò)。
      小i的中文深度語(yǔ)義開(kāi)放平臺能夠應用于智能客服、智能知識庫、智能IVR、實(shí)體機器人、智能硬件等多種場(chǎng)景。我想問(wèn)基于一個(gè)平臺,應用于多個(gè)場(chǎng)景,這其中技術(shù)上,不變的地方是哪部分?要變的地方是哪部分?
      如果你去做一套獨立系統的話(huà),這件事情相對簡(jiǎn)單,但我們需要把AI的技術(shù)提供給我們客戶(hù),不同客戶(hù)系統的版本都不一樣,這會(huì )對體系的架構擴展要求非常高,這樣我們會(huì )把我們的體系分成幾個(gè)不同的模塊,每個(gè)模塊之間用比較松散耦合的模塊在組合。不同領(lǐng)域的客戶(hù),哪些是共通的,總結一下就是:
      底層的,引擎的,邏輯,處理能力是共通的。
      各個(gè)領(lǐng)域的語(yǔ)義庫,知識庫,上層應用是不同的,前面的交互渠道是不同的,開(kāi)發(fā)的時(shí)候要把一些共通的部分預知到里面去,并對一些基礎的API提供二次開(kāi)發(fā)的空間。
      其中的語(yǔ)義和知識庫是最不同的,不同領(lǐng)域的語(yǔ)義其詞類(lèi)不同,句子的平行語(yǔ)料不同,詞和詞之間訓練的權重模型也不一樣,不同領(lǐng)域的詞類(lèi)不一樣。以銀行為例,不同的銀行客戶(hù),銀行語(yǔ)料庫是可以共用的,但知識庫不一樣,70%,80%層面問(wèn)題是相同的,答案很不一樣,業(yè)務(wù)邏輯中,有的需要跟云和圖像結合起來(lái),這些地方挑戰較大。還有一些客戶(hù)會(huì )要求這套系統部署到自己的私有云服務(wù)器里去,要多解決很多問(wèn)題,要適配不同的系統,中間層面的軟件,不同的數據庫,甚至不同的網(wǎng)絡(luò )安全策略。
      通常我們的應對辦法就是,系統部署都要做好適應二次開(kāi)發(fā)的心理準備(用戶(hù)界面,動(dòng)態(tài)數據,第三方登錄用戶(hù)權限),對接多了后就會(huì )把這些定義成幾個(gè)基礎的接口。更重要的是知識層面的,分清哪幾個(gè)類(lèi)別,原始素材的地方和形式(FAQ還是文檔,在線(xiàn)人工智能客服的形式),開(kāi)始做之后有個(gè)測試的過(guò)程,80%ok后再上線(xiàn),上線(xiàn)之后還有個(gè)運營(yíng)的過(guò)程,從自身網(wǎng)站怎么學(xué)習,從第三方網(wǎng)站來(lái)的怎么去學(xué)習。
      小結:
      常年在學(xué)產(chǎn)兩界“跑場(chǎng)”的人都知道,一般學(xué)術(shù)界做的東西會(huì )比產(chǎn)業(yè)界發(fā)現它提前3-5年,然后學(xué)術(shù)界比較成功的demo可能兩年后就能在產(chǎn)業(yè)界出現了,慢一點(diǎn)的5年也有可能。自2015年人工智能恢復火熱以來(lái),中國產(chǎn)業(yè)界公司出現在各種國際頂會(huì )已經(jīng)成為學(xué)術(shù)會(huì )議的一道特殊風(fēng)景,它們不僅關(guān)心學(xué)術(shù)界的前沿研究,還從資金、數據和計算力上實(shí)打實(shí)地支持學(xué)術(shù)界的研究,雖然投入巨大,學(xué)術(shù)到產(chǎn)業(yè)之間的轉化周期也不算短暫,但各家公司都在研究和研發(fā)之間尋找合理的平衡,尋找學(xué)術(shù)學(xué)術(shù)投入和產(chǎn)業(yè)價(jià)值之間合理的轉化百分比。
      雖然不能短時(shí)間內立竿見(jiàn)影,但大家對于學(xué)術(shù)的投入還是很熱衷,在學(xué)術(shù)方面的積累對于技術(shù)方面的壁壘建立,以及給予技術(shù)壁壘后續更多的想象空間,還是有長(cháng)遠意義的一件事,新加入的AI公司在踐行,早就深耕應用場(chǎng)景的小i機器人在踐行,不過(guò)后者以過(guò)來(lái)人的姿態(tài)參與,顯得更有借鑒意義一些。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 峡江县| 扶风县| 思茅市| 沙洋县| 泸西县| 昭平县| 舟曲县| 久治县| 永川市| 自贡市| 余干县| 苍南县| 当涂县| 瓦房店市| 铁力市| 准格尔旗| 朝阳县| 扎鲁特旗| 米脂县| 清丰县| 江源县| 绿春县| 永修县| 鹿泉市| 慈利县| 兴化市| 华蓥市| 科技| 繁昌县| 崇仁县| 上饶市| 岱山县| 柳河县| 新建县| 东兰县| 衡阳县| 珠海市| 原阳县| 奈曼旗| 屏东县| 湖北省| http://444 http://444 http://444 http://444 http://444 http://444