• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 國內 >
     首頁(yè) > 新聞 > 國內 >

    百度語(yǔ)音識別又獲突破 將圖像識別技術(shù)跨界到語(yǔ)音

    2016-11-04 09:32:49   作者:   來(lái)源:光明網(wǎng)   評論:0  點(diǎn)擊:


      近日,百度在語(yǔ)音識別技術(shù)方面再獲突破,將圖像識別技術(shù)成功“跨界”到語(yǔ)音領(lǐng)域,利用深層卷積神經(jīng)網(wǎng)絡(luò )(DeepCNN)應用于語(yǔ)音識別聲學(xué)建模中,將其與基于長(cháng)短時(shí)記憶單元(LSTM)和連接時(shí)序分類(lèi)(CTC)的端對端語(yǔ)音識別技術(shù)相結合,錯誤率相對降低10%,大幅度提升語(yǔ)音識別產(chǎn)品性能,是繼端對端語(yǔ)音識別后取得的另一次重大技術(shù)突破。
    Deep CNN語(yǔ)音識別的建模過(guò)程
    Deep CNN語(yǔ)音識別的建模過(guò)程
      近年來(lái),運用CNN技術(shù)的圖像識別成果頗豐,越來(lái)越深的CNN不斷刷新著(zhù)圖像識別的精準度,以人臉識別為例,識別準確率高達99.7%。但CNN的進(jìn)展在語(yǔ)音識別方面沒(méi)有得到充分的應用。作為一家在語(yǔ)音技術(shù)上有著(zhù)深入研究的人工智能公司,百度將DeepCNN視為語(yǔ)音識別技術(shù)的下一個(gè)突破口。
    ImageNet競賽中,越來(lái)越深的CNN不斷刷新著(zhù)其性能
    ImageNet競賽中,越來(lái)越深的CNN不斷刷新著(zhù)其性能
      在商用領(lǐng)域的端對端語(yǔ)音識別技術(shù)中,百度首次嘗試引入更深層的CNN神經(jīng)網(wǎng)絡(luò ),使錯誤率相對降低10%。端對端技術(shù)則使用一個(gè)單獨的學(xué)習算法來(lái)完成從任務(wù)輸入端到輸出端的所有過(guò)程,減少了中間單元以及人為干預,在海量數據的支持下模型效果提升明顯。目前,百度的端對端技術(shù)處于業(yè)界領(lǐng)先水平。值得一提的是,語(yǔ)音識別都是基于時(shí)頻分析后的語(yǔ)音譜完成的,將整個(gè)語(yǔ)音信號分析得到的時(shí)頻譜當作一張圖像,就可以采用圖像中已廣泛應用的CNN進(jìn)行識別,克服了語(yǔ)音信號多樣性的問(wèn)題,且通過(guò)引入更深層的CNN,使語(yǔ)音識別性能得到顯著(zhù)提升,正如百度語(yǔ)音技術(shù)部識別技術(shù)負責人李先剛博士所言:‘The Deeper,The Better’。
      與學(xué)術(shù)研究不同,百度語(yǔ)音的研發(fā)立足點(diǎn),聚焦于技術(shù)的實(shí)際應用,技術(shù)難度和實(shí)現程度更高。針對語(yǔ)音識別產(chǎn)品而言,必須具備在大規模語(yǔ)音數據庫上體現性能提升以及具有適合語(yǔ)音在線(xiàn)識別產(chǎn)品運行的模型。百度采用數千小時(shí)進(jìn)行實(shí)驗的研究,并在近十萬(wàn)小時(shí)的產(chǎn)品語(yǔ)音數據庫中進(jìn)行驗證,且充足的語(yǔ)音數據資源,使基于端對端技術(shù)的語(yǔ)音識別系統明顯優(yōu)于以往的框架性能。
    百度語(yǔ)音識別技術(shù)每年迭代算法模型
    百度語(yǔ)音識別技術(shù)每年迭代算法模型
      除此之外,百度語(yǔ)音技術(shù)在數據、計算能力、算法等三方面優(yōu)勢顯著(zhù)。百度擁有約10萬(wàn)小時(shí)的精準標注語(yǔ)音數據,以及基于數百個(gè)GPU的高性能計算平臺。在算法方面,百度每年都在不斷優(yōu)化、迭代模型算法,語(yǔ)音識別效果顯著(zhù)提升,領(lǐng)先業(yè)界。
      此前,百度便利用端對端技術(shù)研發(fā)了Deep Speech 2深度語(yǔ)音識別技術(shù),用于提高在嘈雜環(huán)境下語(yǔ)音識別的準確率。在噪音環(huán)境下,其錯誤率低于谷歌、微軟以及蘋(píng)果的語(yǔ)音系統。目前,百度語(yǔ)音識別準確率高達97%,并被美國權威科技雜志《麻省理工評論》列為2016年十大突破技術(shù)之一。另?yè)钕葎偛┦客嘎叮壳暗拇_正在加緊Deep Speech 3的研發(fā)工作,而本次公布的Deep CNN不排除將會(huì )是Deep Speech 3的核心組成部分。
     

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 墨竹工卡县| 六枝特区| 贡嘎县| 民乐县| 永州市| 桐庐县| 启东市| 虹口区| 平湖市| 洮南市| 多伦县| 合水县| 久治县| 临夏县| 遂平县| 奉节县| 湛江市| 木兰县| 读书| 南涧| 彝良县| 北流市| 云龙县| 嘉禾县| 大城县| 扶风县| 静海县| 长汀县| 凤翔县| 民和| 呼玛县| 古浪县| 和硕县| 民勤县| 旬阳县| 行唐县| 台中市| 绿春县| 囊谦县| 通江县| 龙山县| http://444 http://444 http://444 http://444 http://444 http://444