• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 國內 >
     首頁(yè) > 新聞 > 國內 >

    深度全序列卷積神經(jīng)網(wǎng)絡(luò )成功用于語(yǔ)音轉寫(xiě)技術(shù)

    2016-08-10 15:19:55   作者:   來(lái)源:訊飛研究院   評論:0  點(diǎn)擊cti:


      導讀:目前最好的語(yǔ)音識別系統采用雙向長(cháng)短時(shí)記憶網(wǎng)絡(luò )(LSTM,LongShort Term Memory),但是,這一系統存在訓練復雜度高、解碼時(shí)延高的問(wèn)題,尤其在工業(yè)界的實(shí)時(shí)識別系統中很難應用。科大訊飛在今年提出了一種全新的語(yǔ)音識別框架——深度全序列卷積神經(jīng)網(wǎng)絡(luò )(DFCNN,Deep Fully Convolutional NeuralNetwork),更適合工業(yè)應用。本文是對科大訊飛使用DFCNN應用于語(yǔ)音轉寫(xiě)技術(shù)的詳細解讀,其外還包含了語(yǔ)音轉寫(xiě)中口語(yǔ)化和篇章級語(yǔ)言模型處理、噪聲和遠場(chǎng)識別和文本處理實(shí)時(shí)糾錯以及文字后處理等技術(shù)的分析。
    深度全序列卷積神經(jīng)網(wǎng)絡(luò )成功用于語(yǔ)音轉寫(xiě)技術(shù)
      人工智能的應用中,語(yǔ)音識別在今年來(lái)取得顯著(zhù)進(jìn)步,不管是英文、中文或者其他語(yǔ)種,機器的語(yǔ)音識別準確率在不斷上升。其中,語(yǔ)音聽(tīng)寫(xiě)技術(shù)的發(fā)展最為迅速,目前已廣泛在語(yǔ)音輸入、語(yǔ)音搜索、語(yǔ)音助手等產(chǎn)品中得到應用并日臻成熟。但是,語(yǔ)音應用的另一層面,即語(yǔ)音轉寫(xiě),目前仍存在一定的難點(diǎn),由于在產(chǎn)生錄音文件的過(guò)程中使用者并沒(méi)有預計到該錄音會(huì )被用于語(yǔ)音識別,因而與語(yǔ)音聽(tīng)寫(xiě)相比,語(yǔ)音轉寫(xiě)將面臨說(shuō)話(huà)風(fēng)格、口音、錄音質(zhì)量等諸多挑戰。
      語(yǔ)音轉寫(xiě)的典型場(chǎng)景包括,記者采訪(fǎng)、電視節目、課堂及交談式會(huì )議等等,甚至包括任何人在日常的工作生活中產(chǎn)生的任何錄音文件。語(yǔ)音轉寫(xiě)的市場(chǎng)及想象空間是巨大的,想象一下,如果人類(lèi)可以征服語(yǔ)音轉寫(xiě),電視節目可以自動(dòng)生動(dòng)字幕、正式會(huì )議可以自動(dòng)形成記要、記者采訪(fǎng)的錄音可以自動(dòng)成稿……人的一生中說(shuō)的話(huà)要比我們寫(xiě)過(guò)的字多的多,如果有一個(gè)軟件能記錄我們所說(shuō)過(guò)的所有的話(huà)并進(jìn)行高效的管理,這個(gè)世界將會(huì )多么的讓人難以置信。
      基于DFCNN的聲學(xué)建模技術(shù)
      語(yǔ)音識別的聲學(xué)建模主要用于建模語(yǔ)音信號與音素之間的關(guān)系,科大訊飛繼去年12月21日提出前饋型序列記憶網(wǎng)絡(luò )(FSMN,Feed-forward Sequential Memory Network)作為聲學(xué)建模框架后,今年再次推出全新的語(yǔ)音識別框架,即深度全序列卷積神經(jīng)網(wǎng)絡(luò )(DFCNN,Deep Fully Convolutional NeuralNetwork)。
      目前最好的語(yǔ)音識別系統采用雙向長(cháng)短時(shí)記憶網(wǎng)絡(luò )(LSTM,LongShort Term Memory),這種網(wǎng)絡(luò )能夠對語(yǔ)音的長(cháng)時(shí)相關(guān)性進(jìn)行建模,從而提高識別正確率。但是雙向LSTM網(wǎng)絡(luò )存在訓練復雜度高、解碼時(shí)延高的問(wèn)題,尤其在工業(yè)界的實(shí)時(shí)識別系統中很難應用。因而科大訊飛使用深度全序列卷積神經(jīng)網(wǎng)絡(luò )來(lái)克服雙向LSTM的缺陷。
      CNN早在2012年就被用于語(yǔ)音識別系統,但始終沒(méi)有大的突破。主要的原因是其使用固定長(cháng)度的幀拼接作為輸入,無(wú)法看到足夠長(cháng)的語(yǔ)音上下文信息;另外一個(gè)缺陷將CNN視作一種特征提取器,因此所用的卷積層數很少,表達能力有限。
      針對這些問(wèn)題,DFCNN使用大量的卷積層直接對整句語(yǔ)音信號進(jìn)行建模。首先,在輸入端DFCNN直接將語(yǔ)譜圖作為輸入,相比其他以傳統語(yǔ)音特征作為輸入的語(yǔ)音識別框架相比具有天然的優(yōu)勢。其次,在模型結構上,借鑒了圖像識別的網(wǎng)絡(luò )配置,每個(gè)卷積層使用小卷積核,并在多個(gè)卷積層之后再加上池化層,通過(guò)累積非常多的卷積池化層對,從而可以看到非常長(cháng)的歷史和未來(lái)信息。這兩點(diǎn)保證了DFCNN可以出色的表達語(yǔ)音的長(cháng)時(shí)相關(guān)性,相比RNN網(wǎng)絡(luò )結構在魯棒性上更加出色,同時(shí)可以實(shí)現短延時(shí)的準在線(xiàn)解碼,從而可用于工業(yè)系統中。
    深度全序列卷積神經(jīng)網(wǎng)絡(luò )成功用于語(yǔ)音轉寫(xiě)技術(shù)
    (DFCNN 結構圖)
      口語(yǔ)化和篇章級語(yǔ)言模型處理技術(shù)
      語(yǔ)音識別的語(yǔ)言模型主要用于建模音素與字詞之間的對應關(guān)系。由于人類(lèi)的口語(yǔ)為無(wú)組織性的自然語(yǔ)言,人們在自由對話(huà)時(shí),通常會(huì )出現猶豫、回讀、語(yǔ)氣詞等復雜的語(yǔ)言現象,而以文字形式存在的語(yǔ)料通常為書(shū)面語(yǔ),這兩種之間的鴻溝使得針對口語(yǔ)語(yǔ)言的語(yǔ)言模型建模面臨極大的挑戰。
      科大訊飛借鑒了語(yǔ)音識別處理噪聲問(wèn)題采用加噪訓練的思想,即在書(shū)面語(yǔ)的基礎上自動(dòng)引入回讀、倒裝、語(yǔ)氣詞等口語(yǔ)“噪聲”現象,從而可自動(dòng)生成海量口語(yǔ)語(yǔ)料,解決口語(yǔ)和書(shū)面語(yǔ)之間的不匹配問(wèn)題。首先,收集部分口語(yǔ)文本和書(shū)面文本語(yǔ)料對;其次,使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò )框架建模書(shū)面語(yǔ)文本與口語(yǔ)文本之間的對應關(guān)系,從而實(shí)現了口語(yǔ)文本的自動(dòng)生成。
      另外,上下文信息可以較大程度幫助人類(lèi)對語(yǔ)言的理解,對于機器轉錄也是同樣的道理。因而,科大訊飛在去年12月21提出了篇章級語(yǔ)言模型的方案,該方案根據語(yǔ)音識別的解碼結果自動(dòng)進(jìn)行關(guān)鍵信息抽取,實(shí)時(shí)進(jìn)行語(yǔ)料搜索和后處理,用解碼結果和搜索到的語(yǔ)料形成特定語(yǔ)音相關(guān)的語(yǔ)言模型,從而進(jìn)一步提高語(yǔ)音轉寫(xiě)的準確率。
    深度全序列卷積神經(jīng)網(wǎng)絡(luò )成功用于語(yǔ)音轉寫(xiě)技術(shù)
      (篇章級語(yǔ)言模型流程圖)
      噪聲和遠場(chǎng)識別技術(shù)
      語(yǔ)音識別的應用遠場(chǎng)拾音和噪聲干擾一直是兩大技術(shù)難題。例如在會(huì )議的場(chǎng)景下,如果使用錄音筆進(jìn)行錄音,離錄音筆較遠說(shuō)話(huà)人的語(yǔ)音即為遠場(chǎng)帶混響語(yǔ)音,由于混響會(huì )使得不同步的語(yǔ)音相互疊加,帶來(lái)了音素的交疊掩蔽效應,從而嚴重影響語(yǔ)音識別效果;同樣,如果錄音環(huán)境中存在背景噪聲,語(yǔ)音頻譜會(huì )被污染,其識別效果也會(huì )急劇下降。科大訊飛針對該問(wèn)題使用了單麥克及配合麥克風(fēng)陣列兩種硬件環(huán)境下的降噪、解混響技術(shù),使得遠場(chǎng)、噪聲情況下的語(yǔ)音轉寫(xiě)也達到了實(shí)用門(mén)檻。
      單麥克降噪、解混響
      對采集到的有損失語(yǔ)音,使用混合訓練和基于深度回歸神經(jīng)網(wǎng)絡(luò )降噪解混響結合的方法。即一方面對干凈的語(yǔ)音進(jìn)行加噪,并與干凈語(yǔ)音一起進(jìn)行混合訓練,從而提高模型對于帶噪語(yǔ)音的魯棒性(編者注:Robust的音譯,即健壯和強壯之意);另一方面,使用基于深度回歸神經(jīng)網(wǎng)絡(luò )進(jìn)行降噪和解混響,進(jìn)一步提高帶噪、遠場(chǎng)語(yǔ)音的識別正確率。
    深度全序列卷積神經(jīng)網(wǎng)絡(luò )成功用于語(yǔ)音轉寫(xiě)技術(shù)
      麥克風(fēng)陣列降噪、解混響
      僅僅考慮在語(yǔ)音處理過(guò)程中的噪音可以說(shuō)是治標不治本,如何從源頭上解決混響和降噪似乎才是問(wèn)題的關(guān)鍵。面對這一難題,科大訊飛研發(fā)人員通過(guò)在錄音設備上加上多麥克陣列,利用多麥克陣列進(jìn)行降噪與解混響。具體地,使用多個(gè)麥克風(fēng)采集多路時(shí)頻信號,利用卷積神經(jīng)網(wǎng)絡(luò )學(xué)習波束形成,從而在目標信號的方向形成一個(gè)拾音波束,并衰減來(lái)自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結合,可以進(jìn)一步顯著(zhù)的提高帶噪、遠場(chǎng)語(yǔ)音的識別正確率。
    深度全序列卷積神經(jīng)網(wǎng)絡(luò )成功用于語(yǔ)音轉寫(xiě)技術(shù)
      文本處理實(shí)時(shí)糾錯+文字后處理
      前面所說(shuō)的都只是對于語(yǔ)音的處理技術(shù),即將錄音轉錄成文字,但正如上文所述人類(lèi)的口語(yǔ)為無(wú)組織性的自然語(yǔ)言,即使在語(yǔ)音轉寫(xiě)正確率非常高的情況下,語(yǔ)音轉寫(xiě)文本的可閱讀性仍存在較大的問(wèn)題,所以文本后處理的重要性就體現了出來(lái)。所謂文本后處理即對口語(yǔ)化的文本進(jìn)行分句、分段,并對文本內容的流利性進(jìn)行處理,甚至進(jìn)行內容的摘要,以利于更好的閱讀與編輯。
      后處理Ⅰ:分句與分段
      分句,即對轉寫(xiě)文本按語(yǔ)義進(jìn)行子句劃分,并在子句之間加注標點(diǎn);分段,即將一篇文本切分成若干個(gè)語(yǔ)義段落,每個(gè)段落描述的子主題各不相同。
      通過(guò)提取上下文相關(guān)的語(yǔ)義特征,同時(shí)結合語(yǔ)音特征,來(lái)進(jìn)行子句與段落的劃分;考慮到有標注的語(yǔ)音數據較難獲得,在實(shí)際運用中科大訊飛利用兩級級聯(lián)雙向長(cháng)短時(shí)記憶網(wǎng)絡(luò )建模技術(shù),從而較好的解決了分句與分段問(wèn)題。
      后處理Ⅱ:內容順滑
      內容順滑,又稱(chēng)為不流暢檢測,即剔除轉寫(xiě)結果中的停頓詞、語(yǔ)氣詞、重復詞,使順滑后的文本更易于閱讀。
      科大訊飛通過(guò)使用泛化特征并結合雙向長(cháng)短時(shí)記憶網(wǎng)絡(luò )建模技術(shù),使得內容順滑的準確率達到了實(shí)用階段。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 茌平县| 原阳县| 中西区| 德惠市| 东城区| 涪陵区| 平顺县| 芦山县| 米脂县| 泗洪县| 福安市| 长兴县| 九台市| 安化县| 会同县| 通州市| 盐山县| 彭阳县| 友谊县| 关岭| 仙游县| 安国市| 兴业县| 江山市| 萨嘎县| 昌乐县| 墨江| 桦甸市| 胶州市| 吴忠市| 监利县| 寿阳县| 原阳县| 汝南县| 门源| 正宁县| 呼图壁县| 万安县| 长海县| 望奎县| 全椒县| http://444 http://444 http://444 http://444 http://444 http://444