
技術(shù)領(lǐng)域的從業(yè)者花了數年時(shí)間開(kāi)發(fā)語(yǔ)音識別軟體。目前,IBM稱(chēng)其語(yǔ)音識別軟體的字詞錯誤率僅為5.5%,低于之前的6.9%的記錄。這對于語(yǔ)音識別行業(yè)來(lái)說(shuō)是重大的里程碑,可能最終會(huì )引領(lǐng)Siri和Alexa等語(yǔ)音助手的技術(shù)改進(jìn)。
微軟聲稱(chēng)去年10月使用類(lèi)似于聯(lián)想詞云的神經(jīng)語(yǔ)言模型達到5.9%的錯詞率。當時(shí),該公司認為這個(gè)數據能與人類(lèi)錯詞率相媲美。但IBM說(shuō)這個(gè)數據并不值得慶祝。IBM主要研究科學(xué)家喬治·薩恩(George Saon)在本周發(fā)表的一篇博客中寫(xiě)道:「我們是實(shí)現今天里程碑的重要貢獻者,然而我們確定人類(lèi)實(shí)際錯詞率比目前所有語(yǔ)音識別系統能達到的錯詞率都低-僅為5.1%。」
IBM通過(guò)所謂的長(cháng)短期內存(Long Short-Term Memory),人工神經(jīng)網(wǎng)路、與三種強大的聲學(xué)模型相結合的WaveNet語(yǔ)言模型,開(kāi)發(fā)出了錯誤率僅為5.5%的語(yǔ)音識別系統。然后使用「SWITCHBOARD」語(yǔ)料庫對此語(yǔ)音識別系統進(jìn)行測量,該語(yǔ)料庫是幾十年來(lái)被用作語(yǔ)音識別軟體測量的標準。實(shí)現5.5%的詞錯率是一個(gè)大突破,但實(shí)際上,測試標準并不總能體現真實(shí)數據的復雜性和多樣化,與此同時(shí),人類(lèi)實(shí)際詞錯率的確定也表明我們還遠沒(méi)有達到最終目標。
哥倫比亞大學(xué)計算機科學(xué)系教授Julia Hirschberg說(shuō):「降低語(yǔ)音識別錯詞率和衡量人類(lèi)詞錯率是一個(gè)持續性的挑戰。因為人類(lèi)的言語(yǔ),特別是在隨意交談的時(shí)候,是非常復雜的。同時(shí),我們也很難為人類(lèi)錯詞率做標準界定,因為每一個(gè)不同的個(gè)體在理解他人語(yǔ)言上水平參差不齊。」
相關(guān)信息補充:
IBM公司語(yǔ)音識別研究團隊一直以「創(chuàng )造一種更具活力的電腦交互方式」作為重要使命之一。IBM于上世紀50年代末開(kāi)始語(yǔ)音識別的技術(shù)研究。在1962年西雅圖世界博覽會(huì )上,由IBM研發(fā)出的「鞋盒」大放異彩,成為當時(shí)世界上最先進(jìn)的語(yǔ)音識別機器,這臺機器能理解人類(lèi)口述數字0~9以及簡(jiǎn)單的運算口令。但在之后的很長(cháng)一段時(shí)間里,由于電腦技術(shù)和語(yǔ)音識別研究方法的限制,語(yǔ)音識別并沒(méi)有太大進(jìn)展。直到信息理論的強大統計演算法的出現,語(yǔ)音識別才重新踏上了進(jìn)步發(fā)展之路,能識別5000個(gè)英語(yǔ)單詞的語(yǔ)音識別系統面世。但還有一個(gè)問(wèn)題擺在技術(shù)人員面前:這臺語(yǔ)音識別處理機大的出奇,無(wú)法實(shí)現應用普及化。

時(shí)至今日,對于大眾最為熟悉的語(yǔ)音識別系統是Apple的Siri。藉助高速網(wǎng)路的發(fā)展,Apple利用高性能伺服器代替了手機來(lái)進(jìn)行有大量復雜運算需求的語(yǔ)音識別工作。同時(shí),搜索引擎和ios手機系統的結合,更使得Siri用戶(hù)體驗性得到大幅度提升。在Siri大獲全勝后,Google等高科技企業(yè)也紛紛加入語(yǔ)音識別的開(kāi)發(fā)洪流,而曾經(jīng)的「語(yǔ)音識別奠基人」IBM也在這個(gè)洪流中再度占據鰲頭。
時(shí)至今日,對于大眾最為熟悉的語(yǔ)音識別系統是Apple的Siri。藉助高速網(wǎng)路的發(fā)展,Apple利用高性能伺服器代替了手機來(lái)進(jìn)行有大量復雜運算需求的語(yǔ)音識別工作。同時(shí),搜索引擎和ios手機系統的結合,更使得Siri用戶(hù)體驗性得到大幅度提升。在Siri大獲全勝后,Google等高科技企業(yè)也紛紛加入語(yǔ)音識別的開(kāi)發(fā)洪流,而曾經(jīng)的「語(yǔ)音識別奠基人」IBM也在這個(gè)洪流中再度占據鰲頭。 技術(shù)領(lǐng)域的從業(yè)者花了數年時(shí)間開(kāi)發(fā)語(yǔ)音識別軟體。目前,IBM稱(chēng)其語(yǔ)音識別軟體的字詞錯誤率僅為5.5%,低于之前的6.9%的記錄。這對于語(yǔ)音識別行業(yè)來(lái)說(shuō)是重大的里程碑,可能最終會(huì )引領(lǐng)Siri和Alexa等語(yǔ)音助手的技術(shù)改進(jìn)。
微軟聲稱(chēng)去年10月使用類(lèi)似于聯(lián)想詞云的神經(jīng)語(yǔ)言模型達到5.9%的錯詞率。當時(shí),該公司認為這個(gè)數據能與人類(lèi)錯詞率相媲美。但IBM說(shuō)這個(gè)數據并不值得慶祝。IBM主要研究科學(xué)家喬治·薩恩(George Saon)在本周發(fā)表的一篇博客中寫(xiě)道:「我們是實(shí)現今天里程碑的重要貢獻者,然而我們確定人類(lèi)實(shí)際錯詞率比目前所有語(yǔ)音識別系統能達到的錯詞率都低-僅為5.1%。」
IBM通過(guò)所謂的長(cháng)短期內存(Long Short-Term Memory),人工神經(jīng)網(wǎng)路、與三種強大的聲學(xué)模型相結合的WaveNet語(yǔ)言模型,開(kāi)發(fā)出了錯誤率僅為5.5%的語(yǔ)音識別系統。然后使用「SWITCHBOARD」語(yǔ)料庫對此語(yǔ)音識別系統進(jìn)行測量,該語(yǔ)料庫是幾十年來(lái)被用作語(yǔ)音識別軟體測量的標準。實(shí)現5.5%的詞錯率是一個(gè)大突破,但實(shí)際上,測試標準并不總能體現真實(shí)數據的復雜性和多樣化,與此同時(shí),人類(lèi)實(shí)際詞錯率的確定也表明我們還遠沒(méi)有達到最終目標。
哥倫比亞大學(xué)計算機科學(xué)系教授Julia Hirschberg說(shuō):「降低語(yǔ)音識別錯詞率和衡量人類(lèi)詞錯率是一個(gè)持續性的挑戰。因為人類(lèi)的言語(yǔ),特別是在隨意交談的時(shí)候,是非常復雜的。同時(shí),我們也很難為人類(lèi)錯詞率做標準界定,因為每一個(gè)不同的個(gè)體在理解他人語(yǔ)言上水平參差不齊。」
相關(guān)信息補充:
IBM公司語(yǔ)音識別研究團隊一直以「創(chuàng )造一種更具活力的電腦交互方式」作為重要使命之一。IBM于上世紀50年代末開(kāi)始語(yǔ)音識別的技術(shù)研究。在1962年西雅圖世界博覽會(huì )上,由IBM研發(fā)出的「鞋盒」大放異彩,成為當時(shí)世界上最先進(jìn)的語(yǔ)音識別機器,這臺機器能理解人類(lèi)口述數字0~9以及簡(jiǎn)單的運算口令。但在之后的很長(cháng)一段時(shí)間里,由于電腦技術(shù)和語(yǔ)音識別研究方法的限制,語(yǔ)音識別并沒(méi)有太大進(jìn)展。直到信息理論的強大統計演算法的出現,語(yǔ)音識別才重新踏上了進(jìn)步發(fā)展之路,能識別5000個(gè)英語(yǔ)單詞的語(yǔ)音識別系統面世。但還有一個(gè)問(wèn)題擺在技術(shù)人員面前:這臺語(yǔ)音識別處理機大的出奇,無(wú)法實(shí)現應用普及化。
IBM02
時(shí)至今日,對于大眾最為熟悉的語(yǔ)音識別系統是Apple的Siri。藉助高速網(wǎng)路的發(fā)展,Apple利用高性能伺服器代替了手機來(lái)進(jìn)行有大量復雜運算需求的語(yǔ)音識別工作。同時(shí),搜索引擎和ios手機系統的結合,更使得Siri用戶(hù)體驗性得到大幅度提升。在Siri大獲全勝后,Google等高科技企業(yè)也紛紛加入語(yǔ)音識別的開(kāi)發(fā)洪流,而曾經(jīng)的「語(yǔ)音識別奠基人」IBM也在這個(gè)洪流中再度占據鰲頭。