• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 國內 >
     首頁(yè) > 新聞 > 國內 >

    語(yǔ)音人福音:你和我的區別可能只差一個(gè)1400小時(shí)開(kāi)源數據集

    2019-03-04 09:31:03   作者:吳宇   來(lái)源:語(yǔ)音雜談微信公眾號   評論:0  點(diǎn)擊:


      Mozilla昨日發(fā)布了語(yǔ)音識別數據集,稱(chēng)為Common Voice。該數據集由18種不同的語(yǔ)言(包括英語(yǔ),法語(yǔ),德語(yǔ),普通話(huà),威爾士語(yǔ),卡比爾等)組成,并增加了來(lái)自42,000多名貢獻者的約1,400小時(shí)錄制的語(yǔ)音片段。 
      從體量上來(lái)看它可以算的上是同類(lèi)項目中最大的多語(yǔ)言數據集之一,對比之前發(fā)布的Common Voice語(yǔ)料庫數據集,20,000個(gè)人的近40萬(wàn)個(gè)錄音(500小時(shí)語(yǔ)音數據),其提升效果也是十分顯著(zhù)。
      當然這也得益于Mozilla從18年6月宣布為了使Common Voice更具全球性和包容性。使用多語(yǔ)言支持,通過(guò)Common Voice網(wǎng)站和移動(dòng)應用,短短8個(gè)月從22種語(yǔ)言開(kāi)展數據收集到目前共有70多個(gè)語(yǔ)言的數據收集工作正在進(jìn)行中。
      語(yǔ)音技術(shù)對于人工智能的重要性不言而喻,但無(wú)奈的是,目前語(yǔ)音技術(shù)資源的話(huà)語(yǔ)權卻牢牢的掌握在大型科技公司。
      首先目前行業(yè)內普遍認為語(yǔ)音將成為下一個(gè)重要的技術(shù)平臺,近年來(lái)隨著(zhù)人工智能理論與技術(shù)的迅猛發(fā)展,語(yǔ)音識別技術(shù)在不斷突破,通過(guò)語(yǔ)音助手如Alexa、GoogleAssistant、Siri和Cortana,各公司將收集到的用戶(hù)語(yǔ)音數據歸為公司自己所有。
      其次這些數據的價(jià)值或許目前很難被外界看出來(lái),但是在信息化高度發(fā)達,特別是今天這樣一個(gè)大數據和人工智能時(shí)代,為開(kāi)發(fā)機器學(xué)習模型提供語(yǔ)音數據集怎么看都是一件有深遠意義的事,這些語(yǔ)音數據的意義會(huì )慢慢體現。而最終當它們的價(jià)值逐漸顯現,人們會(huì )發(fā)現在這背后亞馬遜、谷歌、蘋(píng)果和微軟等公司已經(jīng)牢牢鎖住了語(yǔ)音技術(shù)的命門(mén),主導了這場(chǎng)語(yǔ)音市場(chǎng)之爭。
      基于此CommonVoice項目就是為了避免這樣的事情而誕生的,它的目的是將收集到的語(yǔ)音數據集開(kāi)源給公眾,使得任何人都可以自由使用這些數據集來(lái)將語(yǔ)音識別技術(shù)智能地構建到各種應用程序和服務(wù)中。
      Mozilla首席創(chuàng )新官Katharina Borchert表示:希望用戶(hù)使用自己的語(yǔ)言甚至方言的時(shí)候是可以被機器理解的,但是我們相信這些技術(shù)上的接口不應該由少數幾家公司控制,他們不能像守門(mén)員一樣來(lái)完全把控語(yǔ)音服務(wù)。
      CommonVoice項目的意義與用于打擊私人平臺的開(kāi)放許可證項目類(lèi)似,OpenStreetMap就是一個(gè)很好的例子。OpenStreetMap為開(kāi)發(fā)者提供了開(kāi)放且可自由使用的世界地圖,使得開(kāi)發(fā)商不再需要依賴(lài)于GoogleMaps這樣的競爭對手,不僅降低了成本開(kāi)銷(xiāo),技術(shù)上也不再受到限制。
      總之,雖說(shuō)目前CommonVoice相較于其他語(yǔ)音數據集還略有不足,比如在數量上,但是其綜合多樣性、豐富性和質(zhì)量方面都遙遙領(lǐng)先,但這也給了我們一個(gè)想象空間,未來(lái)隨著(zhù)時(shí)間的推移,其語(yǔ)料庫的不斷增加,CommonVoice的影響力也會(huì )與日俱增,到時(shí)候將會(huì )被全世界更大范圍內的開(kāi)發(fā)者們所關(guān)注并受益。
      或許正如Mozilla所設想:未來(lái)語(yǔ)音技術(shù)的民主化不僅會(huì )降低全球創(chuàng )新的障礙,也會(huì )讓人們獲取信息更加便捷。
      地址:https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 探索| 梅州市| 清远市| 淄博市| 集安市| 城口县| 社旗县| 安平县| 清镇市| 永康市| 宁海县| 垦利县| 淮安市| 太湖县| 慈溪市| 怀来县| 永吉县| 中西区| 南郑县| 张家界市| 乐山市| 惠东县| 平乡县| 青铜峡市| 石门县| 勃利县| 阿拉尔市| 宣恩县| 张北县| 七台河市| 商水县| 策勒县| 玉田县| 庆元县| 新津县| 丹凤县| 额敏县| 兴城市| 泗洪县| 古田县| 新余市| http://444 http://444 http://444 http://444 http://444 http://444