聲音作為有聲閱讀中重要環(huán)節,是如何實(shí)現的?
傳統的聲音獲取可以通過(guò)找專(zhuān)業(yè)的聲優(yōu)進(jìn)行錄音或配音,而互聯(lián)網(wǎng)信息瞬息萬(wàn)變,錄制的速度可能趕不上信息變化的速度,同時(shí)海量的內容信息通過(guò)錄音工作量大且成本高,而人工智能技術(shù)的發(fā)展,語(yǔ)音合成技術(shù)改變了這一難題。
語(yǔ)音合成技術(shù),從源頭解決聲音輸出的方式
極限元的語(yǔ)音合成技術(shù)采用國際先進(jìn)的數據驅動(dòng)技術(shù),利用精心設計的語(yǔ)音語(yǔ)料庫進(jìn)行聲學(xué)模型和文本處理模型的訓練,得到的模型深度挖掘了語(yǔ)音語(yǔ)言特性,合成的語(yǔ)音清晰、自然、親切、具有高表現力,媲美真人發(fā)聲。
極限元的語(yǔ)音合成技術(shù)能夠實(shí)現有聲閱讀下的多種平臺多種場(chǎng)景的應用,如提供新聞資訊播報平臺、小說(shuō)詩(shī)歌閱讀APP、音頻公眾號、智能音箱等。
適配于多用戶(hù)多場(chǎng)景下的“閱讀”體驗
在面對多種人群多種閱讀內容形式時(shí),單一的合成語(yǔ)音已經(jīng)不能滿(mǎn)足需求,極限元語(yǔ)音合成能夠提供各類(lèi)型男聲、女生及童聲。
還可根據用戶(hù)需求定制個(gè)性化音色服務(wù),如:林志玲的嗲氣十足、郭德綱幽默逗趣、游戲動(dòng)漫角色聲、各類(lèi)方言等。極限元定制化語(yǔ)音合成支持錄音人選型、錄音采集、語(yǔ)料標注,還能實(shí)現模型迭代訓練、合成引擎優(yōu)化,支持在線(xiàn)、離線(xiàn)模式,適用于多種平臺。

極限元語(yǔ)音合成技術(shù)優(yōu)勢體現
數字、符號在生活中無(wú)處不在,同樣也充斥在閱讀的文本中,那么不同的數字,符號代表不同的意思,該如何處理呢?極限元語(yǔ)音合成技術(shù)能夠根據數字的上下文語(yǔ)境,做出智能判斷,以確保朗讀的正確性,例如10:12,可以表示十點(diǎn)十二分,也可能是比分十比十二,這就需要根據其上下文語(yǔ)境進(jìn)行判斷。
而對于符號,極限元語(yǔ)音合成技術(shù)能正確判斷這些符號的讀法,以及其符號與相鄰文本(數字)朗讀的先后順序。比如RMB100讀作“100元人民幣”,40%-50%讀作“百分之四十到百分之五十”。
語(yǔ)音合成技術(shù)中,讓聲音富有情感和表現力,一直是語(yǔ)音合成的一大難點(diǎn),而極限元為了保證合成語(yǔ)音真實(shí)、自然、富有情感,適用于多種場(chǎng)景下,積極地與國際接軌。其創(chuàng )始團隊源自中科院自動(dòng)化研究所并成立“智能交互聯(lián)合實(shí)驗室”,號稱(chēng)語(yǔ)音合成界的“黃埔軍校”;在人工智能領(lǐng)域有20多年技術(shù)積累,在國際會(huì )議和期刊上發(fā)表論文400余篇,申請語(yǔ)音及音頻領(lǐng)域專(zhuān)利100余項;作為負責人、科研骨干參與多項國家自然基金項目、國家863項目和國家重點(diǎn)研發(fā)計劃等項目,獲得多媒體情感競賽第二名、北京市自然科學(xué)進(jìn)步二等獎、中國專(zhuān)利獎優(yōu)秀獎、北京科技進(jìn)步獎、Eurospeech大會(huì )獎等多種獎項。