近日,亞馬遜宣布在AWS Polly上推出神經(jīng)文本轉(zhuǎn)語音自動生成新聞播音員風(fēng)格,通過此功能轉(zhuǎn)換的神經(jīng)文本,將增加自然性和表現(xiàn)力,可以顯著改善語音轉(zhuǎn)換質(zhì)量。
亞馬遜在去年年底的一篇AI研究論文中,詳細(xì)描述了其關(guān)于神經(jīng)文本轉(zhuǎn)換語音的原理(數(shù)據(jù)減少對序列到序列神經(jīng)TTS的影響 )。其中研究人員描述了一個全新的AI語音學(xué)習(xí)系統(tǒng)。該系統(tǒng)只需經(jīng)過短短幾十個小時的數(shù)據(jù)訓(xùn)練,便可以模仿一位配音演員的閱讀風(fēng)格。
亞馬遜的AI模型由兩部分組成。第一個是轉(zhuǎn)換音素的序列生成神經(jīng)網(wǎng)絡(luò):即與另一個區(qū)分開一個字,如聲音感知上的不同單元P,B,D到譜圖的一個序列,或視覺隨著時間的變化聲音頻譜的表示。第二個是聲碼器:將這些頻譜圖轉(zhuǎn)換為連續(xù)的音頻信號。
其中,音素到頻譜圖解釋器網(wǎng)絡(luò)是序列到序列,這意味著它不僅僅從相應(yīng)的輸入計算輸出,而是考慮它在輸出序列中的位置。除了“風(fēng)格編碼”之外,亞馬遜的科學(xué)家還使用音素序列和相應(yīng)的光譜圖序列對其進(jìn)行了訓(xùn)練,使得該風(fēng)格編碼確定了訓(xùn)練示例中,使用的特定說話風(fēng)格。模型的輸出被輸入到聲碼器中,可以從任何揚(yáng)聲器中獲取頻譜圖,無論AI是否在訓(xùn)練期間看到它們。
這種AI模型訓(xùn)練方法,結(jié)合了大量中性風(fēng)格的語音數(shù)據(jù),只需幾個小時的風(fēng)格數(shù)據(jù)補(bǔ)充,以及一個能夠區(qū)分語音元素的AI系統(tǒng),可輸出像播音員和演員那樣的語音風(fēng)格。
目前,新聞主播風(fēng)格可用于兩種英語語音,而神經(jīng)文本語音可用于11種語音。它們都是實(shí)時工作和批量處理模式,現(xiàn)在可以在美國東部(弗吉尼亞北部),美國西部(俄勒岡州)和歐洲(愛爾蘭)AWS區(qū)域訪問。
從第一次語音請求(標(biāo)準(zhǔn)或NTTS)開始,前12個月每月最多100萬個神經(jīng)文本轉(zhuǎn)換語音都是免費(fèi)使用的。像Globe and Mail、Gannett、BlueToad、TIM Media、EncyclopediaBritannica以及游戲開發(fā)商Volley等客戶已經(jīng)通過AWSPolly使用新聞播音員風(fēng)格。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 亞馬遜在AWS上推出神經(jīng)文本轉(zhuǎn)新聞播音員風(fēng)格,前100萬條免費(fèi)轉(zhuǎn)換
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國