亚洲欧洲美洲天堂Av,深夜视频免费网址2021,亚洲图色欧美另类小说

近日，亞馬遜宣布在AWS Polly上推出神經(jīng)文本轉(zhuǎn)語音自動生成新聞播音員風(fēng)格，通過此功能轉(zhuǎn)換的神經(jīng)文本，將增加自然性和表現(xiàn)力，可以顯著改善語音轉(zhuǎn)換質(zhì)量。

亞馬遜在去年年底的一篇AI研究論文中，詳細(xì)描述了其關(guān)于神經(jīng)文本轉(zhuǎn)換語音的原理（數(shù)據(jù)減少對序列到序列神經(jīng)TTS的影響）。其中研究人員描述了一個全新的AI語音學(xué)習(xí)系統(tǒng)。該系統(tǒng)只需經(jīng)過短短幾十個小時的數(shù)據(jù)訓(xùn)練，便可以模仿一位配音演員的閱讀風(fēng)格。

亞馬遜的AI模型由兩部分組成。第一個是轉(zhuǎn)換音素的序列生成神經(jīng)網(wǎng)絡(luò)：即與另一個區(qū)分開一個字，如聲音感知上的不同單元P，B，D到譜圖的一個序列，或視覺隨著時間的變化聲音頻譜的表示。第二個是聲碼器：將這些頻譜圖轉(zhuǎn)換為連續(xù)的音頻信號。

其中，音素到頻譜圖解釋器網(wǎng)絡(luò)是序列到序列，這意味著它不僅僅從相應(yīng)的輸入計算輸出，而是考慮它在輸出序列中的位置。除了“風(fēng)格編碼”之外，亞馬遜的科學(xué)家還使用音素序列和相應(yīng)的光譜圖序列對其進(jìn)行了訓(xùn)練，使得該風(fēng)格編碼確定了訓(xùn)練示例中，使用的特定說話風(fēng)格。模型的輸出被輸入到聲碼器中，可以從任何揚(yáng)聲器中獲取頻譜圖，無論AI是否在訓(xùn)練期間看到它們。

這種AI模型訓(xùn)練方法，結(jié)合了大量中性風(fēng)格的語音數(shù)據(jù)，只需幾個小時的風(fēng)格數(shù)據(jù)補(bǔ)充，以及一個能夠區(qū)分語音元素的AI系統(tǒng)，可輸出像播音員和演員那樣的語音風(fēng)格。

目前，新聞主播風(fēng)格可用于兩種英語語音，而神經(jīng)文本語音可用于11種語音。它們都是實(shí)時工作和批量處理模式，現(xiàn)在可以在美國東部（弗吉尼亞北部），美國西部（俄勒岡州）和歐洲（愛爾蘭）AWS區(qū)域訪問。

從第一次語音請求（標(biāo)準(zhǔn)或NTTS）開始，前12個月每月最多100萬個神經(jīng)文本轉(zhuǎn)換語音都是免費(fèi)使用的。像Globe and Mail、Gannett、BlueToad、TIM Media、EncyclopediaBritannica以及游戲開發(fā)商Volley等客戶已經(jīng)通過AWSPolly使用新聞播音員風(fēng)格。

繼續(xù)閱讀：