當前位置:首頁 > 新聞中心 > 科研動態

科研動態

智能交互團隊提出韻律與音色解耦建模的新方法,接連斬獲大賽佳績

  • 發表日期:2021-03-05 【 【打印】【關閉】
  •   中科院自動化所智能交互團隊多年來深耕語音生成技術,提出韻律與音色個性化解耦建模方法,為小樣本語音模仿提供了一種有效的途徑。 

      語音模仿技術是指利用一定量的目標人數據生成目標語音,在生活、娛樂、新聞、教育、醫療、金融等重多領域具有廣泛的應用前景。但是,在小樣本場景下該技術存在聲音模仿相似度低和魯棒性差的問題,這是當前面臨的關鍵技術挑戰。針對上述挑戰,團隊積極開展研究,推動語音模仿技術將聲音的要素有效分解,從而解決語音模仿技術對目標人數據需求量大的問題。 

      憑借相關技術成果,團隊多次在國內外語音模仿大賽中取得突出成績。20192020年連續兩年獲工信部主辦的“個性化語音合成”比賽冠軍。2021年獲依托語音領域國際頂級會議ICASSP舉辦的“多說話人多風格音色克隆大賽(M2VoC)”的極少樣本閉集賽道(給定5個語音樣本約1分鐘)賽道冠軍。 

      據悉,“個性化語音合成”比賽由工業和信息化部信息中心、國家工業信息安全發展研究中心等聯合主辦,大賽旨在發掘人工智能領域原創技術、創新產品和變革應用,推動人工智能創新創業項目落地。大賽決賽分為應用挑戰和雙創激蕩兩個大的方向,經過專家評審,共有55支隊伍參加現場總決賽。“個性化語音合成”賽道的任務是利用50句約10分鐘的語音模仿目標說話人的說話風格信息。M2VoC國際挑戰賽依托2021年語音聲學領域國際頂級會議(ICASSP 2021)舉辦,旨在提供一個通用的數據集以及一個公平的測試平臺,對語音克隆模仿任務進行研究,共150多支隊伍報名。極少樣本閉集賽道(給定5個語音樣本約1分鐘)只能使用比賽提供的數據訓練模型,難度極高。 

      相關技術研究能夠為個性化語音生成提供理論支持,可以大幅降低語音模擬的經濟與時間成本,對多媒體信息智能生成的發展具有重要意義。 

     

    彩神-入口