回到頂端
|||
熱門: 黃子佼 徐巧芯 地震

LINE 於音訊音頻信號處理領域發表的 7 篇論文,獲 IEEE ICASSP 國際會議採納

滔新聞/跳跳虎(蔡漢威 / Hon-Wai Choy) 2021.03.04 16:23

LINE 近日於音訊和音頻信號處理領域發表的 7 篇論文,榮獲該領域學術地位最高的—聲學、語音和信號處理國際會議(ICASSP)的採納;本次獲採納的論文包含與 LINE 母公司 NAVER 的 2 項共同研究,總共高達 14 篇,其中,關於達成語音合成品質改善及語音辨識率的研究更獲得了大會讚許。

 

 

ICASSP(英文全稱 International Conference on Acoustics, Speech and Signal Processing)即聲學,語音和信號處理國際會議,由 IEEE(Institute of Electrical and Electronics Engineers,電機電子工程師學會)主辦,在信號處理及應用領域是全球歷史悠久且最具規模和權威的國際旗艦會議。ICASSP 將於 2021 年 6 月在線上召開第 46 屆會議(ICASSP 2021),本次共有 3,600 篇投稿,其中有 1,700 篇論文被採納,届時將同步線上發表。

 

LINE 致力於語音合成技術、音源分離技術、環境音識別技術開發,將其作為音訊音頻信號處理領域的基礎研究

 

AI 技術是 LINE 的重點發展事業,為了加速 AI 技術的研究開發及應用,LINE 與 NAVER 聯手整合資源,全力推進 AI 相關服務及新功能的基礎研究。在此背景下,團隊在資料平台開發、資料分析、機器學習、AI 技術開發、基礎研究等面向皆展開了跨領域合作,讓技術加速朝向商業化應用。

 

在基礎研究方面,LINE 以機器學習為主軸,致力於音訊處理、語言處理、圖像處理等技術的研究。而在音訊音頻信號處理領域上的各項研究,包括採用 Parallel WaveGAN 的高速高品質語音合成技術,有效分離雜音以提升音訊品質及語音辨識率的音源分離技術,還有可自動檢測辨識聲音的環境音識別技術。

 

LINE 關於改善語音合成品質、提升語音辨識率的研究獲讚許和採用

 

在語音合成相關部分,在採用生成對抗網路(Generative Adversarial Network / GAN)的非自回歸型語音合成模型的 Parallel WaveGAN 上,採納了利用濁音 / 清音的資訊改良識別器的研究。過去採用單一識別器的 Parallel WaveGAN,由於識別器表現力有限以及學習的困難,尤其是使用複數通話者語音資料庫時,會有品質劣化的問題。依提案方法,著眼於濁音和清音的性質差異,設計符合各自性質的識別器,大幅改善了語音合成的品質。雖然是逐次的研究,仍採用總計四名男女的說話者,進行大規模的主觀評價實驗以驗證提案方法的有效性,因此受到肯定而獲採納。

 

另外,關於音源分離的部分,提出不採用深度學習的音源分離方式的 ISS(Iterative Source Steering)法,同時採用深度學習的音源模型的推定法,以兩者相互組合的新作法,讓語言辨識率提升更優於過去的 ISS 法,此方式因為不用依賴音源數的可適用框架構造而受到好評並獲採納。

 

LINE 將持續推動 AI 技術相關的基礎研究,提升既有服務價值

 

LINE的 AI 科技品牌「LINE CLOVA」,致力發展各項 AI 技術和服務以解決生活及商業中的大小難題,並提升社會機能與生活品質。此外,LINE CLOVA 還提供以 CLOVA Speech 語音辨識、CLOVA Voice 語音合成等開發的語音技術企業解決方案。

 

如 AI 客服訂位應用「LINE AiCall」,組合了 CLOVA Speech、CLOVA Voice 以及對話控制的架構,使 AI機器人能夠用自然語言與客戶互動,可有效地解決人手不足問題,現已應用於行政單位與餐飲店家中。此外,去年發表的紀錄和管理應用程式「CLOVA Note」有精確的辨識度,因為是來自於大量時間錄音解析所產生的模型。

 

LINE 將持續積極發展 AI 技術,無論在技術或服務上,都將努力推陳出新,以實現在基礎研究和服務價值上的顛覆性進展。

 

相關報導

這篇文章 LINE 於音訊音頻信號處理領域發表的 7 篇論文,獲 IEEE ICASSP 國際會議採納 最早出現於 滔新聞

社群留言

台北旅遊新聞

台北旅遊新聞