客委會自民國106年起建置的「臺灣客語語音資料庫」,至今已完成四縣腔以及海陸腔語料,為擴展客語AI應用,客委會舉辦「2023客語AI應用黑客松·創意發想大賽」,藉由客語音料資源基礎,構想更多智慧醫療、智慧觀光等生活化客語AI方案。 「你是什麼名字?我是一個人工智慧聊天程式,目前暫時還沒有正式的名字。」 和客語對話機器人以客語一問一答,大秀「臺灣客語語音資料庫」四縣腔和海陸腔建置完成成果,客委會後續也將繼續收錄大埔、饒平以及詔安腔,提高腔調豐富性,並藉由電視、廣播節目音檔,以及客華平行語音語料,加速收集客語語音,提升語音辨識能力。 國立陽明交通大學電信工程研究所教授 黃紹華:「我們有建置5萬筆華客的資料庫,這資料庫怎麼說,像中文昨天,客語講為昨天,我們就建了5萬多筆,這個比教育部的現有的1萬5千筆,還要多很多。」 華碩雲端股份有限公司總監 李立國:「那這一次的語音的一個整個資料庫的內容含括,總共從語音的辨識、合成到媒體的收錄,超過1千個小時,那這是目前台灣最大的語音資料庫。」 結合時下最熱門的AI技術,客委會辦理「2023客語AI應用黑客松·創意發想大賽」,針對智慧醫療、智慧觀光及智慧教育,三大提案主題,發展具體可行的客語AI應用方案,完備客語服務能量,評審將從方案成果的創新性,以及可行性等面向評分,第一名有機會獲得3萬元獎金。 國立陽明交通大學產學創新研究學院教授 廖元甫:「世界第一套對大眾公開的大規模客語的語音資料庫,那就可以用這個回去,訓練自己的客語語音辨認器。」 客委會副主委 周江杰:「這個資料庫,可以讓所有社會、所有的朋友可以好好的運用,來發想未來在我們的環境中,可以有什麼運用的機會。」 隨著「臺灣客語語音資料庫」陸續整備完成,客語大數據可運用範圍更加廣泛,透過客語語音辨識和語音合成技術,未來客語即時字幕、虛擬客語主播,以及AI導覽等功能指日可待。