(中央社訊息服務20240229 13:49:12)客家委員會自民國110年起,啟動「臺灣客語語音資料庫」建置計畫,至112年底已初步完成四縣腔及海陸腔的語音辨識及合成資料,現開放申請授權,歡迎各界多加應用。這項資料庫的建立,讓客語得以結合科技,在數位世界發聲,相信將會翻轉客語在生活與學習的應用,也將為面臨消失危機的客語,帶來新的契機。
客語語音資料是自然語言處理技術能與其他語種接軌之必備材料,而語音資源之系統性蒐集與建置,需要龐大的專業人力與時間成本,為推動客語在數位時代的傳承與創新,客委會委請「社團法人中華民國計算語言學學會」代為辦理對外授權事宜,將這些寶貴的語音資料以無償、非專屬授權方式開放各界申請授權使用,每項僅收取工本費新臺幣1,000元。
語音資料庫不僅是客語傳承的寶藏,也是語音技術發展的重要資源,客委會誠摯邀請對客語語音數位應用有興趣的學界、團體或企業,投入客語語音的開發應用,透過與科技的結合,成為民眾生活的一部分,推動客語在數位時代發展的關鍵步伐。除了已初步完成的四縣、海陸腔,客委會也在今年啟動大埔、饒平、詔安等腔調語音蒐整工程,並持續蒐集四縣、海陸腔,期望未來能建立「四、海、大、平、安」的大語音庫,提升客語語音辨識的準確度與便利性。
目前已完成開放應用的資料,包含語音辨識語料四縣腔(含南四縣腔)396小時、海陸腔300小時,以及語音合成語料四縣腔、海陸腔各60小時,媒體語料四縣腔280小時、客華平行辭庫四縣腔、海陸腔各5萬詞等7項,請上「中華民國計算語言學學會」網站 https://www.aclclp.org.tw/corp_c.php 查詢。