聯大文創系研發「阿知牯」 可客語導覽.翻譯
客家電視台/楊以諾 苗栗
3 年前
苗栗聯合大學文創系開發,AI人工智慧機器人「阿知牯」,除了能用客語導覽,還可提供客語翻譯、語音對話等功能,在ChatGPT開發後,客家語言被列為低階語言,客語語料資料庫嚴重缺乏,也讓客語AI機器人發展之路,充滿挑戰。
詢問客語AI機器人,臺灣人的客家分布在哪裡,桃竹苗地區等,客家人口、密度較高的縣市,竟然不在答案裡,究竟出了什麼問題?
聯合大學文創系教授 張陳基:「它應該是從它過去的語料去,去做整理,不過因為可能這邊的語料比較少,所以它們可能就是,會有出現像這樣子,比較多的一些偏誤這樣子。」
ChatGPT是利用AI生成工具,透過累積的資料庫生成文字,不過客語不像華語或英語,有龐大的資料庫可讓AI學習,所以現階段,客語機器人的應對回答,可能無法滿足民眾期待,但透過專用客語詞彙的增加,多少可彌補這方面的缺憾。
苗栗縣客語推動委員會委員 徐煥昇:「你公太其是是曾祖父了,它只能翻到,電腦只能原始翻到祖父,要把它改成你的曾祖父,而不是你的祖父太。」
聯合大學文創系教授 張陳基:「裡面我們翻譯那個河邊,就說河壩旁,我們翻譯那個麻雀,就說屋簷鳥,那這些聽起來就會變得,很客家味這樣子,那這個部分呢,也是一樣只能解決部分的問題。」
不過由於客語語料數位資料不足,研發團隊只能一步一腳印,先讓AI回答問題,再以人力方式逐字修正AI答覆資訊,但需花費大量的人力、物力及時間。
苗栗縣客語推動委員會委員 徐煥昇:「給電腦的資料越多,它下一次,它的能力會越好,會越來越像真人。」
張陳基認為客語機器人開發,需掌握最關鍵三項技術,客語翻譯、語音合成及語音辨識,研發團隊目前已進入語音合成階段,將書寫文字轉換成語言,但第三階段語音辨識,一個腔調就需要不同發音者,上萬小時的語音語料,才能達到足夠正確的辨識率,成為推展客語AI最大的挑戰。
聯合大學文創系教授 張陳基:「語音辨識它需要的語料更多、更多,不過因為我現在還沒做,所以現在可能以後比較有經費的時候,我就可以做。」
張陳基開發客語AI機器人10多年,是希望未來能促成,隨時隨地都有一對一的客語教學,含括四海大平安等腔調,讓民眾不用擔心客語失傳的問題,未來也會持續朝這個方向努力。