AI應用普及化正在改變教育,不少學生靠AI工具翻譯英文讀本,但因生成式AI模型訓練資料。以簡體中文為大宗,產出的詞彙、語氣都更偏向大陸用法,例如「數位轉型」變成「數字轉型」,「永續發展」被翻成「可持續發展」,「身障」被講成「殘疾」。
自從ChatGPT問世、百度研發ERNIE大型語言模型以來,社會各界對打造繁體中文大型語言模型的討論不曾間斷,儼然成為一場國家數位主權、文化保衛戰。行政院長卓榮泰公開宣示:「台灣應進入主權AI的應用時代」。
不過,推動主權AI之前,恐需先克服眼前幾個難關。首先,大型語言模型對於資金、軟硬體、資料的要求極高,作為運算能力源頭的GPU是最關鍵的基礎元件,同時也須有AI素養的高端技術人才,最重要的是,必須具備高品質且多樣化的數據資料,讓AI變得更聰明。
若數據資料不夠完整,模型便難以學習基礎的在地語言邏輯、常識及知識,遑論以符合在地語境的方式進行表達。因此,打造台灣自己的繁體中文語言資料集,以建立接地氣的大型語言模型,是開發者們刻不容緩的課題。
目前國科會主導可信任生成式AI對話引擎計畫(TAIDE),使用政府報告摘要、各縣市政府旅遊網站、司法院判決、科技產業資訊室、三采文化童話書、教育部《國語小字典》與《重編國語辭典修訂本》、學術會議論文摘要、中文維基百科、部分新聞機構授權資料庫等繁體中文資料進行訓練,但是,這些訓練資料大多屬於政府公開資料,多數繁體中文內容受限於版權,可蒐集利用的數據資料量仍有侷限。
不少評論認為,台灣目前的法律架構追不上科技腳步,版權方在沒有明確法律保護下,不願意分享有價值的內容,使開發團隊難以取得大型資料庫。如何在發展主權AI與維護著作財產權人權利間取得平衡,讓著作財產權人可分配適當利益,同時充實語言資料集,值得主管機關思考。
此外,若想提高企業導入AI應用的誘因,不只要兼顧繁體中文的需求,產出結果也必須符合業界對技術精確度、可信任度、精準度、資訊安全的要求,才有可能成功推廣,真正達成卓揆口中「主權AI的應用時代」之目標。
主權AI發展攸關文化自主權與國家經濟安全利益,如何在世界AI賽局中,確保國家擁有AI技術自主性,不依賴外部資源就能進行創新,是全體國人共同的期待。期許台灣能確保數位主權,在全球競逐下持續保持競爭力。