20241001・文／呂晏慈

打造主權AI 必須接地氣

　AI應用普及化正在改變教育，不少學生靠AI工具翻譯英文讀本，但因生成式AI模型訓練資料。以簡體中文為大宗，產出的詞彙、語氣都更偏向大陸用法，例如「數位轉型」變成「數字轉型」，「永續發展」被翻成「可持續發展」，「身障」被講成「殘疾」。

　自從ChatGPT問世、百度研發ERNIE大型語言模型以來，社會各界對打造繁體中文大型語言模型的討論不曾間斷，儼然成為一場國家數位主權、文化保衛戰。行政院長卓榮泰公開宣示：「台灣應進入主權AI的應用時代」。

　不過，推動主權AI之前，恐需先克服眼前幾個難關。首先，大型語言模型對於資金、軟硬體、資料的要求極高，作為運算能力源頭的GPU是最關鍵的基礎元件，同時也須有AI素養的高端技術人才，最重要的是，必須具備高品質且多樣化的數據資料，讓AI變得更聰明。

　若數據資料不夠完整，模型便難以學習基礎的在地語言邏輯、常識及知識，遑論以符合在地語境的方式進行表達。因此，打造台灣自己的繁體中文語言資料集，以建立接地氣的大型語言模型，是開發者們刻不容緩的課題。

　目前國科會主導可信任生成式AI對話引擎計畫（TAIDE），使用政府報告摘要、各縣市政府旅遊網站、司法院判決、科技產業資訊室、三采文化童話書、教育部《國語小字典》與《重編國語辭典修訂本》、學術會議論文摘要、中文維基百科、部分新聞機構授權資料庫等繁體中文資料進行訓練，但是，這些訓練資料大多屬於政府公開資料，多數繁體中文內容受限於版權，可蒐集利用的數據資料量仍有侷限。

　不少評論認為，台灣目前的法律架構追不上科技腳步，版權方在沒有明確法律保護下，不願意分享有價值的內容，使開發團隊難以取得大型資料庫。如何在發展主權AI與維護著作財產權人權利間取得平衡，讓著作財產權人可分配適當利益，同時充實語言資料集，值得主管機關思考。

　此外，若想提高企業導入AI應用的誘因，不只要兼顧繁體中文的需求，產出結果也必須符合業界對技術精確度、可信任度、精準度、資訊安全的要求，才有可能成功推廣，真正達成卓揆口中「主權AI的應用時代」之目標。

　主權AI發展攸關文化自主權與國家經濟安全利益，如何在世界AI賽局中，確保國家擁有AI技術自主性，不依賴外部資源就能進行創新，是全體國人共同的期待。期許台灣能確保數位主權，在全球競逐下持續保持競爭力。