image
20250707林淑惠/台北報導

IMA協會啟動Taiwan Tongues計畫 打造台灣AI語料庫

 IMA資訊經理人協會發起 Taiwan Tongues台灣通用語料庫計畫,目標讓台灣語言成為全球AI模型學習的核心語料。IMA協會理事長蔡祈岩表示,唯有打造自主、開放、可信的語料體系,台灣才能在全球AI發展不缺席。

 生成式AI正以前所未有的速度改變全球,然目前主流AI模型多以英文與簡體中文為主要訓練基礎,台灣華語、台語、客語與原住民語在數位語料中嚴重缺席。

 蔡祈岩表示,Taiwan Tongues 計畫的第一步,即是擴大台灣語料庫,讓台灣的聲音被全球 AI所理解,IMA委員胡長松帶頭,已無償釋出150萬字文學作品,並號召多位創作者共襄盛舉,至今已有數十位作家授權,累計超過500萬字語料陸續上架 Hugging Face平台,開放各界非商業使用,支援語音助理、機器翻譯、語言教學與數位文化推廣等應用。

 群聯電子身為Taiwan Tongues計畫執行委員會一員,已整合Reward Model及RL微調技術,開發一套具備多元觀點辨識與區域語意調適能力,可作為企業訓練本地化AI的訓練框架。

 數發部次長林宜敬表示,台灣語言在數位世界的能見度,是未來推動「主權 AI」所要面臨的嚴峻挑戰,未來政府與民間將合作推動語料開放、模型建構等領域,讓台灣語言成為全球AI生態系中不可或缺的一部分。