image
20250716呂俊儀/台北報導

數發部拚主權AI語料庫 Q4上線

主打提升開放資料質量、活絡跨域資料共享等四目標

image
數發部提出《促進資料創新利用發展條例》草案,15日對外說明立法相關內容。圖/本報資料照片
「促進資料創新利用發展條例」立法重點

 數發部提出《促進資料創新利用發展條例》草案,15日對外說明立法相關內容,包括透過建立授權條款、政府機關盤點資料,建置台灣主權AI語料庫,預計第四季上線。

 《促進資料創新利用發展條例》預告期到8月15日,數發部說明,重點包括一、提升開放資料質量,助攻AI模型訓練;二、活絡跨域資料共享,提升資料價值,如節省資料取得費用,輔導、獎勵或補助措施等;三、各機關建立促進措施,推升資料創新利用;四、打造資料創新生態。

 數發部次長林宜敬表示,AI進展非常迅速,台灣一直希望訓練出有台灣觀點、用於台灣的AI模型,但AI訓練需要很大的資料,透過修法把政府擁有著作權的資料釋放出來,過程中也不會損害個資。數發部強調,草案規定政府開放資料應使用標準授權條款,以利於AI等新興科技的研發利用,並強調政府資料對外共享,應以非專屬授權為原則,不授權給特定人。

 對於外界關心台灣主權AI語料庫進展,資料創新司司長莊明芬說,如同十多年前做開放資料,從每個機關從開放五個資料集慢慢累積,現在也秉持相同精神,但需要時間。

 莊明芬解釋,政府開放資料已有5萬多筆,但大型語言模型(LLM)訓練需要資料可能不是像開放資料的結構化資料,是語意連貫、內容完整的文本型資料,但這可能涉及著作財產權。因此,預先訂定台灣主權語料授權條款,政府機關先盤點,利用授權條款釋出資料,未來主權語料庫也包含原本的開放資料,其中,文本型開放資料大約有1,000多筆,包含TAIDE(可信任AI對話引擎)等都可自由運用。她強調,政府施政報告、計畫,重要出版品等也會放進語料庫,多數會是適合LLM訓練的高品質文本型資料。7、8月會密集拜會各部會提供協助。像是客委會、教育部、原民會、文化部等都已在盤點,預計第四季釋出語料庫。