20250716・呂俊儀／台北報導

數發部拚主權AI語料庫 Q4上線

主打提升開放資料質量、活絡跨域資料共享等四目標

數發部提出《促進資料創新利用發展條例》草案，15日對外說明立法相關內容。圖／本報資料照片

　數發部提出《促進資料創新利用發展條例》草案，15日對外說明立法相關內容，包括透過建立授權條款、政府機關盤點資料，建置台灣主權AI語料庫，預計第四季上線。

　《促進資料創新利用發展條例》預告期到8月15日，數發部說明，重點包括一、提升開放資料質量，助攻AI模型訓練；二、活絡跨域資料共享，提升資料價值，如節省資料取得費用，輔導、獎勵或補助措施等；三、各機關建立促進措施，推升資料創新利用；四、打造資料創新生態。

　數發部次長林宜敬表示，AI進展非常迅速，台灣一直希望訓練出有台灣觀點、用於台灣的AI模型，但AI訓練需要很大的資料，透過修法把政府擁有著作權的資料釋放出來，過程中也不會損害個資。數發部強調，草案規定政府開放資料應使用標準授權條款，以利於AI等新興科技的研發利用，並強調政府資料對外共享，應以非專屬授權為原則，不授權給特定人。

　對於外界關心台灣主權AI語料庫進展，資料創新司司長莊明芬說，如同十多年前做開放資料，從每個機關從開放五個資料集慢慢累積，現在也秉持相同精神，但需要時間。

　莊明芬解釋，政府開放資料已有5萬多筆，但大型語言模型（LLM）訓練需要資料可能不是像開放資料的結構化資料，是語意連貫、內容完整的文本型資料，但這可能涉及著作財產權。因此，預先訂定台灣主權語料授權條款，政府機關先盤點，利用授權條款釋出資料，未來主權語料庫也包含原本的開放資料，其中，文本型開放資料大約有1,000多筆，包含TAIDE（可信任AI對話引擎）等都可自由運用。她強調，政府施政報告、計畫，重要出版品等也會放進語料庫，多數會是適合LLM訓練的高品質文本型資料。7、8月會密集拜會各部會提供協助。像是客委會、教育部、原民會、文化部等都已在盤點，預計第四季釋出語料庫。