20240603・鄭勝得／綜合外電報導

AI訓練數據超貴僅科技巨擘能負擔

　訓練數據是今日先進人工智慧（AI）系統的核心，但取得數據的成本愈來愈高，除了口袋最深的科技公司之外，其他企業根本無力負擔。專家指出，AI訓練數據市場規模十年內將暴增，從現在的25億美元大幅成長至接近300億美元。

　正如OpenAI研究員貝特克（James Betker）在介紹生成式AI模型與背後數據集的文章裡寫道，日益複雜、功能強大的AI系統關鍵在於訓練數據，而不是模型的設計、架構或其他特質。換言之，數據品質與數量決定了模型的強弱。

　舉例來說，OpenAI耗費數億美元從新聞出版商、媒體資料庫取得內容來訓練他們自家的AI模型，此一預算遠遠超出多數學術研究機構、非營利組織與新創公司的預算範圍。

　臉書母公司Meta甚至考慮收購出版商Simon & Schuster，以獲得電子書摘錄版權。該公司2023年被私募股權公司KKR以16.2億美元價碼收購。

　非營利機構艾倫人工智慧研究所（AI2）資深應用研究科學家羅凱爾（Kyle Lo）表示，規模較小的企業根本無法負擔這些數據授權費用，自然無法開發或研究AI模型。

　眼見AI訓練數據市場規模日益壯大，許多數據中介公司或內容平台開始販賣數據與索取高價，完全不理會用戶反對。圖片庫供應商Shutterstock近日便與AI業者簽訂2,500萬～5,000萬美元不等的授權協議。社群論壇Reddit則聲稱，該公司已透過資料授權從谷歌與OpenAI等公司手中賺得數億美元。

AI訓練數據超貴 僅科技巨擘能負擔

AI訓練數據超貴僅科技巨擘能負擔