訓練數據是今日先進人工智慧(AI)系統的核心,但取得數據的成本愈來愈高,除了口袋最深的科技公司之外,其他企業根本無力負擔。專家指出,AI訓練數據市場規模十年內將暴增,從現在的25億美元大幅成長至接近300億美元。
正如OpenAI研究員貝特克(James Betker)在介紹生成式AI模型與背後數據集的文章裡寫道,日益複雜、功能強大的AI系統關鍵在於訓練數據,而不是模型的設計、架構或其他特質。換言之,數據品質與數量決定了模型的強弱。
舉例來說,OpenAI耗費數億美元從新聞出版商、媒體資料庫取得內容來訓練他們自家的AI模型,此一預算遠遠超出多數學術研究機構、非營利組織與新創公司的預算範圍。
臉書母公司Meta甚至考慮收購出版商Simon & Schuster,以獲得電子書摘錄版權。該公司2023年被私募股權公司KKR以16.2億美元價碼收購。
非營利機構艾倫人工智慧研究所(AI2)資深應用研究科學家羅凱爾(Kyle Lo)表示,規模較小的企業根本無法負擔這些數據授權費用,自然無法開發或研究AI模型。
眼見AI訓練數據市場規模日益壯大,許多數據中介公司或內容平台開始販賣數據與索取高價,完全不理會用戶反對。圖片庫供應商Shutterstock近日便與AI業者簽訂2,500萬~5,000萬美元不等的授權協議。社群論壇Reddit則聲稱,該公司已透過資料授權從谷歌與OpenAI等公司手中賺得數億美元。