資料授權給生成式AI開發公司訓練大型語言模型,要怎樣合理約定授權條款?
作者:章忠信
2113◎有個生成式AI開發公司希望我們的資料能非專屬授權他們使用於訓練他們的大型語言模型(LLM),約定授權二年。其中,有個條款說「授權期間內提供AI模型學習訓練用之資料內容,已轉換成數字向量者,不受授權期間之限制。」這是甚麼意思?這約款是否合理?
想像一個場景。具高中程度的學生,一路學習都需要買課本。但高中畢業考上大學,把高中以下課本資源回收後,他的腦袋裡不會有高中以下的課本每一頁內容,但他已有高中程度的知識。除非他忘記先前學習的內容,想要翻課本恢復記憶,否則他不需要繼續保存課本。
生成式AI的大型語言模型(LLM),也有類似情況,甚至更超越。一旦把資料授權給生成式AI開發公司,生成式AI快速完成機器學習後,原授權內容就不再需要儲存於系統中,生成式AI的後續演算,並不會有忘記資料的問題。所以,授權期間長短根本不是問題,這也是目前資料庫業者的疑慮,他們擔心一旦將資料提供後,只要很短的時間就能讓生成式AI完成學習訓練,事實上資料是無法刪除的,或者說資料刪除也沒有意義。資料庫業者必須能適當公平合理地分享生成式AI之獲利,授權的權利金收入必須夠多,獲利要能精準預測,反映於權利金數額之計算,才能保障資料庫業者之利益。