114年10月29日國家發展委員會舉辦實現人工智慧之島——營造友善創新法制環境研討會發言摘要
作者:章忠信
有著作權,侵害必究
完成日期 114.10.29
ch7943wa@ms12.hinet.net
主題二 生成式 AI 訓練資料的著作權挑戰
講題一:生成式AI訓練資料之著作利用合法界限與條件
AI的訓練涉及大量且完整地利用很多作品,那這樣的行為會是「合理使用」嗎?我認為絕對不是合理使用。許多人認為AI的訓練可被視為「資料探勘(data mining)」,而資料探勘在歐盟屬於合理使用;但歐盟議會今年7月的報告特別指出,把AI訓練比照資料探勘,是錯誤的法律連結(legal mismatch)。
何謂資料探勘?舉例而言,我們稱對岸為「匪區」後改稱「大陸」、「中國大陸」,現稱「中國」;把大量文獻全文丟進AI做探勘,開始知道用詞在什麼時候改變,這種統計趨勢分析才是資料探勘。資料探勘最終成果並沒有用到內容本身,而只是找出某種趨勢而已;相較之下,AI訓練結果是產生足以與原內容相競爭之成果,不是資料探勘、亦不是合理使用,必須要取得同意或授權。
任何人有問題,應該請教專家,而不是隨便去問路人。在AI訓練取得授權方面,應以期刊、專書、論文為內容,而不是網路資料隨便抓。既然資料庫的建立都可以取得授權,那AI的訓練要取得授權,應該也不是那麼困難。AI訓練者甚至還可考慮與資料庫業者合作,因為資料庫業者已將資料處理完畢,品質與授權問題都能被控制。
著作利用的基本原則,需要先取得授權再作利用,並非可以未經授權就加以利用後,再由著作權人要求退出;歐盟的資料探勘,若是非營利、學術性質,著作權人是無法退出的,只有營利的性質,著作權人可以要求退出。問題是AI訓練的資料利用,看起來根本就不是資料探勘,應先取得授權才能利用。
實務上,資料庫業者取得授權,都是找粽子頭角色的期刊、雜誌或出版社,只要向它們取得授權,下面的每一個粽子,也就是每個作者們,就全部搞定了,不可能一一與每一個作者們洽商授權。生成式AI若要能生成優質成果,應該找老師的作品而非路人的作品。不過,生成式AI的訓練,在利用著作方面,一旦利用了,就不可能刪除或遺忘,如同學生上大學後將高中課本丟掉,並不會喪失其高中程度,因為已經學習過了。因此,著作權人將來在授權時需要思考,並非是要討論授權多久,而是每年都需要分錢給著作權人,因為讀過著作權人著作後,即便拿掉著作,模型也已記住著作內容知識、已得到如同著作的程度,且不會喪失。討論授權時,需思考這些問題。
AI會這麼聰明,一定是有讀過他人的作品,如果沒有重製或閱覽既有的作品,AI不可能透過演算法演算出這麼棒的成果。生成式AI生成的結果未必會重製或改作既有的作品,但是訓練過程當中,一定有利用到既有作品,即使技術上可能最後沒有在系統中重製既有著作,而僅是從中擷取某些素材,轉成演算依據所需要之參數,但仍有著作之利用。生成式AI的研發者並非公益慈善團體,不能以爲了促進國家文化發展及知識的散布為由,主張可以免費利用他人的作品。
著作權法並非保護著作權,而是在做創作者與利用人之間的適當利益分配。當AI的研發者利用他人的作品獲得很多收益,是否應與創作者進行利益分配?至於如何分配,則為技術上問題,可能透過立法,或透過合意授權。既然資料庫業主可以與大型出版社、媒體集團、雜誌期刊取得授權,不必跟每一個作者取得授權,即可使用優質的內容,後續再進行利益分配,則AI的研發者要取得授權,應該也不會有太大困難。我認為這樣的做法才能讓AI的成果是優質的。
另外要思考一個問題,人買書、看書,可以解決重製權的問題。這些書的內容記在腦海裡,跟權利人無關。但AI這麼聰明,資料內容被AI記住,那麼人類閱讀與AI閱讀在法律制度的價值上相不相等?又例如,研究所畢業賺錢領了薪水,不需要跟作者進行利益分配,但AI學習後收錢回答問題,應不應該與創作者進行利益分配?
每一個國家對於AI發展是有各自的策略及政策。對美國來說,他們的OpenAI到世界各地去征戰,美國人無法反而在國內跟他要求應取得授權,所以會認為利用著作訓練AI是合理使用。歐盟則有很清楚的利益分配概念,認為應該要儘量方便讓作品受到利用,並獲得利益合理分配,但歐盟的議會已經在檢討這件事。所以長遠而言,應該要建立一個公平合理的利益分配制度,創作者要獲得利益,利用者可以方便的利用,這應該才是著作權法最主要的核心。著作權法第1條規定,保護著作權人,調和社會公共利益,促進國家文化發展。基本上第一個(保護著作權人)不會爲了保護後面這兩個(保護著作權人、調和社會公共利益)而不見。