自從生成式人工智慧熱潮開始以來,內容創作者一直辯稱,他們的作品在未經他們同意的情況下就被納入了人工智慧模型。但到目前為止,很難知道特定文字是否確實已在訓練資料集中使用。 現在他們有了一種新的方法來證明這一點:由倫敦帝國學院的一個團隊開發的“版權陷阱”(“Copyright traps”),這是一些隱藏的文本,允許作家和出版商巧妙地標記他們的作品,以便以後檢測它是否已被用於人工智慧型號與否。這個想法類似於版權所有者在歷史上使用的陷阱——例如在地圖上包含虛假位置或在字典中包含虛假單字等策略。
梅麗莎·海基拉(Melissa Heikkiläarchive)最新發表在《麻省理工科技評論》的<「版權陷阱」可以告訴作家人工智慧是否抄襲了他們的作品>(“Copyright traps” could tell writers if an AI has scraped their work)指出,這項技術在歷史上一直被使用,但現在可能成為人工智慧領域最大的戰鬥之一的工具。(The technique has been used throughout history, but now could be a tool in one of the biggest fights in artificial intelligence.)
引發了人工智慧領域最大的鬥爭之一
這些人工智慧版權陷阱引發了人工智慧領域最大的鬥爭之一。許多出版商和作家正在對科技公司提起訴訟,聲稱他們的智慧財產權在未經他們許可的情況下被納入人工智慧訓練資料集中。 《紐約時報》正在進行的針對 OpenAI 的案件可能是其中最引人注目的。
產生和偵測陷阱的程式碼目前可以在 GitHub 上找到,但團隊還打算建立一個工具,讓人們可以自行產生和插入版權陷阱。
「在使用哪些內容來訓練模型方面完全缺乏透明度,我們認為這阻礙了[人工智慧公司和內容創作者之間]找到適當的平衡,」倫敦帝國學院的應用數學和電腦科學教授領導了這項研究。它是在本週在維也納舉行的國際機器學習會議上提出的,這是一場頂級人工智慧會議。
陷阱可以透過多種方式註入到文本中
為了創建陷阱,團隊使用單字產生器創建了數千個合成句子。這些句子很長,充滿了胡言亂語,可能看起來像這樣:「當動盪時期到來時......什麼在打折,更重要的是,什麼時候是最好的,這個清單告訴你誰在周四開業。晚上有他們的常規銷售時間和鄰居的其他開放時間。
de Montjoye 解釋說,團隊產生了 100 個陷阱句子,然後隨機選擇一個句子多次插入文本中。這個陷阱可以透過多種方式註入到文本中,例如,作為白色背景上的白色文本,或嵌入到文章的源代碼中。這句話必須在文本中重複100到1000次。
為了偵測陷阱,他們將產生的 100 個合成句子輸入大型語言模型,並查看它是否將它們標記為新的。如果模型在其訓練資料中看到陷阱句子,則表示「驚訝」(也稱為「困惑」)得分較低。但如果模型對句子感到“驚訝”,則意味著它是第一次遇到它們,因此它們不是陷阱。
過去,研究人員建議利用語言模型記憶訓練資料的事實來確定資料中是否出現了某些內容。這種被稱為「成員推理攻擊」的技術在大型最先進的模型中非常有效,這些模型往往會在訓練過程中記住大量資料。
人工智慧公司終於被迫付出訓練資料的代價
Gautam 表示,相較之下,越來越受歡迎且可以在行動裝置上運行的較小模型,記憶量較少,因此不易受到成員推理攻擊,這使得確定它們是否接受過特定受版權保護文件的訓練變得更加困難。
版權陷阱是一種進行成員推理攻擊的方法,即使在較小的模型上也是如此。該團隊將他們的陷阱注入到CroissantLLM的訓練資料集中,這是一種新的法國和英國雙語語言模型,由倫敦帝國學院團隊合作的行業和學術研究人員團隊從頭開始訓練。 CroissantLLM 擁有 13 億個參數,只是最先進模型的一小部分(例如,據報導 GPT-4 有 1.76 兆個參數)。
音樂產業的訴訟發出了迄今為止最響亮的訊息:高品質的訓練資料不是免費的。
卡馬斯說,研究表明確實可以將此類陷阱引入文本數據,從而顯著提高成員推理攻擊的效率,即使對於較小的模型也是如此。但他補充說,還有很多工作要做。
積極主動的攻擊者如果了解陷阱,就可以移除
在文件中重複75 個單字的短語1,000 次對於原始文字來說是一個很大的改變,這可以讓人們訓練人工智慧模型來檢測陷阱並跳過包含它的內容,或者只是刪除它並訓練文字的其餘部分,卡馬斯說。這也使得原文難以閱讀。
加州大學歐文分校電腦科學教授、新創公司 Spiffy AI 聯合創始人 Sameer Singh 表示,這使得版權陷阱目前不切實際。他沒有參與這項研究。 「很多公司都會進行重複數據刪除,[意思是]他們會清理數據,而一堆此類東西可能會被扔掉,」辛格說。
卡馬斯說,改進版權陷阱的一種方法是找到其他方法來標記受版權保護的內容,以便成員資格推斷攻擊對它們更好地發揮作用,或者改進成員資格推斷攻擊本身。
德蒙喬耶承認這些陷阱並非萬無一失。他說,積極主動的攻擊者如果了解陷阱,就可以移除。
「他們是否能將它們全部移除還是一個懸而未決的問題,這可能有點像貓捉老鼠的遊戲,」他說。但即便如此,應用的陷阱越多,在沒有大量工程資源的情況下移除所有陷阱就越困難。
「重要的是要記住,版權陷阱可能只是權宜之計,或者只是給模特兒培訓師帶來不便,」卡馬斯說。 “一個人不可能發布一條包含陷阱的內容並保證它永遠是一個有效的陷阱。”