一位科學家在審查一項研究時發現了與他自己的數據相似的數據,導致了一場令人沮喪的阻止該研究發表的運動。(A scientist reviewing a study spotted figures that looked identical to his own, leading to a frustrating campaign to prevent its publication.)丹·加里斯托 Dan Garisto發表在最新一期權威期刊《自然》(Nature)的<出版惡夢:研究人員努力防止自己的作品被抄襲>( Publishing nightmare: a researcher’s quest to keep his own work from being plagiarized)說,生物資訊學家 薩姆·佩恩(Sam Payne) 在 3 月偶然發現了一份手稿,其中包含的數據,他說,與他在 2021 年發表的一篇論文中的數據看起來一模一樣。
沒有預料到它會有多麼相關
當生物資訊學家薩姆·佩恩被要求審查一篇與他自己的工作相關的主題的手稿時,他同意了——並沒有預料到它會有多麼相關。
手稿於三月發送給佩恩,內容是關於細胞樣本大小對蛋白質分析的影響的研究。 「我立即認出了它,」猶他州普羅沃楊百翰大學的佩恩說。他說,該文本與他三年前撰寫的一篇論文相似,但最引人注目的特徵是圖表:幾個圖表直到最後一個數據點都是相同的。他向《生物系統》雜誌發出了一封電子郵件,該雜誌立即拒絕了這份手稿。
7月,佩恩發現該手稿已發表在《蛋白質體學》雜誌上,他通知了編輯。 8 月 15 日,該雜誌撤回了這篇論文。隨附的聲明指出,其中的「數據與佩恩的工作之間存在重大的未歸屬的重疊」。在回答《自然》雜誌的提問時,出版《蛋白質組學》的 Wiley 發言人表示,“這篇論文同時提交給多個期刊,並且包含抄襲的圖像。”
人工智慧使抄襲變得更加複雜。科學家該如何應對?
撤稿聲明還指出,四位作者表示“沒有參與文章的撰寫和提交,也沒有同意發表”,第五位作者沒有回應。然而,《自然》雜誌的新聞團隊發現了幾位作者與位於莫斯科的paper millInternational Publisher 之間的關聯。作者和國際出版商均未回應《自然》雜誌的置評請求。
《研究責任》雜誌主編麗莎‧拉斯穆森 (Lisa Rasmussen) 表示,佩恩論文涉嫌抄襲凸顯了全球研究界的系統性漏洞。根據一項分析,僅 2022 年就發表了大約 70,000 篇具有共同特徵的論文。
儘管問題規模很大,但期刊上並沒有類似的國際刑警組織,也沒有官方權威機構來提供有關可疑手稿的全行業警報。 「要求審閱的人是作者,這真是太幸運了,」拉斯穆森說。 “顯然我們的系統不應該依賴這種偶然性。”
他說,雖然BioSystems手稿中的一些數字是佩恩論文中的直接副本,但其他數字只是使用他的公開數據重新繪製的。他在 X(以前稱為 Twitter)上分享了令人不安的經歷。 「好吧,事情發生了,」他寫道。他在一篇文章中寫道,他正在審查一份手稿,其中包括他自己的一篇論文中的「數據的直接副本」。
幾個月後,當他發現蛋白質體學論文時,他發布了一篇後續文章。 「出色地。這真的發生了」——他被要求審查的論文已經發表了。兩週後,蛋白質體學以圖像抄襲為由撤回了這篇論文。
與圖片不同的是,蛋白質體學論文的正文與佩恩的相似,但並不完全相同。例如,佩恩和他的同事寫道:“從 10,000 個細胞的龐大群體中,我們對給定數量的細胞 n_sample ∈ [7, 16, 20, 30, 100] 進行二次採樣,併計算 S/V est。”蛋白質體學論文的相應段落具有相同的數字和許多相同的單字:“作者使用 10,000 個細胞群中的樣本n = [7,16,20,30,100] 個細胞計算了 S/Vest。”
第三人稱的使用引起了佩恩的注意。他說,這些奇怪的現象讓他認為他的論文已經使用人工智慧(AI)進行了解釋,以創建可信但不同的文本。
出售作者身份和出版文章的犯罪paper mill
在報導過程中,《自然》雜誌發現了蛋白質體學論文的作者與一家論文工廠(paper mill,指接受客戶委託,代寫學術論文)。莫斯科國立謝切諾夫第一醫科大學的兩位作者 Dmitrii Babaskin 和 Tatyana Degtyarevskaya 分別從《國際學習新興技術雜誌》中撤回了文章。 2022 年 7 月發布的兩份撤回聲明都使用相同的語言:“該作品可能與出售作者身份和出版文章的犯罪paper mill有關。”
作為證據,聲明引用了布萊恩·佩倫(Brian Perron)和他的同事的工作——他在安娜堡密西根大學研究社會工作,同時也是一名不當行為偵探——和他的同事們,他們發現了這兩篇被撤回的論文和國際出版商之間的聯繫。巴巴斯金和德格蒂亞列夫斯卡婭都沒有回應《自然》雜誌就撤稿發表評論的請求。
出版商聯合起來解決研究論文中的竄改圖像問題
國際出版商的網站上刊登了精選的 10,000 多篇手稿,主題廣泛,包括鋁合金焊接冶金和鵪鶉的生物學特徵。潛在買家可以看到論文的標題,有時還可以看到摘要,以及出版期刊的引文資料庫 Scopus 中的預期排名。然後他們選擇一個作者位置,費用從 500 美元到 3,000 美元不等。該公司承諾,在線顯示的標題和摘要將“完全更改”以供出版。該網站宣稱:“沒有人能夠在任何地方找到這份手稿。”
儘管如此,佩倫和他的同事在 2021 年向科學詐欺監管網站 Retraction Watch 報告稱,他們發現了近 200 篇可能來自 International Publisher 的已發表論文。佩倫說,許多已出版的書籍「幾乎逐字逐句」與待售的書籍相同。撤稿觀察報告中列出的許多論文後來被撤回。當被要求就其是一家paper mill的指控發表評論時,國際出版商沒有回應。
購買論文後,International Publisher 會從其線上目錄中刪除論文清單。為了解決這個問題,《自然》雜誌檢查了佩隆創建的過去國際出版商論文列表的數據庫,並梳理了總部位於加利福尼亞州舊金山的非營利組織互聯網檔案館拍攝的paper mill網站的屏幕截圖。搜尋顯示,蛋白質體學研究的五位作者中的四位發表的多篇文章的標題與國際出版商之前列出的出售論文的標題相符。
生物醫學論文撤稿量在 20 年內翻了兩番——為什麼?
這些論文清單不包括完整的文章文本,但強有力的間接證據將paper mill的清單與已發表的研究聯繫起來。例如,2021年9月的paper mill網站截圖顯示,出售的物品中有#1584,《不同年代工業垃圾場的森林植被結構》。 Degtyarevskaya 是 2023 年 7 月發表在Ecology and Evolution 5上的一篇論文的作者,該論文的標題和摘要幾乎相同。生態與演化在回應新聞團隊的詢問時表示,目前正在調查此事。
儘管《自然》雜誌的新聞團隊無法在國際出版商的網站上找到該蛋白質體學論文的銷售列表,但佩倫表示,該論文具有paper mill文章的幾個特徵。《自然》雜誌找不到作者發表的關於該論文主題「蛋白質分析」的任何其他研究。此外,該手稿在蛋白質體學仍在審查期間就已提交給BioSystems。佩倫說,同時向多個期刊提交稿件是研究人員試圖出版paper mill產品的經典策略。
Wiley 的發言人沒有具體說明涉嫌抄襲的蛋白質組學論文是否來自paper mill,但表示:“我們的調查證實,對出版過程的系統性操縱正在發揮作用。”
檢查再檢查
近年來,一些出版商和期刊針對抄襲和paper mill採取了額外的反制措施。其中一項工作是由荷蘭海牙的貿易組織國際科學、技術和醫學出版商協會 (STM) 開發的,STM 完整性中心是為科學出版商提供的資源,其中包括「paper mill檢查工具」和「重複提交檢查工具」。後者在 150 多種期刊中使用,每月掃描超過 20,000 篇論文。超過 1% 被識別為重複。
目前還沒有衡量研究人員發現自己作品被抄襲的頻率的指標,但幾位研究人員對佩恩的社群媒體貼文做出了回應,表示他們發現自己也遇到了類似的情況。
對佩恩來說,paper mill利用人工智慧的前景是令人畏懼的。 「我認為,這是一個非常好的騙局,」他說。 “我認為這種情況將會發生更多。”