【蔡先靖專欄】人工智慧可以審查科學文獻嗎?

當薩姆·羅德里克斯（Sam Rodriques）還是神經生物學研究生時，他對科學的根本局限性感到震驚。即使研究人員已經產生了理解人類細胞或大腦所需的所有信息，“我不確定我們是否會知道”，他說，“因為沒有人有能力理解或閱讀所有文獻並獲得全面的看法。”人工智慧可以幫助快速總結研究。但它也伴隨著風險(Artificial intelligence could help speedily summarize research. But it comes with risks.)。

人工智慧驅動的科學搜尋引擎如何加速您的研究

海倫·皮爾森 Helen Pearson發表在最新一期權威期刊《自然》(Nature)的<人工智慧可以審查科學文獻並弄清楚其中的含義嗎？>( Can AI review the scientific literature — and figure out what it all means?)指出，五年後，羅德里克斯表示，他更接近利用人工智慧 (AI) 來解決這個問題。 9 月，他和他在美國新創公司 FutureHouse 的團隊宣布，他們建立的基於人工智慧的系統可以在幾分鐘內產生比維基百科第1頁更準確的科學知識綜合。該團隊迅速產生了大約 17,000 個人類基因的維基百科式條目，其中大部分先前缺乏詳細頁面。

羅德里克斯並不是唯一一個求助於人工智慧來幫助綜合科學的人。幾十年來，學者們一直在努力加快將研究成果彙編成評論的艱鉅任務。「它們太長了，內容極其密集，而且在寫成時往往已經過時了，」倫敦國王學院研究綜合研究的伊恩·馬歇爾 (Iain Marshall) 說。人們對大型語言模型 (LLM) 以及作為 ChatGPT 等工具基礎的生成式人工智慧程式的興趣激增，引發了人們對自動化任務的新興趣。

如何進行良好證據合成的研究開始受到破壞

一些較新的人工智慧驅動的科學搜尋引擎已經可以幫助人們透過尋找、排序和總結出版物來製作敘述性文獻評論——一種書面的研究之旅。但他們還無法自己產生高品質的評論。其中最嚴峻的挑戰是「黃金標準」系統審查，其中涉及嚴格的論文搜尋和評估程序，通常還需要進行薈萃分析來綜合結果。大多數研究人員都認為，這些距離完全自動化還有很長的路要走。「我相信我們最終會實現這一目標，」澳洲黃金海岸邦德大學的證據和系統性回顧專家 Paul Glasziou 說。 “我只是無法告訴你那是 10 年後還是 100 年後。”

但同時，研究人員擔心人工智慧工具可能會導致更多草率、不準確或誤導性的評論，進而污染文獻。「令人擔憂的是，幾十年來關於如何進行良好證據合成的研究開始受到破壞，」倫敦大學學院研究證據合成的詹姆斯·托馬斯 (James Thomas) 說。

幾十年來，電腦軟體一直在幫助研究人員搜尋和解析研究文獻。早在大型語言模型 (LLM)出現之前，科學家就開始使用機器學習和其他演算法來幫助識別特定的研究或快速從論文中提取發現。但 ChatGPT 等系統的出現引發了人們對透過將大型語言模型 (LLM)與其他軟體結合來加速這一過程的狂熱興趣。

人工智慧科學搜尋引擎的數量呈爆炸式增長

研究人員表示，要求 ChatGPT 或任何其他人工智慧聊天機器人從頭開始撰寫學術文獻綜述是非常天真的。這些大型語言模型 (LLM)透過大量寫作訓練來產生文本，但大多數商業人工智慧公司不會透露模型訓練的數據。馬歇爾說，如果被要求審查某個主題的研究，像 ChatGPT 這樣的大型語言模型 (LLM)很可能會利用可信的學術研究、不準確的部落格以及誰知道還有哪些資訊。「我們不會權衡什麼是最相關、最優質的文獻，」他說。由於大型語言模型 (LLM)的工作方式是重複生成統計上合理的單字來回答查詢，因此他們對同一問題產生不同的答案，並產生「幻覺」錯誤，其中包括臭名昭著的不存在的學術參考文獻。「研究綜合中被視為良好實踐的過程都沒有發生，」馬歇爾說。

一個更複雜的過程包括將預選論文的語料庫上傳到大型語言模型 (LLM)，並要求其從中提取見解，僅根據這些研究得出答案。這個「檢索增強的一代」似乎減少了幻覺，儘管它並不能阻止幻覺。也可以設定流程，以便大型語言模型 (LLM)能夠參考其獲取資訊的來源。

快速產生支援或反駁某個主張的論文

這是Consensus和Elicit等專門的人工智慧科學搜尋引擎的基礎。大多數公司不會透露其系統如何運作的確切細節。但他們通常會將使用者的問題轉化為跨語義學者和 PubMed 等學術資料庫的電腦搜索，返回最相關的結果。

然後，大型語言模型 (LLM)總結了每項研究，並將它們綜合成一個引用其來源的答案；使用者可以選擇多種選項來過濾他們想要包含的作品。「它們首先是搜尋引擎，」新加坡管理大學數據服務主管和人工智慧工具部落格負責人 Aaron Tay 說。 “至少，他們引用的內容絕對是真實的。”

歐登塞南丹麥大學博士後研究員 Mushtaq Bilal 表示，這些工具“肯定可以提高你的審查和寫作過程的效率”，他為學者提供人工智能工具方面的培訓，並設計了自己的工具“ Research Kick”。例如，另一個名為Scite的人工智慧系統可以快速產生支援或反駁某個主張的論文的詳細分類。 Elicit 和其他系統還可以從論文的不同部分提取見解——方法、結論等。比拉爾說，「有大量勞動力可以外包」。

無法自主產生準確的文獻綜述

筆記型電腦螢幕上有一個名為 Elicit 的人工智慧工具，上面有論文摘要。

與一些人工智慧驅動的工具一樣，Elicit 旨在透過總結論文和提取數據來幫助進行學術文獻綜述。圖片來源：《自然》

但比拉爾說，大多數人工智慧科學搜尋引擎無法自主產生準確的文獻綜述。他們的產出更像是「本科生通宵達旦地提出幾篇論文要點的水平」。他說，研究人員最好使用這些工具來優化部分審查過程。 Elicit 的工程主管 James Brady 表示，其用戶正在增加審核步驟，「取得了巨大的效果」。

包括 Elicit 在內的一些工具的另一個限制是它們只能搜尋開放取用論文和摘要，而不是文章全文。（加州奧克蘭的 Elicit 搜尋了大約 1.25 億篇論文；馬薩諸塞州波士頓的 Consensus 搜尋了超過 2 億篇論文。）Bilal 指出，大部分研究文獻都是付費的，搜尋大量全文需要大量計算。「運行一個人工智慧應用程式來瀏覽數百萬篇文章的全文將花費大量時間，而且成本將變得令人望而卻步，」他說。

對於羅德里克斯來說，資金供應充足，因為位於加州舊金山的非營利組織 FutureHouse 得到了谷歌前執行長埃里克·施密特和其他資助者的支持。 FutureHouse 成立於 2023 年，旨在利用人工智慧實現研究任務自動化。

人工智慧可以幫助你寫下一篇論文嗎？

今年 9 月，Rodriques 和他的團隊發布了 PaperQA2，FutureHouse 的開源原型人工智慧系統1。當收到查詢時，PaperQA2 會在多個學術資料庫中搜尋相關論文，並嘗試存取開放取用和付費內容的全文。（羅德里克斯說，該團隊可以透過其成員的學術背景獲得許多付費論文。）然後，系統會識別並總結最相關的元素。他說，部分原因是 PaperQA2 會消化論文的全文，因此運行它的成本很高。

FutureHouse 團隊測試了該系統，使用它來產生有關人類個體基因的維基百科風格的文章。然後，他們向由博士和博士後生物學家組成的盲人小組提供了這些文章中的數百條人工智慧撰寫的陳述，以及來自真實（人類撰寫的）維基百科關於同一主題的文章的陳述。該小組發現，人類撰寫的文章包含的「推理錯誤」（其中書面主張沒有得到引文的適當支持）是人工智慧工具撰寫的文章的兩倍。由於該工具在這方面優於人類，因此團隊將其論文命名為「語言代理實現了科學知識的超人綜合」。

一群科學家在 FutureHouse 辦公室裡站著或坐著擺姿勢，牆上畫著一隻鳥。該團隊是 PaperQA 和 WikiCrow AI 工具的幕後推手。

美國新創公司 FutureHouse 的團隊推出了人工智慧系統來總結科學文獻。他們的董事兼聯合創始人薩姆·羅德里克斯 (Sam Rodriques) 坐在椅子上，右三。圖片來源：FutureHouse

Tay 表示，PaperQA2 和另一個名為Undermind的工具比傳統搜尋引擎需要更長的時間（幾分鐘而不是幾秒）才能返回結果，因為它們進行更複雜的搜索，例如使用初始搜尋的結果來追蹤其他引文和關鍵短語。「這一切加在一起，計算成本非常高且速度慢，但搜尋品質卻大大提高，」他說。

系統性挑戰

對文獻進行敘述性總結已經很難了，但係統性的評論就更難了。人們可能需要幾個月甚至幾年的時間才能完成。

根據 Glasziou 團隊的詳細分析，系統性回顧至少涉及 25 個仔細的步驟。梳理文獻後，研究人員必須過濾長列表以找到最相關的論文，然後提取數據，篩選研究是否存在潛在偏差並綜合結果。（其中許多步驟是由另一位研究人員重複完成的，以檢查是否存在不一致。）例如，這種費力的方法（應該是嚴格的、透明的和可重複的）在醫學上被認為是有價值的，因為臨床醫生使用這些結果來指導重要的研究。

類似 ChatGPT 的人工智慧即將出現在主要科學搜尋引擎中

2019 年，在 ChatGPT 出現之前，Glasziou 和他的同事們著手創造一項科學世界紀錄：兩週內完成系統性回顧。他和其他人，包括馬歇爾和湯瑪斯，已經開發了電腦工具來減少所涉及的時間。當時可用的軟體選單包括 RobotSearch，這是一種經過訓練的機器學習模型，可以從一組研究中快速識別隨機試驗。RobotReviewer是另一個人工智慧系統，它有助於評估一項研究是否存在偏見風險，例如，因為它沒有充分盲法。「所有這些都是重要的小工具，可以縮短系統審查的時間，」格拉齊奧說。

計時從2019年1月21日星期一上午9點30分開始。「我很興奮，」英國牛津大學的流行病學家安娜·梅·斯科特 (Anna Mae Scott) 說道，她在邦德大學領導了這項研究。大家都用蛋糕慶祝。從那時起，該團隊已將記錄減少到五天。

這個過程可以變得更快嗎？其他研究人員也一直在努力實現系統性回顧的自動化。 2015 年，Glasziou 創立了系統性回顧自動化國際合作組織，這是一個利基社區，它恰如其分地製作了幾篇關於自動化系統性回顧工具的系統性回顧4。但即便如此，“沒有太多[工具]被廣泛接受”，馬歇爾說。 “這只是技術有多成熟的問題。”

Elicit 是一家公司，該公司表示，其工具可以幫助研究人員進行系統性評論，而不僅僅是敘述性評論。布雷迪表示，該公司不會透過按按鈕提供系統審查，但其係統確實會自動執行一些步驟，包括篩選論文以及提取數據和見解。布雷迪說，大多數使用它進行系統性回顧的研究人員都上傳了他們使用其他搜尋技術找到的相關論文。

看不到所使用的方法，那麼它就不是系統綜述

系統審查愛好者擔心人工智慧工具可能無法滿足研究的兩個基本標準：透明度和可重複性。「如果我看不到所使用的方法，那麼它就不是系統綜述，而只是一篇綜述文章，」作為 Glasziou 團隊成員構建評審自動化工具的賈斯汀·克拉克 (Justin Clark) 說道。 Brady 表示，審查者上傳到 Elicit 的論文是他們起始文獻的「優秀、透明的記錄」。至於可重複性：「我們不能保證重複相同步驟時我們的結果總是相同，但我們的目標是在合理的範圍內做到這一點，」他說，並補充說透明度和可重複性將很重要，因為該公司改進了其係統。

審查專家表示，他們希望看到更多關於人工智慧系統準確性和可重複性的評估，這些系統旨在幫助進行文獻綜述。「建造很酷的工具並嘗試新東西真的很有趣，」克拉克說。 “進行核心評估研究是一項艱鉅的工作。”

立即審核人工智慧搜尋工具，以免它們扭曲研究

今年早些時候，克拉克領導了對使用生成人工智慧工具來幫助系統審查的研究進行了系統性回顧。他和他的團隊發現，只有 15 項已發表的研究將人工智慧的表現與人類的表現進行了充分的比較。尚未發表或同行評審的結果表明，這些人工智慧系統可以從上傳的研究中提取一些數據並評估臨床試驗的偏倚風險。 “它在閱讀和評估論文方面似乎做得不錯，”克拉克說，“但在所有其他任務上卻表現得很糟糕”，包括設計和進行徹底的文獻檢索。（現有的電腦軟體已經可以完成使用薈萃分析合成資料的最後一步。）

Glasziou 和他的團隊仍在嘗試透過改進的工具來縮短審查記錄的時間，這些工具可以在他們稱為「證據審查加速器」的網站上找到。「這不會是一件大事。每年你都會變得越來越快，」Glasziou 預測。例如，在2022 年，該小組發布了一種名為「方法嚮導」的電腦化工具，該工具會向使用者詢問一系列有關其方法的問題，然後在不使用人工智慧的情況下為他們編寫協議。

急著評論？

自動化資訊合成也伴隨著風險。研究人員多年來就知道許多系統性回顧是多餘的或品質差，而人工智慧可能會使這些問題變得更糟。作者可能會有意或無意地使用人工智慧工具來快速完成不遵循嚴格程序或包含低品質工作的評審，並得到誤導性的結果。

Glasziou 表示，相較之下，人工智慧還可以鼓勵研究人員快速檢查先前發表的文獻，而他們以前不會這樣做。「人工智慧可能會提高他們的水平，」他說。 Brady 表示，未來，人工智慧工具可以透過尋找 P-hacking（一種數據操縱形式）等明顯跡象來幫助標記和過濾掉品質較差的論文。

Glasziou 將這種情況視為兩種力量的平衡：人工智慧工具可以幫助科學家做出高品質的評論，但也可能助長不合格評論的快速產生。「我不知道這會對出版的文獻產生什麼淨影響，」他說。

有些人認為，綜合和理解世界知識的能力不應僅掌握在不透明的營利公司手中。克拉克希望看到非營利組織建構並仔細測試人工智慧工具。他和其他研究人員對上個月兩家英國資助者宣布的他們將投資超過 7,000 萬美元用於證據合成系統表示歡迎。 “我們只是想謹慎小心，”克拉克說。 “我們希望確保[技術]為我們提供的答案是正確的。”

【蔡先靖專欄】人工智慧可以審查科學文獻嗎?

即時新聞

推薦新聞

社群留言

台北旅遊新聞