【柳三變專欄】《自然》推薦的AI工具
幾乎每週都會發布一種新的、看似更令人印象深刻的人工智慧(AI)工具,研究人員紛紛湧向嘗試它們。無論是想要編輯手稿、編寫程式碼或產生假設,研究人員都可以比以往選擇更多的生成式 AI 工具。有很多大型語言模式可供選擇;有些人擅長編碼,而其他人則更擅長綜合資訊。(There are many large language models to choose from; some excel at coding, whereas others are better for synthesizing information.)伊莉莎白·吉布尼 Elizabeth Gibney發表在最新一期權威期刊《自然》(Nature)的<最適合研究的 AI 工具有哪些?《自然》指南>( What are the best AI tools for research? Nature’s guide)
LLM很容易出錯,無法單獨使用
每個大型語言模型(LLM)適合不同的任務。有些可透過免費聊天機器人取得,而其他則使用付費應用程式介面(API),這意味著它們可以與其他軟體整合。也可以下載一些文件,讓研究人員可以建立自己的客製化模型。
華盛頓州西雅圖弗雷德哈欽森癌症中心的資料科學家 Carrie Wright 表示,儘管 LLM 產生的反應與人類類似,但它們仍然很容易出錯,無法單獨使用。
那麼哪種 LLM 最適合什麼任務呢?在這裡,研究人員與《自然》分享他們目前最喜歡的方法,以幫助指導那些有需要的人。
o3-mini (推理機)
總部位於加州舊金山的 OpenAI 於 2022 年憑藉其免費使用的ChatGPT 機器人向世界推出了法學碩士學位。科學家主要使用機器人來尋找資訊或作為寫作助手,例如起草摘要,但新的模型正在拓寬該技術的潛在用途。去年 9 月,OpenAI 取得了迄今為止最重大的進展,其o1「推理模型」讓科學家們驚嘆不已,隨後 12 月又推出了更為先進的 o3。這兩種推理模型的運行速度都比單獨的 LLM 慢,因為它們已經過訓練,以逐步的方式回答查詢。這種旨在模擬人類推理的「思路鏈」過程幫助他們突破了科學和數學領域的艱難基準。這也使他們擅長技術任務,例如解決編碼問題和重新格式化資料。
1 月 20 日,位於杭州的鮮為人知的中國新創公司 DeepSeek推出了一款競爭對手的推理機,隨後 OpenAI 推出了一系列新工具回應。其中包括一款快速的o3-mini(一款免費供註冊聊天機器人用戶使用的推理機)和“深度研究”,它允許一些付費用戶創建報告,綜合來自數百個網站的資訊和引文,類似於進行文獻綜述。舊金山新創公司 FutureHouse 的化學家兼人工智慧專家 Andrew White 表示,這些模型結合起來使用效果會更佳。
英國牛津大學數學家、人工智慧研究員 Simon Frieder 表示,在執行諸如從新的數學證明中解析不熟悉的概念等任務時,o3-mini 表現「非常出色」。但他說,即使是最好的模型「也遠遠無法與數學家相提並論」。
DeepSeek(全能型)
上個月推出的DeepSeek-R1具有與o1相當的能力,但可以透過API使用,而且成本僅為o1的一小部分。它與 OpenAI 的模型的不同之處還在於它是開放權重的,這意味著雖然它的訓練資料尚未發布,但任何人都可以下載底層模型並根據他們的特定研究項目進行客製化。懷特說,R1“剛剛開啟了一個新範式”,其中社區,特別是那些資源相對較少的社區,可以建立專門的推理模型。
運行完整的模型需要強大的計算晶片,而許多學者都缺乏這種晶片。但香港中文大學(深圳)電腦科學家王本有等研究人員正在創建可以在單一機器上運行或訓練的版本。與 o1 一樣,DeepSeek-R1 的強項是解決數學問題和編寫程式碼。但懷特說,它也擅長生成假設等任務。這是因為 DeepSeek 選擇完整發布該模型的“思維過程”,這使得研究人員能夠更好地改進他們的後續問題並最終改善其輸出,他說。這種透明度對於醫學診斷來說也可能具有巨大的作用。王先生表示,他正在實驗中對 R1 進行改進,利用該模型的推理能力構建「從患者評估到診斷和治療建議的清晰而合乎邏輯的途徑」。
DeepSeek-R1 有一些缺點。該模型似乎有一個特別長的「思考」過程,這會減慢其速度並使其在尋找資訊或集思廣益方面不那麼有用。由於擔心輸入 API 和聊天機器人的資料安全性,一些政府已禁止國家機構工作人員使用聊天機器人。與商業競爭對手相比,DeepSeek 似乎也採取了較少的措施來防止其模型產生有害輸出。添加過濾器來阻止此類輸出(例如製造武器的指令)需要時間和精力。儘管這不太可能是故意為之,但“缺少護欄令人擔憂”,西蒙說。
OpenAI 也表示,DeepSeek 可能「不恰當地提煉」了其模型,指的是使用另一種演算法的輸出來訓練模型的方法,而 OpenAI 的使用條件禁止這樣做。
在本文發表之前,記者無法聯繫 DeepSeek 對這些批評進行評論。
一些研究人員認為這種提煉很常見並樂於使用 R1,但其他人對使用可能受到未來訴訟的工具持謹慎態度。巴黎 EIT Manufacturing 專門研究人工智慧法律的律師 Ana Catarina De Alencar 表示,如果使用該模型被視為違反期刊的道德標準,那麼使用 R1 的科學家可能會被迫撤回論文。德阿倫卡爾表示,類似的情況也可能適用於 OpenAI 和其他被指控侵犯智慧財產權的公司所使用的模式。新聞機構聲稱這些公司未經許可使用新聞內容來訓練他們的模式。
駱駝(工作馬)
長期以來,Llama 一直是研究界首選的法學碩士 (LLM)。 Llama 是一組開放權重模型,由位於加州門洛帕克的 Meta AI 於 2023 年首次發布,僅透過開放科學平台 Hugging Face,其各個版本的下載量就已超過 6 億次。弗雷德哈欽森癌症中心的數據科學家伊麗莎白漢弗萊斯說,可以下載和建構「可能是 Llama 受到研究界歡迎的原因」。
賴特說,在處理專有或受保護的資料時,能夠在個人或機構伺服器上運行 LLM 至關重要,以避免敏感資訊回饋給其他使用者或開發人員。
研究人員以 Llama 模型為基礎,製作了能夠預測材料晶體結構的 LLM,以及模擬量子電腦的輸出。北卡羅來納大學教堂山分校的機器學習科學家陳天龍表示,Llama 非常適合模擬量子計算機,因為它相對容易適應並理解專門的量子語言。
但懷特表示,Llama 要求用戶要求存取權限,這對某些人來說只是小問題。因此,他補充說,其他開放模型,例如西雅圖艾倫人工智慧研究所開發的 OLMo,或總部位於杭州的中國公司阿里雲打造的 Qwen,現在往往成為研究的首選。 DeepSeek 高效的底層 V3 模型也是建構科學模型的有力競爭基礎。