【王半山專欄】史上最大的生物AI模型公布

科學家今天發布了他們所說的迄今為止最大的生物人工智慧(AI)模型。該模型對涵蓋從人類到單細胞細菌和古細菌的生命之樹的 128,000 個基因組進行了訓練,可以從頭開始編寫整個染色體和小基因組。它還可以解讀現有的 DNA,包括與疾病相關的難以解釋的「非編碼」基因變異。尤文·卡拉威 Ewen Callaway發表在最新一期權威期刊《自然》(Nature)的<史上最大 AI 生物模型可按需寫入 DNA>( Biggest-ever AI biology model writes DNA on demand)指出,透過大量序列資料進行訓練的人工智慧網路是設計全新基因組的一步。(An artificial-intelligence network trained on a vast trove of sequence data is a step towards designing completely new genomes.)
ChatGPT for CRISPR創造了新的基因編輯工具
Evo-2 由加州帕洛阿爾託的 Arc 研究所和史丹佛大學的研究人員以及晶片製造商 NVIDIA 共同開發,科學家可以透過網路介面使用,也可以免費下載其軟體程式碼、數據和複製模型所需的其他參數。
開發人員將 Evo-2 視為其他人可以根據自己的用途進行調整的平台。 “我們非常期待科學家和工程師如何打造這個生物學‘應用商店’,”Arc 研究所和加州大學柏克萊分校的生物工程師 Patrick Hsu 在宣布 Evo-2 發布的新聞發布會上表示。
其他科學家對他們所讀到的有關該模型的內容印象深刻——該模型在發佈到 Arc Institute 網站並提交給 bioRxiv 預印本伺服器的一篇論文中進行了描述。但他們表示,在得出確切結論之前還需要進行一些試驗。
史丹佛大學計算基因組學家 Anshul Kundaje 表示:“我們必須看看預印本發布後,它在獨立基準測試中的表現如何。”到目前為止,該模型所依賴的工程技術給他留下了深刻的印象。
在過去的幾年裡,研究人員開發了越來越強大的“蛋白質語言模型”,例如由 Meta 前員工開發的 ESM-3 模型,該模型經過數百萬個蛋白質序列的訓練後,已用於幫助預測蛋白質結構和設計全新的蛋白質,包括基因編輯器和螢光分子。
人工智慧構思新蛋白質。它們真的有用嗎?
與這些模型不同的是,Evo-2 是在包含「編碼序列」(攜帶製造蛋白質的指令)和非編碼 DNA 的基因組數據上進行訓練的,其中包括可以控制基因何時、何地和如何活躍的序列。去年發布的 Evo 第一個版本是基於80,000 種細菌和古細菌(稱為原核生物的簡單生物)的基因組以及它們的病毒和其他序列進行訓練。
最新模型基於 128,000 個基因組,包括人類和其他動物、植物和其他真核生物的基因組。這些基因組總共包含 9.3 兆個 DNA 字母。許表示,基於處理這些數據和其他特徵所需的計算能力,Evo-2 是迄今為止發布的最大的生物 AI 模型。
與原核生物相比,真核生物基因組往往更長、更複雜:基因由散佈的編碼區和非編碼區片段組成,非編碼的「調控DNA」可能遠離它們控制的基因。為了處理這種複雜性,Evo-2 被設計成可以學習遠至 100 萬個鹼基對的 DNA 序列中的模式。
為了證明其理解複雜基因組的能力,Hsu 和他的同事使用 Evo-2 來預測先前研究的與乳癌相關的基因BRCA1突變的影響。許說,在確定編碼區域的改變是否會導致疾病方面,它的表現幾乎與最好的生物人工智慧模型一樣好。 “這是非編碼突變領域的最新成果。”未來,該模型可以幫助識別患者基因組中這些難以解釋的變化。
研究人員還測試了該模型解讀其他複雜基因組特徵的能力——包括猛獁象的基因組特徵。加州舊金山格拉德斯通研究所的計算生物學家克里斯蒂娜·西奧多里斯 (Christina Theodoris) 說:“Evo-2 代表著學習 DNA 調控語法的重要一步。”