AI模擬細胞:科學界嘅「聖杯」?

Ai

科學的“聖杯”越來越近

人類的細胞是一個令人痛心的研究對象。身體內擁有數以萬億計的細胞,形成一個龐大而錯綜複雜的網絡,主宰著每一種疾病和代謝過程。這個網絡中的每一個細胞,都是基因、蛋白質及其他微小生物機械之間密集而複雜的相互作用的產物。

對於這個世界的理解仍然模糊且不斷變化。幾年前,科學家們認為只有幾百種不同的細胞類型,但新技術已經揭示了成千上萬種(這只是開始)。在這個微觀領域的實驗往往類似於猜測;即使是成功的結果也常常令人困惑。例如,Ozempic類藥物最初被認為是作用於腸道,但最終可能發現其實是腦部藥物,而威而鋼最初是為了治療心血管疾病而開發的。

加速細胞研究可能為人類帶來巨大的益處——新藥物和疫苗、癌症治療,甚至只是更深入地理解塑造我們生活的基本過程。而這一切正在逐漸實現。科學家們現在正在設計計算機程序,可能會解鎖模擬人類細胞的能力,讓研究人員能夠預測藥物、突變、病毒或任何其他身體變化的影響,從而使實驗更加有針對性,成功的可能性也更高。受到了像ChatGPT這樣的大型語言模型的啟發,卡內基梅隆大學的計算機科學家兼阿聯酋穆罕默德·本·扎耶德人工智能大學校長艾瑞克·辛的希望是,生成式人工智能能夠“解碼生物學的語言,然後用生物學的語言進行交流”。

就像聊天機器人能夠從大量的書面語言中辨別風格甚至意義,然後構建出類似人類的散文,理論上,人工智能可以在大量的生物數據上進行訓練,提取有關細胞甚至整個有機體的關鍵信息。這將使研究人員能夠創建身體內許多細胞的虛擬模型並加以操作。“這是生物學的聖杯,”斯坦福大學的細胞生物學家艾瑪·倫德伯格告訴我。“人們已經夢想這個很多年了。”

這些宏大的聲明——關於如此模糊和具爭議性的技術如生成式人工智能——可能聽起來與科技高管自我服務的預言相似:OpenAI的山姆·奧特曼、谷歌DeepMind的德米斯·哈薩比斯和Anthropic的達里奧·阿莫戴伊都宣稱他們的人工智能產品將很快顛覆醫學。

然而,如果生成式人工智能能實現這些願景,結果可能會類似於辛、倫德伯格及其他人所追求的虛擬細胞。即使在這些早期階段——科學家告訴我,這種方法如果證明可行,可能需要10年或100年才能完全實現——這已經表明,這項技術的終極好處可能不來自聊天機器人,而是來自更雄心勃勃的目標。

創建虛擬細胞的努力並不是隨著大型語言模型的出現而開始的。早在1990年代,第一批現代嘗試就涉及編寫方程式和代碼來描述每一種分子和相互作用。這種方法取得了一定的成功,2012年發表了第一個完整的細胞模型,該模型來自一種細菌。然而,這種方法並不適用於人類細胞,因為人類細胞更加複雜——科學家缺乏足夠的理解來想像或編寫所有必要的方程式,倫德伯格表示。

問題並不是沒有相關的信息。在過去20年中,新技術產生了大量與人類細胞相關的基因序列和顯微鏡數據。然而,問題在於這些資料量如此龐大且複雜,以至於沒有任何人能夠完全理解它。但生成式人工智能,通過從大量數據中提取模式,並以最小的人為指導,或許能做到。“我們正處於生物學領域人工智能的轉折點,”魏茲曼科學研究所的計算生物學家埃蘭·塞加爾告訴我。“所有的星星都對齊了,我們擁有所有不同的組件:數據、計算、建模。”

科學家們已經開始在越來越多的學科中使用生成式人工智能。例如,通過分析多年來的氣象記錄或量子物理測量,AI模型可能可靠地預測重大風暴的來臨或亞原子粒子的行為,即使科學家無法解釋為什麼這些預測是準確的。解釋的能力正在被預測的能力所取代,人類的發現被算法的信任所取代。這可能看起來有些反直覺(如果科學家無法解釋某事,他們真的理解它嗎?)甚至令人恐懼(如果信任的黑箱算法預測洪水失誤會怎樣?)。但到目前為止,這種方法已經產生了顯著的結果。

生物學的語言比人類的任何語言都要複雜得多

生物學的語言(如果真的存在的話)比任何人類語言都要複雜得多。細胞的所有組件和層次彼此相互影響,科學家希望通過組合各種基礎模型來創造出比其部分之和更大的東西——就像將引擎、機身、起落架和其他部件組合成一架飛機。“最終,它將會匯聚成一個大模型,”Chan Zuckerberg Initiative的科學部門負責人斯蒂芬·奎克告訴我。(Chan Zuckerberg Initiative是一個專注於科學進步的慈善組織,由普莉西拉·陳和她的丈夫馬克·祖克伯格共同創立,在這些近期努力中發揮了核心作用;今年3月,它舉辦了一場專注於細胞生物學中人工智能的研討會,導致在《Cell》上發表了相關觀點,並且上個月該組織宣布了一系列新資源,專注於虛擬細胞研究,其中包括幾個專注於細胞生物學的人工智能模型。)

換句話說,設計用於DNA、RNA、基因表達、蛋白質相互作用、細胞組織等的算法,如果以正確的方式組合在一起,可能會構成一個虛擬細胞。“我們如何到達那裡目前還不太清楚,但我相信會實現,”奎克說。但是並不是每個人都對此持樂觀態度。

在各種背景下,生成式人工智能始終面臨一個問題:研究人員和愛好者看到很多潛力,但這些潛力在實踐中可能並不總是能夠實現。像奎克所說,這種基於LLM的方法,將基因、氨基酸或其他生物元素在序列中進行預測,就像人類細胞和身體是句子和圖書館一樣,仍然處於“非常早期的階段”。辛將他和類似的虛擬細胞研究比作“GPT-1”的時刻,指的是一個早期的概念證明程序,最終導致了ChatGPT的誕生。

雖然使用深度學習算法來分析大量數據是有前景的,但對於越來越多的通用解決方案的追求讓一些我交談過的研究人員感到出於好意但不切實際。以辛的AI驅動數字有機體的基礎模型方法為例,約翰·霍普金斯大學的生物醫學工程師史蒂文·薩爾茲伯格告訴我,他對這些通用程序是否會比針對具體、明確的生物問題(例如蛋白質摺疊)量身定制的AI模型如AlphaFold更有用持懷疑態度。他不認為在序列中預測基因是一個明顯有用的生物目標。換句話說,也許不存在生物學的統一語言——在這種情況下,沒有任何嵌入可以捕捉到每一個相關的生物信息。

科學實驗是最終的真理仲裁者

或許,AlphaFold的方法比其他最先進的蛋白質摺疊算法更重要的是,它穩定而有力地超越了其他算法。但目前,“這些基於細胞的模型的裁決仍在進行中,”巴爾-約瑟夫說。研究人員必須證明他們的模擬效果如何。“實驗是最終的真理仲裁者,”奎克告訴我——如果一個基礎模型預測了蛋白質的形狀、基因表達的程度或突變的影響,但實際實驗產生了混淆的結果,那麼這個模型就需要重新調整。

即使有有效的基礎模型,從單個程序到將它們組合成完整的細胞之間仍然存在著巨大的挑戰。科學家們尚未找出所有必要的模型,更不用說如何組裝它們。“我還沒有看到一個好的應用將所有這些不同的模型結合在一起,”巴爾-約瑟夫說,儘管他對此持樂觀態度。而儘管研究人員有大量數據可以開始,但他們未來需要收集的數據量要多得多。“關鍵挑戰仍然是數據,”王說。例如,許多當今首屈一指的細胞數據集並未捕捉到時間變化,這是每個生物過程的一部分,並且可能不適用於特定的科學問題,例如預測新藥對稀有疾病的影響。目前,這個領域尚不完全確定下一步應該收集哪些數據。“我們有序列數據;我們有圖像數據,”倫德伯格說。“但我們真的知道應該生成什麼數據來達到虛擬細胞的目標嗎?我真的不這麼認為。”

在短期內,推進的道路可能不是“理解”DNA或細胞的基礎模型,而是針對特定查詢量身定制的程序。就像沒有一種人類語言一樣,可能也沒有統一的生物學語言。“與其追求一個通用系統,第一步將是在開發大量解決特定問題的AI系統上,”哥倫比亞大學的計算生物學家安德烈·卡利法諾告訴我,他也是《Cell》觀點的共同作者。即使這樣的生物學語言存在,追求如此通用的東西也可能困難到浪費資源,當更簡單、針對性的程序能更立即推進研究並改善患者生活時。

儘管如此,科學家們仍在努力。無論是模擬整個有機體、單個細胞,還是細胞內部的單個過程,對於將AI革命帶入細胞生物學的每一層雄心都源於同樣的希望:讓虛擬模擬,而不是物理實驗,指引方向。實驗可能永遠是真理的仲裁者,但計算機程序將決定哪些實驗需要進行,並告知如何設置它們。在某個時刻,人類可能不再是發現的主體,而是驗證算法工作的角色——構建生物實驗室以確認矽的預言。

編輯評論

這篇文章揭示了生成式人工智能在生物學研究中的潛力,特別是在模擬細胞方面的應用。這不僅是技術的進步,更是科學研究方法的變革。隨著我們對細胞內部運作的理解加深,這種技術有可能改變我們對疾病的治療方式,甚至推動新藥物的發展。然而,我們也必須意識到,科學的進步並非一蹴而就,尤其是在如此複雜的領域中,還需要大量的驗證和實驗來證明這些理論的有效性。未來的研究可能不僅僅依賴於AI的預測能力,還需要結合人類的直覺和經驗,才能真正推動科學的進步。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon