
利用生成性人工智能,麻省理工學院化學家迅速計算三維基因組結構
一種新方法,能在數分鐘內預測特定DNA序列如何在細胞核中排列,取代以往需要數天的時間。
每個細胞都擁有相同的基因序列,但每個細胞僅表達這些基因中的一部分。這些特定於細胞的基因表達模式,確保了腦細胞與皮膚細胞之間的差異,部分是由基因物質的三維結構決定的,因為這影響了每個基因的可接觸性。
麻省理工學院的化學家們現在提出了一種新方法,利用生成性人工智能來確定這些三維基因組結構。這種技術能在幾分鐘內預測數千種結構,速度遠超過現有的實驗方法。
研究人員可以更輕鬆地研究基因組的三維組織如何影響個別細胞的基因表達模式和功能。
“我們的目標是從基礎的DNA序列中預測三維基因組結構,”研究的資深作者、化學副教授張斌表示。“現在我們能做到這一點,這使得這項技術能與最前沿的實驗技術相媲美,並能真正開啟許多有趣的機會。”
麻省理工學院的研究生Greg Schuette和Zhuohan Lao是這篇發表在《科學進展》上的論文的主要作者。
從序列到結構
在細胞核內,DNA和蛋白質形成一種稱為染色質的複雜結構,這種結構有多個組織層次,使得細胞能夠將2米長的DNA壓縮到直徑僅一百分之一毫米的細胞核中。長鏈DNA圍繞著稱為組蛋白的蛋白質纏繞,形成類似珠串的結構。
化學標記稱為表觀遺傳修飾可以附加到DNA的特定位置,而這些標記會因細胞類型而異,影響染色質的折疊和鄰近基因的可接觸性。這些染色質形態的差異有助於決定在不同細胞類型或在特定細胞內的不同時間,哪些基因被表達。
在過去20年裡,科學家們已經開發出實驗技術來確定染色質結構。其中一種廣泛使用的技術稱為Hi-C,它通過連接細胞核中相鄰的DNA鏈來工作。研究人員可以通過將DNA撕成許多小片段並進行測序,確定哪些片段彼此靠近。
這種方法可以應用於大量細胞,以計算染色質某一部分的平均結構,或在單個細胞上確定該特定細胞內的結構。然而,Hi-C和類似技術都是勞動密集型的,從一個細胞產生數據大約需要一周的時間。
為了克服這些限制,張斌及其學生開發了一種模型,利用生成性人工智能的最新進展,創造出一種快速、準確的方法來預測單個細胞中的染色質結構。該AI模型能夠快速分析DNA序列並預測這些序列在細胞中可能產生的染色質結構。
“深度學習非常擅長模式識別,”張斌說。“它使我們能夠分析非常長的DNA片段,成千上萬的鹼基對,並找出這些DNA鹼基對中編碼的重要信息。”
研究人員創建的ChromoGen模型有兩個組件。第一個組件是一個深度學習模型,經過訓練以“閱讀”基因組,分析基礎DNA序列中編碼的信息和廣泛可用的細胞類型特異性染色質可接觸性數據。
第二個組件是一個生成性AI模型,能夠預測物理上準確的染色質構象,並在超過1100萬個染色質構象上進行訓練。這些數據是通過在16個人類B淋巴細胞上使用Dip-C(一種Hi-C變體)進行實驗生成的。
當這兩個組件整合時,第一個組件告訴生成模型細胞類型特異性環境如何影響不同染色質結構的形成,這種方案有效捕捉了序列和結構之間的關係。對於每個序列,研究人員使用他們的模型生成多種可能的結構。因為DNA是一種非常無序的分子,所以一個單一的DNA序列可以產生多種不同的構象。
“預測基因組結構的一個主要複雜因素是,沒有一個單一的解決方案。我們所針對的無論是基因組的哪一部分,都會有結構的分佈。預測這種非常複雜的高維統計分佈是極其具有挑戰性的,”Schuette說。
快速分析
一旦模型訓練完成,能在比Hi-C或其他實驗技術快得多的時間內生成預測。
“你可能需要花六個月的時間進行實驗來獲得某一細胞類型的幾十個結構,而使用我們的模型,你可以在20分鐘內在一個GPU上生成特定區域的一千個結構,”Schuette表示。
在訓練了他們的模型後,研究人員用它生成了超過2000個DNA序列的結構預測,然後將其與這些序列的實驗確定結構進行比較。他們發現模型生成的結構與實驗數據中的結構相同或非常相似。
“我們通常會查看每個序列的數百或數千個構象,這能合理地代表某一特定區域可能擁有的結構多樣性,”張斌說。“如果你在不同的細胞中多次重複實驗,最終得到的構象往往會非常不同。這正是我們的模型試圖預測的。”
研究人員還發現,該模型能夠對其訓練過的細胞類型之外的數據進行準確預測。這表明該模型可能對分析不同細胞類型之間的染色質結構差異以及這些差異如何影響功能非常有用。該模型還可以用來探索單個細胞內存在的不同染色質狀態,以及這些變化如何影響基因表達。
“ChromoGen為AI驅動的基因組折疊原則的發現提供了一種新框架,並展示了生成性AI如何將基因組和表觀基因組特徵與三維基因組結構聯繫起來,指向未來在廣泛生物背景下研究基因組結構和功能變異的工作,”卡內基梅隆大學計算生物學教授Jian Ma(未參與本研究)表示。
另一個可能的應用是探索特定DNA序列中的突變如何改變染色質構象,這可能揭示這些突變如何導致疾病。
“我認為我們可以用這種模型解決很多有趣的問題,”張斌說。
研究人員已將所有數據和模型公開,供其他希望使用的人士使用。
這項研究得到了國家衛生研究院的資助。
—
這項研究顯示,結合生成性人工智能與生物學的潛力,為基因組結構的理解開創了新的視野。這不僅是對DNA結構的深入探討,更可能對未來的疾病研究、基因治療等領域帶來革命性的影響。隨著技術的進步,我們有理由期待這些模型在生物醫學領域的應用能夠深入挖掘基因組的奧秘,並促進個性化醫療的發展。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。