新計算模型能更準確預測抗體結構
透過這個模型,研究人員可能能夠識別出針對多種傳染病的抗體藥物。
由於人工智能模型,特別是大型語言模型的適應,研究人員在從蛋白質序列預測其結構方面取得了重大進展。然而,這種方法在抗體方面的成功並不如預期,部分原因是抗體這種蛋白質的超變異性。
為了克服這一限制,麻省理工學院(MIT)的研究人員開發了一種計算技術,能夠更準確地預測抗體結構。他們的工作可能使研究人員能夠從數百萬種可能的抗體中篩選出可以用於治療SARS-CoV-2和其他傳染病的抗體。
麻省理工學院計算與生物學小組的數學西蒙斯教授Bonnie Berger表示:“我們的方法讓我們可以擴展到其他方法所無法達到的程度,實際上能在一堆草中找到幾根針。如果我們能幫助制藥公司避免進入臨床試驗時使用錯誤的藥物,這將節省大量資金。”
該技術專注於建模抗體的超變異區域,還有潛力分析個體的整體抗體庫。這對於研究對HIV等疾病有超強反應的人群的免疫反應非常有用,有助於理解為何他們的抗體能有效抵抗病毒。
麻省理工學院生物工程助理教授Bryan Bryson和MGH、麻省理工學院及哈佛大學的Ragon研究所成員也是這篇論文的主要作者之一,該研究本週發表於《美國國家科學院院刊》。前CSAIL研究科學家Rohit Singh,現為杜克大學生物統計學和生物信息學及細胞生物學助理教授,以及Chiho Im ’22是論文的主要作者。來自Sanofi和ETH蘇黎世的研究人員也參與了這項研究。
建模超變異性
蛋白質由長鏈氨基酸組成,這些氨基酸可以折疊成極其多樣的結構。近年來,利用人工智能程序(如AlphaFold)預測這些結構變得更加容易。許多這些程序(如ESMFold和OmegaFold)基於大型語言模型,這些模型最初是為了分析大量文本而開發的,使其能夠學習預測序列中的下一個單詞。這種方法同樣適用於蛋白質序列,通過學習不同氨基酸模式所形成的蛋白質結構。
然而,這種技術在抗體上並不總是有效,特別是抗體的一個區域——超變異區。抗體通常具有Y形結構,這些超變異區位於Y的尖端,負責檢測和結合外來蛋白質(即抗原)。Y的底部則提供結構支持,幫助抗體與免疫細胞互動。
超變異區的長度各不相同,但通常包含少於40個氨基酸。據估計,人類免疫系統可以通過改變這些氨基酸的序列產生多達1兆種不同的抗體,確保身體能夠對各種潛在抗原作出反應。這些序列在進化上並不像其他蛋白質序列那樣受到約束,因此大型語言模型難以準確預測其結構。
“語言模型能夠準確預測蛋白質結構的部分原因在於進化以某種方式約束這些序列,使模型能夠理解這些約束的意義,”Singh表示。“這就像通過觀察句子中單詞的上下文來學習語法規則,從而理解其含義。”
為了建模這些超變異區,研究人員創建了兩個基於現有蛋白質語言模型的模塊。其中一個模塊基於約3,000個在蛋白質數據庫(PDB)中找到的抗體結構的超變異序列進行訓練,使其能夠學習哪些序列往往會生成相似的結構。另一個模塊則基於約3,700個抗體序列與其對三種不同抗原的結合強度的數據進行訓練。
最終生成的計算模型被稱為AbMap,能根據氨基酸序列預測抗體結構及其結合強度。為了展示這一模型的實用性,研究人員利用它預測了能強效中和SARS-CoV-2病毒刺突蛋白的抗體結構。
研究人員從一組預測能結合此目標的抗體開始,然後通過改變超變異區生成數百萬種變體。他們的模型能夠識別出最成功的抗體結構,其準確性遠超基於大型語言模型的傳統蛋白質結構模型。
接著,研究人員進一步將抗體分群,選擇每個群體中的抗體進行實驗測試,並與Sanofi的研究人員合作。實驗結果顯示,82%的抗體比輸入模型的原始抗體具有更好的結合強度。
研究人員表示,早期識別出多種優秀候選者可以幫助製藥公司避免在後期測試那些最終失敗的候選者上花費大量資金。
“他們不希望把所有的希望寄托在一個籃子裡,”Singh說。“他們不想說,我將這一個抗體推進臨床前試驗,結果發現它是有毒的。他們更希望擁有一組良好的可能性,讓所有抗體都能進行測試,這樣如果其中一個出現問題,他們還有選擇。”
比較抗體
利用這項技術,研究人員還可以嘗試解答一些長期以來的問題,例如,為什麼不同的人對感染的反應不同。例如,為什麼有些人會發展出更嚴重的Covid症狀,而有些接觸到HIV的人卻從未被感染?
科學家們一直在通過對個體的免疫細胞進行單細胞RNA測序並進行比較來嘗試回答這些問題,這一過程被稱為抗體庫分析。以往的研究顯示,來自兩個不同個體的抗體庫可能僅有10%的重疊。然而,測序並未提供抗體性能的全面視圖,因為兩個具有不同序列的抗體可能具有相似的結構和功能。
新模型可以通過快速生成個體中所有抗體的結構來解決這一問題。在這項研究中,研究人員顯示,考慮到結構後,個體之間的重疊要比序列比較中看到的10%更高。他們現在計劃進一步研究這些結構如何影響身體對特定病原體的整體免疫反應。
“這正是語言模型的美妙之處,因為它具備基於序列的分析的可擴展性,同時接近基於結構的分析的準確性,”Singh表示。
這項研究得到了Sanofi和阿卜杜勒·拉提夫·賈米爾健康機器學習診所的資助。
這項研究不僅展示了計算模型在抗體結構預測中的潛力,也可能改變未來藥物開發的方式。隨著研究的深入,這一技術有望為我們提供更深層次的免疫學見解,並助力於針對新興傳染病的治療方法發展。這不僅是對抗病毒的希望,也是對未來公共健康挑戰的積極回應。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。