1958年F.H.C. 克里克提出了生物學中重要的中心法則,DNA->RNA->蛋白質,中心法則說明,DNA可以轉錄形成RNA,RNA再翻譯成一個個氨基酸,最后組合形成蛋白質。
通過中心法則不難看出,如果把DNA比喻為進行工業生產的設計藍圖,那么蛋白質就像實現這個藍圖的工具,所以說蛋白質是一切生命活動的基礎,它幾乎參與了所有的生物學過程,如遺傳、發育、繁殖等等。對蛋白質進行深入地研究,能讓我們從更深層次詮釋生命體的構成和運作變化規律,進而全面揭示生命運行、發展的機制,激發生物科學、藥物研發、合成生物學、酶科學等領域的發展。
因探究生物體內各種蛋白質的功能及其機制等是目前蛋白質研究的主要內容,同時也是后基因組時代生命科學領域的主要研究熱點之一。蛋白質的功能很大程度上取決于蛋白質的結構,因此如何破解蛋白質的三維結構成為了科學家研究的重點。
AlphaFold2的誕生
近些年來,隨著人工智能技術的發展,深度學習等相關技術也被應用在蛋白質結構預測領域。2018年的CASP 13(國際權威的蛋白質結構預測競賽,每2年舉辦一次)上,谷歌DeepMind團隊的AlphaFold拿下了70多分,打敗眾多研究團隊,取得人工組第一,在該領域取得了里程碑式的進展。在2020年的CASP 14上,谷歌DeepMind團隊的AlphaFold2以驚人的92.4分登頂第一[1],這一結果也被認為是基本解決了“困擾了生物學家50年”的問題,獲得重大突破。92.4分,指的是對競賽目標蛋白的預測精度GDT_TS分數達到92.4,一般認為該分數超過90分,基本可以替代實驗方式啦,這也意味著AlphaFold2預測的結果與實驗得到的蛋白質結構基本一致。
2021年7月15日, DeepMind團隊在國際頂級期刊《Nature》上發表論文,詳細描述了AlphaFold2的設計思路,并提供了可供運行的基于JAX的模型和代碼[2]。考慮到JAX受眾偏向專業的AI科學計算研究人員,且飛槳社區尚沒有蛋白質結構預測相關的開源項目,百度螺旋槳PaddleHelix生物計算團隊,基于飛槳深度學習框架,復現了AlphaFold2模型,提供給廣大飛槳開發者使用,幫助大家快速入門蛋白質結構預測。
https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/paddlefold
AlphaFold2算法的設計思路
AlphaFold2通過獨特的神經網絡和訓練過程設計,第一次端到端地學習蛋白質結構。整個算法框架通過協同學習蛋白質的多序列比對(MSA)和氨基酸對(pairwise)的表征,將蛋白質序列的進化信息、蛋白質結構的物理和幾何約束信息結合到深度學習網絡中。我們將從數據預處理、Evoformer和Structure Module三個模塊分析AlphaFold2算法的設計思想。
近期開發計劃
AlphaFold2雖然在單體蛋白上表現優異,但對復合體,預測的準確度還有待提升。為此,DeepMind團隊上線了AlphaFold-Multimer模型,一款針對復合物進行重新訓練的神經網絡模型,希望能發動飛槳社區開發者們的積極性,一起開發優化基于AlphaFold-Multimer的模型,之后也開源貢獻到飛槳平臺,讓更廣大的生信領域研究者們使用基于飛槳框架完全自主可控的蛋白結構預測模型。
本文來源于飛槳PaddlePaddle
本文鏈接:http://www.www897cc.com/showinfo-119-2144-0.htmlAI+Science:基于飛槳的AlphaFold2,帶你入門蛋白質結構預測
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com