太初元碁×百度螺旋槳×神威數(shù)智 | 國內(nèi)首個成功復(fù)現(xiàn)AlphaFold3

發(fā)布時間：2024-09-10

“

近年來，大模型技術(shù)在生物信息學(xué)領(lǐng)域取得了眾多突破性進展，引起全球的廣泛關(guān)注，特別是在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面的革命性成就，贏得了科學(xué)和產(chǎn)業(yè)界的高度認可。其中，AlphaFold系列模型擁有預(yù)測蛋白質(zhì)單鏈、復(fù)合體以及復(fù)雜生物分子結(jié)構(gòu)的能力，其準確性堪比真實實驗，極大地促進了生命科學(xué)的發(fā)展。特別是AlphaFold3能夠預(yù)測生物分子間的相互作用，極大助力于藥物研發(fā)合成，但由于算法未開源，限制了其在更廣泛的科研領(lǐng)域中的應(yīng)用和發(fā)展。盡管有團隊嘗試根據(jù)AlphaFold3的論文進行復(fù)現(xiàn)，但目前也僅完成了代碼部分，尚未實現(xiàn)實際訓(xùn)練，因此尚未能應(yīng)用于實際科研中。

太初元碁與百度螺旋槳團隊以及神威數(shù)智組成的聯(lián)合研發(fā)團隊成功完成AlphaFold3模型的全復(fù)現(xiàn)工作，突破DeepMind在該領(lǐng)域的技術(shù)高地。此次AlphaFold3的國產(chǎn)化復(fù)現(xiàn)，不僅是一次技術(shù)革新，更是我國科技生態(tài)建設(shè)的重要里程碑，提升了國產(chǎn)大模型研發(fā)技術(shù)在全球AI大模型領(lǐng)域的競爭力。

本次成功復(fù)現(xiàn)AlphaFold3模型，基于百度螺旋槳團隊在HelixFold、HelixFold-Single、HelixFold2(HelixFold-Multimer)以及HelixDock等一系列工作中積累的豐富模型訓(xùn)練和數(shù)據(jù)處理經(jīng)驗；結(jié)合太初元碁與神威數(shù)智在異構(gòu)眾核體系架構(gòu)和大規(guī)模并行計算領(lǐng)域的專業(yè)優(yōu)勢，及在生命科學(xué)領(lǐng)域和新藥研發(fā)方向的深厚積淀；依托國家超級計算無錫中心“太湖之光A+”智能超算系統(tǒng)提供的強大計算資源支持。聯(lián)合研發(fā)團隊優(yōu)勢互補、協(xié)同合作，為業(yè)界首個AlphaFold3的全復(fù)現(xiàn)大模型奠定了基礎(chǔ)。

試用申請

AlphaFold3模型最新試用版本已于8月28日上線，

歡迎對AlphaFold3或聯(lián)合研發(fā)團隊相關(guān)工作感興趣的科研機構(gòu)和商業(yè)公司

通過郵箱：husl@tecorigin.com 與我們聯(lián)系。

也可點擊底部“閱讀原文”，獲取試用鏈接，

或復(fù)制下方鏈接：http://223.108.218.41:8067/ 在瀏覽器中打開，

即可搶先試用！

具體技術(shù)性能

聯(lián)合研發(fā)團隊克服了一系列挑戰(zhàn)，如：模型結(jié)構(gòu)復(fù)雜、數(shù)據(jù)高度復(fù)雜，訓(xùn)練和運行所需的計算資源龐大等。在模型層面，AlphaFold3相較于AlphaFold2，增加了原子級建模，使得整體結(jié)構(gòu)更加復(fù)雜，計算量也顯著增加。同時，AlphaFold3采用了擴散模型進行所有原子坐標的端到端推理。在數(shù)據(jù)處理方面，AlphaFold3不僅需要建模蛋白質(zhì)，還必須處理小分子配體、核酸和離子等多種生物分子，復(fù)雜的數(shù)據(jù)預(yù)處理和大規(guī)模自蒸餾數(shù)據(jù)生成對模型性能的提升至關(guān)重要。

目前，復(fù)現(xiàn)工作在常規(guī)的小分子配體、核酸分子（包括 DNA 和 RNA）以及蛋白質(zhì)的結(jié)構(gòu)預(yù)測精度上已與 DeepMind發(fā)布的AlphaFold3相媲美，并在模型置信度上達標。

小分子配體

為了評估在蛋白質(zhì)-配體結(jié)構(gòu)預(yù)測中的效果，聯(lián)合研發(fā)團隊將復(fù)現(xiàn)工作與其他主流方法在PoseBusters數(shù)據(jù)集上的表現(xiàn)進行了對比。其中：

數(shù)據(jù)集PoseBusters：一個用于評估配體對接算法的基準數(shù)據(jù)集, PoseBusters V1包含428個結(jié)構(gòu)，PoseBusters V2是排除了與多個生物分子單元內(nèi)距離小于5.0?的配體數(shù)據(jù)后，精簡的308個結(jié)構(gòu)。
對比的基線方法分為三類：不指定真實蛋白質(zhì)結(jié)構(gòu)的方法、指定已知蛋白質(zhì)結(jié)構(gòu)的方法，以及指定活性位點殘基的方法。

結(jié)果顯示：在這兩個版本的數(shù)據(jù)集上，復(fù)現(xiàn)工作即便在沒有指定蛋白質(zhì)結(jié)構(gòu)的情況下，仍然展示出卓越的表現(xiàn)，成功率甚至超過了依賴已知蛋白質(zhì)結(jié)構(gòu)的方法，其預(yù)測精度與目前頂尖的AlphaFold3相當，這表明復(fù)現(xiàn)工作在蛋白質(zhì)-配體相互作用預(yù)測領(lǐng)域的出色潛力。

模型預(yù)測的配體結(jié)構(gòu)在立體化學(xué)和物理合理性是大家所關(guān)注的，使用PoseBusters測試套件可以評估分子內(nèi)部和分子之間的各種合理性指標。無論是復(fù)現(xiàn)工作還是DeepMind 發(fā)布的AlphaFold3，在幾乎所有指標上都達到了90%以上的通過率。

▲ 圖1 PoseBusters V1數(shù)據(jù)集上AlphaFold3復(fù)現(xiàn)工作與同類模型的精度表現(xiàn)

▲圖2 PoseBusters V2數(shù)據(jù)集上AlphaFold3復(fù)現(xiàn)工作與同類模型的精度表現(xiàn)

▲圖3 Alphafold3復(fù)現(xiàn)工作與同類模型的PoseBusters V2 quality check精度對比

核酸分子

由于核酸分子的結(jié)晶結(jié)構(gòu)數(shù)量很少，完全無人為干預(yù)地自動化地準確預(yù)測其結(jié)構(gòu)一直是一個巨大的挑戰(zhàn)。

對于核酸分子效果的評估，復(fù)現(xiàn)工作在CASP15（蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的重要國際競賽）中有結(jié)晶結(jié)構(gòu)的RNA樣本及從Protein Data Bank(PDB)中最新收集的41個RNA分子和41個DNA分子進行評測。

結(jié)果顯示：復(fù)現(xiàn)工作在CASP15的RNA樣本的精度雖然還不及有人工干預(yù)的方法AIchemy_RNA2，但在能夠完全自動化推理的RNA模型當中，已經(jīng)達到了與AlphaFold3相當?shù)乃?。在從PDB最新收集的RNA和DNA的結(jié)構(gòu)預(yù)測上，復(fù)現(xiàn)工作的精度亦是極具競爭力，遠超專門為核酸分子結(jié)構(gòu)預(yù)測所設(shè)計模型RoseTTAFold2NA和另一個全原子生物分子結(jié)構(gòu)預(yù)測模型RoseTTAFold-AllAtom。

▲圖4 Alphafold3復(fù)現(xiàn)工作與同類模型在CASP15上的精度對比

▲圖5 Alphafold3復(fù)現(xiàn)工作與同類模型在PDB RNA-only與PDB DNA-only數(shù)據(jù)集上的LDDT評估值對比

蛋白質(zhì)

在蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測領(lǐng)域，盡管AlphaFold-Multimer在先前模型的基礎(chǔ)上實現(xiàn)了顯著的進步，但其成功率和準確性仍有進一步提升的空間。聯(lián)合研發(fā)團隊的復(fù)現(xiàn)工作在此基礎(chǔ)上進一步優(yōu)化了預(yù)測能力，展現(xiàn)出更為優(yōu)異的性能。

結(jié)果顯示：復(fù)現(xiàn)工作在蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測方面已經(jīng)略微超越了AlphaFold-Multimer的表現(xiàn)，展示出更強的預(yù)測能力。然而，與AlphaFold3相比，復(fù)現(xiàn)工作仍存在一定的性能差距。因此，未來的研究工作將繼續(xù)致力于優(yōu)化和迭代，以縮小這一差距，力求在復(fù)現(xiàn)工作的預(yù)測精度和成功率上進一步提升。

▲ 圖6 Alphafold3復(fù)現(xiàn)工作與同類模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù)上的Docka分值對比

▲ 圖7 Alphafold3復(fù)現(xiàn)工作與同類模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù)上的Docka>0.23分值對比

模型置信度

復(fù)現(xiàn)工作結(jié)構(gòu)預(yù)測模型的置信度評分，可用于評估模型預(yù)測的結(jié)構(gòu)準確性。復(fù)現(xiàn)工作分別對小分子配體-蛋白質(zhì)數(shù)據(jù)集PoseBusters和從PDB中收集的蛋白質(zhì)-蛋白質(zhì)復(fù)合體，RNA分子和DNA分子輸出的置信度評分，都可以觀測到置信度評分與結(jié)構(gòu)的準確性間具有很強的相關(guān)性。

▲ 圖8 Alphafold3復(fù)現(xiàn)工作在小分子配體-蛋白質(zhì)數(shù)據(jù)集上的預(yù)測置信度分布

▲ 圖9 Alphafold3復(fù)現(xiàn)工作在蛋白質(zhì)-蛋白質(zhì)復(fù)合體數(shù)據(jù)集上的預(yù)測置信度分布

▲圖10 Alphafold3復(fù)現(xiàn)工作在RNA分子數(shù)據(jù)集上的預(yù)測置信度分布

聯(lián)合研發(fā)團隊后續(xù)會對模型進行持續(xù)地更新迭代，使之在更豐富的數(shù)據(jù)集和應(yīng)用場景上發(fā)揮價值。同時太初元碁將繼續(xù)致力于技術(shù)創(chuàng)新和生態(tài)建設(shè)，推動更多前沿科技的國產(chǎn)化進程，打造更加完善的國產(chǎn)技術(shù)生態(tài)體系。

国产成人亚洲综合无码99,《大胸护士》在线观看无码,久久精品国产亚洲AV麻豆小说,国产精品G乳久久久9999,久久频这里精品99香蕉

太初資訊

太初元碁×百度螺旋槳×神威數(shù)智 | 國內(nèi)首個成功復(fù)現(xiàn)AlphaFold3