對普通大眾來說,谷歌AlphaFold似曾相識,而這份相識來源于它的孿生兄弟--打敗圍棋高手的AlphaGo。AlphaFold隸屬于谷歌旗下的人工智能(Artificial Intelligence,AI)公司Deep Mind。Deep Mind聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis表示:“Deep Mind的終極愿景是構(gòu)建通用人工智能,用它來幫助我們更好地了解我們周圍的世界,加快科學發(fā)現(xiàn)的步伐。”目前,Deep Mind擁有員工1000名左右,成立以來幾無營收,儼然成為谷歌旗下燒錢的公司。然而,Deep Mind已經(jīng)與Facebook AI Research、微軟和Open AI等公司一起成為全球AI競賽的領(lǐng)導者。基于AlphaFold,谷歌又一次“搞事情”,將其人工智能應(yīng)用于人類科學中棘手的領(lǐng)域-生物學。
2020年,在第14屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(Critical Assessment of Protein Structure Prediction,CASP)上,AlphaFold2成功根據(jù)基因序列預(yù)測了生命基本分子--蛋白質(zhì)的三維結(jié)構(gòu),取得了中位分數(shù)為92.4(滿分100分),比第二名高25分,打敗了所有競爭對手。甚至可以分析X-射線晶體學很難解決的楔入細胞膜中的蛋白質(zhì)結(jié)構(gòu),這是許多人類疾病的核心。CASP發(fā)起人之一穆爾特更是感嘆:“我從未想過在我的有生之年可以見證這一偉大。”2020年11月30日,Deep Mind宣布:“AlphaFold2成功解開了一個困擾人類長達50年之久的生物學難題--蛋白質(zhì)折疊問題。”2021年7月15日,關(guān)于AlphaFold2的論文在Nature上發(fā)表[1],并在Github上將AlphaFold2的代碼開源[2],以及上線可搜索的物種蛋白質(zhì)組數(shù)據(jù)庫[3]。中國科學院院士施一公認為:AlphaFold2是人工智能對科學領(lǐng)域較大的一次貢獻,也是人類在21世紀取得的較重要的科學突破之一。

研究成果AlphaFold2的論文在Nature上發(fā)表(圖源:Nature)
AlphaFold2厲害在哪里?顛覆醫(yī)學的技術(shù)突破
蛋白質(zhì)是生物體內(nèi)一切功能的執(zhí)行者,我們身體內(nèi)的任何功能,從催化化學反應(yīng)到抵御外來侵略都是蛋白質(zhì)作用的結(jié)果;我們能行走、運動靠的是肌肉中肌動蛋白的工作;我們身體的骨架是由蛋白質(zhì)骨膠原加強的;細胞的正常分裂或癌變也是通過蛋白質(zhì)調(diào)節(jié)控制的。具有完整一級結(jié)構(gòu)的多肽或蛋白質(zhì),只有當其折疊形成正確的三維空間結(jié)構(gòu)才可能具有正常的生物學功能。如果這些生物大分子的折疊在體內(nèi)發(fā)生了故障,形成錯誤的空間結(jié)構(gòu),不但將喪失其生物學功能,還會引起各種疾病,如:肺氣腫、癌癥、老年癡呆、帕金森氏癥等。
蛋白質(zhì)一般是由幾十到幾百個氨基酸脫水縮合組成的多肽鏈,蛋白質(zhì)氨基酸有22種,常見的有20種。在肽鏈上一個具體的位置為什么出現(xiàn)特定的氨基酸而不是別的氨基酸,以及為什么與這一氨基酸前后相連的氨基酸也是固定的?這與分子生物學中心法則密切相關(guān):“DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)。”具體來講,DNA上儲存的遺傳信息,也就是堿基序列首先轉(zhuǎn)錄到RNA上,再由RNA上的堿基序列編碼特定的氨基酸序列,以此構(gòu)成蛋白質(zhì)的物質(zhì)基礎(chǔ)。后來人們發(fā)現(xiàn)三個堿基形成一個密碼子,對應(yīng)編碼某一具體的氨基酸,密碼子在基因上的位置決定了氨基酸在肽鏈上的位置,形成了蛋白質(zhì)的一級結(jié)構(gòu)。但是,此時的線性結(jié)構(gòu)還必須折疊形成天然三維結(jié)構(gòu)之后才能具備承擔活體生物所需的獨特功能。然而,50多年來科學家對蛋白質(zhì)如何從一維結(jié)構(gòu)快速、準確地折疊成具有生物功能的天然三維結(jié)構(gòu)的認知依然非常有限,這就是生物學領(lǐng)域著名的蛋白質(zhì)折疊難題。

分子生物學中心法則:DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)(圖源:[4])
蛋白質(zhì)就像小巧精致的生物機器,而機器的結(jié)構(gòu)決定了它的功能,因此揭示蛋白質(zhì)的結(jié)構(gòu)可以幫助我們理解蛋白質(zhì)的功能。如果我們清楚蛋白質(zhì)的結(jié)構(gòu),就能對其功能展開有根據(jù)的猜測。通過繪制大量蛋白質(zhì)結(jié)構(gòu)圖,我們可以解讀生命的生物學原理,并找到解決問題的根本方法。
目前開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑為借助實驗儀器解析蛋白質(zhì)結(jié)構(gòu)如:X-射線衍射、核磁共振技術(shù)、冷凍電鏡技術(shù)以及智能計算預(yù)測。諾貝爾化學獎得主Christian Anfinsen,在1972年曾提出,基于蛋白質(zhì)的1D氨基酸序列可計算并預(yù)測蛋白質(zhì)的3D結(jié)構(gòu)。然而,3D結(jié)構(gòu)在形成之前會有數(shù)以億計的折疊方式。有數(shù)據(jù)顯示,一個典型的蛋白質(zhì)大約有10300種可能的構(gòu)型,如果用實驗方法來計算所有可能的構(gòu)型,可能花費的時間比宇宙都要長。通過實驗方法確定蛋白質(zhì)結(jié)構(gòu)是一項耗時且艱苦的工作,而AlphaFold2證明了人工智能可以在短短幾分鐘內(nèi)準確預(yù)測蛋白質(zhì)結(jié)構(gòu),并且精確到原子級。
表1. 開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑

開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑,數(shù)據(jù)來源:醫(yī)學與哲學雜志[5];
以新冠疫苗為例:它的研發(fā)基礎(chǔ)全在于我們繪制出了病毒表面用于入侵人體的細胞刺突蛋白的結(jié)構(gòu)圖。不妨把刺突蛋白的三維結(jié)構(gòu)看作是一把鎖,倘若我們能描繪出鎖的形狀,自然便可設(shè)計出鑰匙,也就是藥物或疫苗,來反制病毒。蛋白質(zhì)的三維折疊形狀以其一維的氨基酸序列為基礎(chǔ)。如果AI擅長發(fā)現(xiàn)那些復(fù)雜氨基酸序列構(gòu)建立體形狀的模式(人類在這方面的能力較弱),那么它就有望替代那些成本極高的實驗室技術(shù)。
從實用性角度來看,AlphaFold2的成功為我們攻克諸多重大疾病提供了助力。我們設(shè)計的幾乎所有的藥物都作用于蛋白質(zhì),如鑰匙開鎖般精確匹配,而此過程的第一步是確定哪把鑰匙開哪把鎖,用更專業(yè)的話說,就是尋找藥物靶標,即弄清楚藥物分子作用與何種蛋白結(jié)合。如果我們擁有可解碼蛋白質(zhì)結(jié)構(gòu)的人工智能,就可快速篩選成千上萬的新藥物靶標。
AlphaFold2多領(lǐng)域技術(shù)革命量身定制新蛋白
AlphaFold2對蛋白質(zhì)結(jié)構(gòu)的快速準確解析,可以使科學家們從頭制造蛋白質(zhì),即自然界中不存在的蛋白質(zhì),其特性可根據(jù)所需的應(yīng)用進行調(diào)整。通過AlphaFold2的計算,預(yù)測蛋白質(zhì)將如何折疊,它們的穩(wěn)定構(gòu)象是什么,可以開辟一個全新的生物學研究領(lǐng)域。
2020年1月下旬,DeepMind的科學家們使用AlphaFold2繪制了SARS-COV-2病毒的蛋白質(zhì)結(jié)構(gòu)圖--;這些結(jié)構(gòu)圖后來被實驗證實是準確的。隨后,世界各地的病毒學家開始使用AlphaFold2對新冠病毒進行研究。加利福尼亞大學舊金山分校(美國加利福尼亞州)的研究人員使用AlphaFold2和低溫電子顯微鏡分析了Nsp2,這是SARS-COV-2病毒中的一種蛋白質(zhì)。這種特殊蛋白質(zhì)的結(jié)構(gòu)和功能尚不清楚,但使用AlphaFold2的結(jié)果表明它具有鋅離子結(jié)合位點,表明這種蛋白質(zhì)在RNA結(jié)合中起作用,這可能對進一步的研究產(chǎn)生影響。
在研究經(jīng)費有限的項目中,AlphaFold2的免費資源是非常有幫助的。2021年6月,DeepMind與總部位于日內(nèi)瓦的被忽視疾病藥物計劃(DNDi)建立新的合作伙伴關(guān)系。DNDi是一家非營利性制藥組織,在過去18年中一直致力于解決發(fā)展中國家一些致命的疾病,如昏睡病、南美錐蟲病和利什曼病。AlphaFold2在尋找昏睡病的新療法方面已經(jīng)取得了相當大的成功:用安全的藥物非西硝唑取代了美拉索丙醇(一種有毒化合物,導致每20名患者中有1人死亡),成為治療該疾病的新標準。DNDi的藥物化學家和項目負責人Ben Perry 說:“我們找到了安全的處理辦法,并且適用于所有形式的疾病。”
DNDi和華盛頓大學、鄧迪大學和葛蘭素史克的一組傳染病研究人員發(fā)現(xiàn)了一種分子,該分子能夠與克氏錐蟲上的一種蛋白質(zhì)結(jié)合,這種寄生蟲會導致南美錐蟲病疾病。科學家想要研究這種蛋白質(zhì)的結(jié)構(gòu),以準確了解藥物如何阻止寄生蟲發(fā)揮作用。在過去,這將是一項需要多年時間,且復(fù)雜而費力的實驗任務(wù),但通過AlphaFold2,DNDi和他們的合作者已經(jīng)獲得計算生成的對其結(jié)構(gòu)的預(yù)測。現(xiàn)在可以利用這些知識來設(shè)計更多可以以不同方式與這種蛋白質(zhì)結(jié)合并殺死克氏錐蟲的藥物。佩里說:“這可以讓我們比幾年前看起來更快地解決恰加斯病和利什曼病。如果你能快速獲得這些蛋白質(zhì)結(jié)構(gòu),你就可以設(shè)計多種候選藥物,這樣你就有很多目標可以用于臨床試驗。”
英國樸茨茅斯大學酶創(chuàng)新中心通過應(yīng)用AlphaFold2設(shè)計了用于處理一次性塑料的蛋白質(zhì),這種蛋白質(zhì)在自然界中并不存在。如果沒有AlphaFold2的幫助,這種蛋白質(zhì)將很難被發(fā)現(xiàn)。
AlphaFold2應(yīng)用于制藥領(lǐng)域存爭議算法仍需完善
AI結(jié)構(gòu)預(yù)測的基本原理是將已知三維結(jié)構(gòu)的蛋白質(zhì)作為數(shù)據(jù)集進行大量訓練,輸入一個蛋白質(zhì)的氨基酸序列推算其三維結(jié)構(gòu),并和該蛋白質(zhì)的實驗結(jié)構(gòu)比對,以此強化機器深度學習能力和對未知蛋白質(zhì)結(jié)構(gòu)的預(yù)測能力。簡言之,就是大數(shù)據(jù)+智能算法。AlphaFold2又進一步引入了新算法,而且在硬件上達到了16個TPU(tensor processing unit)級別,相當于100多個GPU(graphics processing unit)的計算機中央處理器,對所有17萬種已知蛋白質(zhì)結(jié)構(gòu)進行了算法訓練。
也就是說,此次AlphaFold2所取得的驚人成績完全離不開實驗生物學家已經(jīng)弄清楚結(jié)構(gòu)的蛋白質(zhì)作為其比較或?qū)W習的模板。而且,AlphaFold2蛋白質(zhì)結(jié)構(gòu)預(yù)測也并非解決了所有問題,即使在競賽中,它明顯地在一種蛋白質(zhì)上搖擺不定,這種蛋白質(zhì)由52個小重復(fù)片段組成,它們在組裝時會扭曲彼此的位置。
所謂蛋白質(zhì)結(jié)構(gòu)預(yù)測也只是結(jié)構(gòu)生物學研究的一個中間階段,是指無論是實驗結(jié)構(gòu)解析還是 AI結(jié)構(gòu)預(yù)測,其目的是理解生命機理。正如美國普林斯頓大學顏寧教授所講:“結(jié)構(gòu)生物學的主語是生物學,是理解生命,是做出生物學發(fā)現(xiàn)。”從亞原子到原子再到分子層面依然是物理化學過程,為什么分子層面的蛋白質(zhì)及其組成的生命具有了化學活性且能夠繁殖、演化?也就是說,分子層面的蛋白質(zhì)發(fā)生了什么樣的變化以及是如何變化的?解答這些問 題才接近理解生命。
但是正如上文所言,理解蛋白質(zhì)功能必須理解其結(jié)構(gòu),而結(jié)構(gòu)解析目前遠遠超出了人類的認知能力。也正因如此,很多實驗生物學家將大量時間、精力投入到蛋白質(zhì)結(jié)構(gòu)實驗解析上,也正因為這一進程發(fā)展緩慢且困難重重,才促使人們另辟蹊徑,借助計算科學開展結(jié)構(gòu)預(yù)測。在這個意義上說,實驗解析或算法預(yù)測是開展蛋白質(zhì)功能研究及認識生命機理的工具和手段,但是不能說因為在這方面目前還非常困難且是當下結(jié)構(gòu)生物學的主要工作,作為工具和手段的結(jié)構(gòu)解析或預(yù)測就成為了生物學的目的。要言之,AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域做出了驚人的成績,但這并不意味著AI明白地告訴了我們蛋白質(zhì)折疊的過程與原理。
雖然AlphaFold2在CASP14上讓評委們大開眼界,并且已經(jīng)被用于各種研究領(lǐng)域,但這只是此類計算技術(shù)的開始。某一蛋白質(zhì)可能存在10300個構(gòu)象,但蛋白質(zhì)是如何在瞬間自發(fā)地折疊成正確的形狀,AlphaFold2仍無法對此做出解答。AlphaFold2目前代表了AI蛋白質(zhì)預(yù)測的黃金標準,但隨著這項技術(shù)的發(fā)展和演變,這一基準將繼續(xù)提高。
準確預(yù)測蛋白質(zhì)結(jié)構(gòu),在設(shè)計治療方法的過程中是有益的,它使研究人員能夠可視化目標蛋白質(zhì)的形狀。然而,目前AlphaFold2的局限性意味著藥物設(shè)計領(lǐng)域仍未發(fā)生重大變化。預(yù)測較大的多域蛋白質(zhì)復(fù)合物的形狀并了解所有氨基酸側(cè)鏈的位置對于設(shè)計藥物分子很重要:這些是AlphaFold2目前難以預(yù)測的領(lǐng)域。近期的一篇論文還強調(diào),雖然AlphaFold2預(yù)測的結(jié)構(gòu)數(shù)據(jù)可能會縮短早期的研究時間,但不太可能徹底縮短新藥從實驗室到患者的時間。
題圖來源:EXXACT,僅用于學術(shù)交流
參考資料:
[2]GitHub - deepmind/alphafold: Open source code for AlphaFold.
[3]AlphaFold Protein Structure Database. alphafold.ebi.ac.uk.
[5]趙云波。AI預(yù)測可以代替科學實驗嗎?醫(yī)學與哲學,2021。DOI:10.12014/j.issn.1002-0772.2021.06.04
對普通大眾來說,谷歌AlphaFold似曾相識,而這份相識來源于它的孿生兄弟--打敗圍棋高手的AlphaGo。AlphaFold隸屬于谷歌旗下的人工智能(Artificial Intelligence,AI)公司Deep Mind。Deep Mind聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis表示:“Deep Mind的終極愿景是構(gòu)建通用人工智能,用它來幫助我們更好地了解我們周圍的世界,加快科學發(fā)現(xiàn)的步伐。”目前,Deep Mind擁有員工1000名左右,成立以來幾無營收,儼然成為谷歌旗下燒錢的公司。然而,Deep Mind已經(jīng)與Facebook AI Research、微軟和Open AI等公司一起成為全球AI競賽的領(lǐng)導者。基于AlphaFold,谷歌又一次“搞事情”,將其人工智能應(yīng)用于人類科學中棘手的領(lǐng)域-生物學。
2020年,在第14屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(Critical Assessment of Protein Structure Prediction,CASP)上,AlphaFold2成功根據(jù)基因序列預(yù)測了生命基本分子--蛋白質(zhì)的三維結(jié)構(gòu),取得了中位分數(shù)為92.4(滿分100分),比第二名高25分,打敗了所有競爭對手。甚至可以分析X-射線晶體學很難解決的楔入細胞膜中的蛋白質(zhì)結(jié)構(gòu),這是許多人類疾病的核心。CASP發(fā)起人之一穆爾特更是感嘆:“我從未想過在我的有生之年可以見證這一偉大。”2020年11月30日,Deep Mind宣布:“AlphaFold2成功解開了一個困擾人類長達50年之久的生物學難題--蛋白質(zhì)折疊問題。”2021年7月15日,關(guān)于AlphaFold2的論文在Nature上發(fā)表[1],并在Github上將AlphaFold2的代碼開源[2],以及上線可搜索的物種蛋白質(zhì)組數(shù)據(jù)庫[3]。中國科學院院士施一公認為:AlphaFold2是人工智能對科學領(lǐng)域較大的一次貢獻,也是人類在21世紀取得的較重要的科學突破之一。

研究成果AlphaFold2的論文在Nature上發(fā)表(圖源:Nature)
AlphaFold2厲害在哪里?顛覆醫(yī)學的技術(shù)突破
蛋白質(zhì)是生物體內(nèi)一切功能的執(zhí)行者,我們身體內(nèi)的任何功能,從催化化學反應(yīng)到抵御外來侵略都是蛋白質(zhì)作用的結(jié)果;我們能行走、運動靠的是肌肉中肌動蛋白的工作;我們身體的骨架是由蛋白質(zhì)骨膠原加強的;細胞的正常分裂或癌變也是通過蛋白質(zhì)調(diào)節(jié)控制的。具有完整一級結(jié)構(gòu)的多肽或蛋白質(zhì),只有當其折疊形成正確的三維空間結(jié)構(gòu)才可能具有正常的生物學功能。如果這些生物大分子的折疊在體內(nèi)發(fā)生了故障,形成錯誤的空間結(jié)構(gòu),不但將喪失其生物學功能,還會引起各種疾病,如:肺氣腫、癌癥、老年癡呆、帕金森氏癥等。
蛋白質(zhì)一般是由幾十到幾百個氨基酸脫水縮合組成的多肽鏈,蛋白質(zhì)氨基酸有22種,常見的有20種。在肽鏈上一個具體的位置為什么出現(xiàn)特定的氨基酸而不是別的氨基酸,以及為什么與這一氨基酸前后相連的氨基酸也是固定的?這與分子生物學中心法則密切相關(guān):“DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)。”具體來講,DNA上儲存的遺傳信息,也就是堿基序列首先轉(zhuǎn)錄到RNA上,再由RNA上的堿基序列編碼特定的氨基酸序列,以此構(gòu)成蛋白質(zhì)的物質(zhì)基礎(chǔ)。后來人們發(fā)現(xiàn)三個堿基形成一個密碼子,對應(yīng)編碼某一具體的氨基酸,密碼子在基因上的位置決定了氨基酸在肽鏈上的位置,形成了蛋白質(zhì)的一級結(jié)構(gòu)。但是,此時的線性結(jié)構(gòu)還必須折疊形成天然三維結(jié)構(gòu)之后才能具備承擔活體生物所需的獨特功能。然而,50多年來科學家對蛋白質(zhì)如何從一維結(jié)構(gòu)快速、準確地折疊成具有生物功能的天然三維結(jié)構(gòu)的認知依然非常有限,這就是生物學領(lǐng)域著名的蛋白質(zhì)折疊難題。

分子生物學中心法則:DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)(圖源:[4])
蛋白質(zhì)就像小巧精致的生物機器,而機器的結(jié)構(gòu)決定了它的功能,因此揭示蛋白質(zhì)的結(jié)構(gòu)可以幫助我們理解蛋白質(zhì)的功能。如果我們清楚蛋白質(zhì)的結(jié)構(gòu),就能對其功能展開有根據(jù)的猜測。通過繪制大量蛋白質(zhì)結(jié)構(gòu)圖,我們可以解讀生命的生物學原理,并找到解決問題的根本方法。
目前開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑為借助實驗儀器解析蛋白質(zhì)結(jié)構(gòu)如:X-射線衍射、核磁共振技術(shù)、冷凍電鏡技術(shù)以及智能計算預(yù)測。諾貝爾化學獎得主Christian Anfinsen,在1972年曾提出,基于蛋白質(zhì)的1D氨基酸序列可計算并預(yù)測蛋白質(zhì)的3D結(jié)構(gòu)。然而,3D結(jié)構(gòu)在形成之前會有數(shù)以億計的折疊方式。有數(shù)據(jù)顯示,一個典型的蛋白質(zhì)大約有10300種可能的構(gòu)型,如果用實驗方法來計算所有可能的構(gòu)型,可能花費的時間比宇宙都要長。通過實驗方法確定蛋白質(zhì)結(jié)構(gòu)是一項耗時且艱苦的工作,而AlphaFold2證明了人工智能可以在短短幾分鐘內(nèi)準確預(yù)測蛋白質(zhì)結(jié)構(gòu),并且精確到原子級。
表1. 開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑

開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑,數(shù)據(jù)來源:醫(yī)學與哲學雜志[5];
以新冠疫苗為例:它的研發(fā)基礎(chǔ)全在于我們繪制出了病毒表面用于入侵人體的細胞刺突蛋白的結(jié)構(gòu)圖。不妨把刺突蛋白的三維結(jié)構(gòu)看作是一把鎖,倘若我們能描繪出鎖的形狀,自然便可設(shè)計出鑰匙,也就是藥物或疫苗,來反制病毒。蛋白質(zhì)的三維折疊形狀以其一維的氨基酸序列為基礎(chǔ)。如果AI擅長發(fā)現(xiàn)那些復(fù)雜氨基酸序列構(gòu)建立體形狀的模式(人類在這方面的能力較弱),那么它就有望替代那些成本極高的實驗室技術(shù)。
從實用性角度來看,AlphaFold2的成功為我們攻克諸多重大疾病提供了助力。我們設(shè)計的幾乎所有的藥物都作用于蛋白質(zhì),如鑰匙開鎖般精確匹配,而此過程的第一步是確定哪把鑰匙開哪把鎖,用更專業(yè)的話說,就是尋找藥物靶標,即弄清楚藥物分子作用與何種蛋白結(jié)合。如果我們擁有可解碼蛋白質(zhì)結(jié)構(gòu)的人工智能,就可快速篩選成千上萬的新藥物靶標。
AlphaFold2多領(lǐng)域技術(shù)革命量身定制新蛋白
AlphaFold2對蛋白質(zhì)結(jié)構(gòu)的快速準確解析,可以使科學家們從頭制造蛋白質(zhì),即自然界中不存在的蛋白質(zhì),其特性可根據(jù)所需的應(yīng)用進行調(diào)整。通過AlphaFold2的計算,預(yù)測蛋白質(zhì)將如何折疊,它們的穩(wěn)定構(gòu)象是什么,可以開辟一個全新的生物學研究領(lǐng)域。
2020年1月下旬,DeepMind的科學家們使用AlphaFold2繪制了SARS-COV-2病毒的蛋白質(zhì)結(jié)構(gòu)圖--這些結(jié)構(gòu)圖后來被實驗證實是準確的。隨后,世界各地的病毒學家開始使用AlphaFold2對新冠病毒進行研究。加利福尼亞大學舊金山分校(美國加利福尼亞州)的研究人員使用AlphaFold2和低溫電子顯微鏡分析了Nsp2,這是SARS-COV-2病毒中的一種蛋白質(zhì)。這種特殊蛋白質(zhì)的結(jié)構(gòu)和功能尚不清楚,但使用AlphaFold2的結(jié)果表明它具有鋅離子結(jié)合位點,表明這種蛋白質(zhì)在RNA結(jié)合中起作用,這可能對進一步的研究產(chǎn)生影響。
在研究經(jīng)費有限的項目中,AlphaFold2的免費資源是非常有幫助的。2021年6月,DeepMind與總部位于日內(nèi)瓦的被忽視疾病藥物計劃(DNDi)建立新的合作伙伴關(guān)系。DNDi是一家非營利性制藥組織,在過去18年中一直致力于解決發(fā)展中國家一些致命的疾病,如昏睡病、南美錐蟲病和利什曼病。AlphaFold2在尋找昏睡病的新療法方面已經(jīng)取得了相當大的成功:用安全的藥物非西硝唑取代了美拉索丙醇(一種有毒化合物,導致每20名患者中有1人死亡),成為治療該疾病的新標準。DNDi的藥物化學家和項目負責人Ben Perry 說:“我們找到了安全的處理辦法,并且適用于所有形式的疾病。”
DNDi和華盛頓大學、鄧迪大學和葛蘭素史克的一組傳染病研究人員發(fā)現(xiàn)了一種分子,該分子能夠與克氏錐蟲上的一種蛋白質(zhì)結(jié)合,這種寄生蟲會導致南美錐蟲病疾病。科學家想要研究這種蛋白質(zhì)的結(jié)構(gòu),以準確了解藥物如何阻止寄生蟲發(fā)揮作用。在過去,這將是一項需要多年時間,且復(fù)雜而費力的實驗任務(wù),但通過AlphaFold2,DNDi和他們的合作者已經(jīng)獲得計算生成的對其結(jié)構(gòu)的預(yù)測。現(xiàn)在可以利用這些知識來設(shè)計更多可以以不同方式與這種蛋白質(zhì)結(jié)合并殺死克氏錐蟲的藥物。佩里說:“這可以讓我們比幾年前看起來更快地解決恰加斯病和利什曼病。如果你能快速獲得這些蛋白質(zhì)結(jié)構(gòu),你就可以設(shè)計多種候選藥物,這樣你就有很多目標可以用于臨床試驗。”
英國樸茨茅斯大學酶創(chuàng)新中心通過應(yīng)用AlphaFold2設(shè)計了用于處理一次性塑料的蛋白質(zhì),這種蛋白質(zhì)在自然界中并不存在。如果沒有AlphaFold2的幫助,這種蛋白質(zhì)將很難被發(fā)現(xiàn)。
AlphaFold2應(yīng)用于制藥領(lǐng)域存爭議算法仍需完善
AI結(jié)構(gòu)預(yù)測的基本原理是將已知三維結(jié)構(gòu)的蛋白質(zhì)作為數(shù)據(jù)集進行大量訓練,輸入一個蛋白質(zhì)的氨基酸序列推算其三維結(jié)構(gòu),并和該蛋白質(zhì)的實驗結(jié)構(gòu)比對,以此強化機器深度學習能力和對未知蛋白質(zhì)結(jié)構(gòu)的預(yù)測能力。簡言之,就是大數(shù)據(jù)+智能算法。AlphaFold2又進一步引入了新算法,而且在硬件上達到了16個TPU(tensor processing unit)級別,相當于100多個GPU(graphics processing unit)的計算機中央處理器,對所有17萬種已知蛋白質(zhì)結(jié)構(gòu)進行了算法訓練。
也就是說,此次AlphaFold2所取得的驚人成績完全離不開實驗生物學家已經(jīng)弄清楚結(jié)構(gòu)的蛋白質(zhì)作為其比較或?qū)W習的模板。而且,AlphaFold2蛋白質(zhì)結(jié)構(gòu)預(yù)測也并非解決了所有問題,即使在競賽中,它明顯地在一種蛋白質(zhì)上搖擺不定,這種蛋白質(zhì)由52個小重復(fù)片段組成,它們在組裝時會扭曲彼此的位置。
所謂蛋白質(zhì)結(jié)構(gòu)預(yù)測也只是結(jié)構(gòu)生物學研究的一個中間階段,是指無論是實驗結(jié)構(gòu)解析還是 AI結(jié)構(gòu)預(yù)測,其目的是理解生命機理。正如美國普林斯頓大學顏寧教授所講:“結(jié)構(gòu)生物學的主語是生物學,是理解生命,是做出生物學發(fā)現(xiàn)。”從亞原子到原子再到分子層面依然是物理化學過程,為什么分子層面的蛋白質(zhì)及其組成的生命具有了化學活性且能夠繁殖、演化?也就是說,分子層面的蛋白質(zhì)發(fā)生了什么樣的變化以及是如何變化的?解答這些問 題才接近理解生命。
但是正如上文所言,理解蛋白質(zhì)功能必須理解其結(jié)構(gòu),而結(jié)構(gòu)解析目前遠遠超出了人類的認知能力。也正因如此,很多實驗生物學家將大量時間、精力投入到蛋白質(zhì)結(jié)構(gòu)實驗解析上,也正因為這一進程發(fā)展緩慢且困難重重,才促使人們另辟蹊徑,借助計算科學開展結(jié)構(gòu)預(yù)測。在這個意義上說,實驗解析或算法預(yù)測是開展蛋白質(zhì)功能研究及認識生命機理的工具和手段,但是不能說因為在這方面目前還非常困難且是當下結(jié)構(gòu)生物學的主要工作,作為工具和手段的結(jié)構(gòu)解析或預(yù)測就成為了生物學的目的。要言之,AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域做出了驚人的成績,但這并不意味著AI明白地告訴了我們蛋白質(zhì)折疊的過程與原理。
雖然AlphaFold2在CASP14上讓評委們大開眼界,并且已經(jīng)被用于各種研究領(lǐng)域,但這只是此類計算技術(shù)的開始。某一蛋白質(zhì)可能存在10300個構(gòu)象,但蛋白質(zhì)是如何在瞬間自發(fā)地折疊成正確的形狀,AlphaFold2仍無法對此做出解答。AlphaFold2目前代表了AI蛋白質(zhì)預(yù)測的黃金標準,但隨著這項技術(shù)的發(fā)展和演變,這一基準將繼續(xù)提高。
準確預(yù)測蛋白質(zhì)結(jié)構(gòu),在設(shè)計治療方法的過程中是有益的,它使研究人員能夠可視化目標蛋白質(zhì)的形狀。然而,目前AlphaFold2的局限性意味著藥物設(shè)計領(lǐng)域仍未發(fā)生重大變化。預(yù)測較大的多域蛋白質(zhì)復(fù)合物的形狀并了解所有氨基酸側(cè)鏈的位置對于設(shè)計藥物分子很重要:這些是AlphaFold2目前難以預(yù)測的領(lǐng)域。近期的一篇論文還強調(diào),雖然AlphaFold2預(yù)測的結(jié)構(gòu)數(shù)據(jù)可能會縮短早期的研究時間,但不太可能徹底縮短新藥從實驗室到患者的時間。
題圖來源:EXXACT,僅用于學術(shù)交流
參考資料:
[2]GitHub - deepmind/alphafold: Open source code for AlphaFold.
[3]AlphaFold Protein Structure Database. alphafold.ebi.ac.uk.
[5]趙云波。AI預(yù)測可以代替科學實驗嗎?醫(yī)學與哲學,2021。DOI:10.12014/j.issn.1002-0772.2021.06.04