SMC 資料庫
議題背景
今年(2020年)11月30日,開發出圍棋軟體AlphaGo的人工智慧實驗室「DeepMind」,宣布他們開發的AI軟體「AlphaFold」可以藉由胺基酸序列,快速且準確預測蛋白質的3D立體結構。DeepMind團隊替AI加上注意力機制(Attention Mechanism)的神經網路,用資料庫中17萬種已知蛋白質結構和6千萬筆胺基酸序列訓練AI,並在今年蛋白質結構預測的關鍵評估(Critical Assessment of protein Structure Prediction,CASP)競賽中,獲得最高的預測準確率。
以往要精確得知一個蛋白質的完整結構,需要數月甚至數十年的實驗研究,新聞指出這項技術已經可以解決科學家一直以來困擾的「蛋白質折疊難題」,且由於蛋白質的結構影響它的功能,許多疾病又和蛋白質的功能有關,新聞提及這項技術可縮短研究人員了解疾病的時間,可加速疫苗和藥物開發。
- 新聞報導:
- Ewen Callaway (2020). “‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures.”Nature News, November 30.
- Cade Metz (2020). “London A.I. Lab Claims Breakthrough That Could Accelerate Drug Discovery.”The New York Times, November 30.
- 郭俐伶(2020)〈【生物界的 AlphaGo 更強大】DeepMind 宣布 AI 能成功預測蛋白質結構,有機會翻轉未來醫療面貌〉,科技報橘,12月1日。
- INSIDE(2020)〈AI 醫療再一里程碑!DeepMind 用類神經網路解決「蛋白質折疊」難題〉,12月1日。
然而,預測蛋白質摺疊的結構為什麼這麼困難?用AI幫助預測還有那些必須考量的前提和挑戰?對此,我們邀請專家釋疑。
專家怎麼說?
2020年12月03日
中央研究院生物醫學科學研究所研究員 黃明經
蛋白質折疊的結構和生物體內許多生理機轉有重要的關聯,因此被稱為是理解生命科學的第四個密碼[1],但要快速且精準的從胺基酸序列中預測蛋白質折疊的結構,一直以來都很困難。主要是因為蛋白質是由胺基酸序列組成的長鏈,假設相鄰的兩個胺基酸分子之間可以形成2個鍵結,每個鍵結常見的角度有3種,這兩個胺基酸組合就有3 x 3 = 9 種不同的結構。若為一個含100個胺基酸的小蛋白,組合出的結構就有9的99次方種,是一個已經大於10的90次方種可能的天文數字,雖然可以用「分子動力學」研究方法,透過模擬蛋白質折疊的軌跡來找到最可能的結構,但需花費相當龐大的計算資源及時間。即使是2010年有研究可以模擬出1毫秒內蛋白質的結構變化[2],也僅限於150個胺基酸以下所組成的較小蛋白質。
現在有AI能夠從資料庫數據中學習,的確可以協助預測蛋白質折疊的結構,但是要準確預測,仍有以下限制:
1. AI預測的是最終蛋白質摺疊的結果,與分子動力學模擬蛋白質折疊的過程不同,也和自然界蛋白質折疊的軌跡有差異。換句話說,AlphaFold不是在自然科學原理上解碼這個困擾科學家逾半世紀的問題,而是靠電腦分析大量資料的技術。
2. 這次的AI軟體AlphaFold,是從已知蛋白質結構的資料庫中學習預測,但是資料庫中的資料大多是單一個蛋白質,多個蛋白質或複合體的資料較少。因為複合體中的蛋白質會受到其他蛋白質作用力的拉扯而修飾原本結構,因此目前AI雖然可以預測單一蛋白質結構,但可能仍無法精準預測較複雜的蛋白質複合體。
3. AlphaFold在這次的CASP競賽[3]表現驚人,但競賽中仍有約1/3的蛋白質AlphaFold尚無法精準預測其折疊結構。
4. 得知蛋白質的結構只是第一步,目前AI還未能非常準確地預測蛋白質摺疊後的功能,必須整合不同的系統生物資訊學資料,所以要藉由預測結構來得知蛋白質功能,還有一段距離。
如上所述,AI目前仍無法完全取代以實驗取得蛋白質結構的方法,但可以協助科學家在複雜的實驗數據中縮小找尋結構的範圍,幫助解出困難的結構。AI也可以從更多的結構學習改進,得到更準確的預測,所以AI和傳統方法其實是相輔相成的。
這種運用AI精準預測蛋白質結構的技術,主要可以應用在藥物篩選及研發。由於篩選藥物的重要關鍵之一是看蛋白質與其他作用分子的結合位點和結合方式,AI預測出蛋白質結構後可以協助研究人員篩選、設計和修改藥物分子,獲得理想藥效。台灣目前也有團隊在研究藥物篩選及研發,期待AlphaFold的技術對此有幫助。
相關利益聲明:無相關利益
2020年12月07日
國立臺灣大學生物機電工程學系教授 陳倩瑜
蛋白質結構預測是一個計算複雜度很高的問題,以長度為150個胺基酸的蛋白質為例,簡單的想像可能是10的300次方這種等級的計算量,使用暴力法不可能有效率地得到好的結果,因此在計算生物學領域一直是一個極重要但長年以來卻懸而未決的問題。蛋白質結構預測的目標在於尋找最低能量的結構,是一個最佳化的問題,為了縮小搜尋的範圍,一個務實的解決方案是加入限制條件,例如:幾何空間上的限制。AlphaFold即是利用深度學習演算法,先預測任兩個胺基酸之間最可能的距離,以機率分布的形式呈現,進而利用這些資訊在尋找最低能量結構的過程中,幫助梯度下降法(Gradient Descent)[4]在有限時間內找到不錯的解。
這次CASP14比賽,DeepMind 的AlphaFold團隊,實現超過90 GDT(Global Distance Test)[5]的理想分數,超出所有人的想像,就像當年AlphaGo贏了圍棋棋王,全世界在一夕之間震驚於AI的突破,今年AlphaFold 2的優異表現,讓這個50年來一直困擾生物學家的問題獲得一個強而有力的解決方案。AlphaFold 2方法的細節可能要等一段時間才會發表,如果承襲之前AlphaFold的策略,先蒐集目標蛋白質(target protein)的相似序列來進行多序列排列(multiple sequence alignment),進而得到兩個胺基酸的共演化(coevolution)[6]資訊來推估彼此在空間上的距離,AlphaFold 2將會有同樣的侷限,也就是如果目標蛋白質沒有太多相似序列,預測準確度會受到影響。一旦蛋白質預測的準確度能達到與實驗方法(例如:X光繞射和冷凍電子顯微鏡)所得之結構有超過90 GDT的一致性,很多需要蛋白質結構才能往下研究的問題,例如分子嵌合(molecular docking)[7],就有機會擴大規模的進行。
AI的解決方案無法完全取代傳統的實驗方法,同時,計算領域也還需要更多實驗方法產生的結構,將其納入訓練資料集,進一步提升預測方法的準確度;我們預期AI未來能進一步挑戰更多重要的計算問題,例如:蛋白質和小分子的嵌合,或是預測胺基酸突變對蛋白質結構與功能的影響,這將對藥物篩選、人類遺傳疾病研究、癌症研究與用藥預測等應用,產生劇烈且莫大的影響。
註釋與參考資料:
[1] 編註:理解生命科學的第一個密碼是DNA,第二個是轉錄(從DNA合成出mRNA的過程),第三個是轉譯(從mRNA合成出蛋白質的過程)。
[2] Shaw, David E., et al. (2010)“Atomic-level characterization of the structural dynamics of proteins.”Science 330.6002: 341-346.
[3] 編註:CASP是預測蛋白質3D結構的國際比賽,請參考〈14th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction〉。
[4] 編註:梯度下降法是一種常用的最佳化的方法,是一步一步緩慢靠近目標,最後找到非常接近目標的函數。延伸閱讀資料:吳宏毅老師的ML Lecture 1: Regression - Case Study。
[5] 編註:比較蛋白質結構的預測結果和實驗方法確定的結構,得到兩者相似的程度即為GDT得分,得分越高代表預測越準確。
[6] 編註:此文中提到的共演化,指的是胺基酸之間因為在三維空間的交互作用,雙方產生相對應改變的演化過程。
[7] 編註:分子嵌合是指研究兩個分子結合時,化學鍵結的改變、結合位點與方向等。
版權聲明
本文歡迎媒體轉載使用,惟需附上資料來源,請註明新興科技媒體中心。
若有採訪需求或其他合作事宜,請聯絡媒體公關:
曾雨涵
02-3366-3366#55925