生物(wù)醫(yī)學(xué)資訊界的 ChatGPT ?新(xīn)的機器算法 CLEAN 提供酶功能(néng)更準确的預測!

92500當前位置:首頁(yè)  /   新(xīn)聞資訊  /  

酶有(yǒu)多(duō)重要呢(ne)?它是一種生物(wù)催化劑,在生命體(tǐ)系中(zhōng)扮演着關鍵的角色,控制和調節各種代謝(xiè)途徑,保障它們高效工(gōng)作(zuò)。許多(duō)研究酶的科(kē)學(xué)家,都希望把它的功能(néng)改造得更好,實現高效能(néng)、高穩定性、更優質(zhì)的催化劑。本次,伊利諾伊大學(xué)香槟分(fēn)校化學(xué)和生物(wù)分(fēn)子工(gōng)程 ( Carl R. Woese Institute for Genomic Biology at Illinois ) 趙趙惠民(mín)教授 ( Huimin Zhao )團隊獨辟蹊徑,希望能(néng)預測酶的功能(néng)。

對于酶功能(néng)的注釋是一項基本挑戰,已經開發了許多(duō)計算工(gōng)具(jù)。然而,這些工(gōng)具(jù)大多(duō)無法準确預測功能(néng)注釋,例如酶的 EC ( enzyme commission, EC ) 編号,是以每種酶所催化的化學(xué)反應為(wèi)分(fēn)類基礎,用(yòng)于研究較少的蛋白質(zhì)或具(jù)有(yǒu)以前未表征的功能(néng)或多(duō)種活動的蛋白質(zhì)。如果能(néng)更準确的預測酶,将是一項偉大的革新(xīn)。

研究人員在《 Science  》上發表他(tā)們的發現,并已于 3 月 31 日在線(xiàn)提供  CLEAN 公(gōng)開使用(yòng)。伊利諾伊州 Carl R. Woese 基因組生物(wù)學(xué)研究所的研究團隊表示,随着基因組學(xué)的進步,許多(duō)酶已被鑒定和定序,但科(kē)學(xué)家們對這些酶的作(zuò)用(yòng)知之甚少或一無所知。許多(duō)計算工(gōng)具(jù)試圖預測酶的功能(néng),通常是試圖透過将查詢的序列與已知酶的目錄進行比較,并找到相似的序列來分(fēn)配一個酶編号,也就是一個 ID 代碼,指示酶催化的反應類型。然而,這些工(gōng)具(jù)不适用(yòng)于研究較少或未表征的酶,或是執行多(duō)項工(gōng)作(zuò)的酶。

一種新(xīn)的 AI 工(gōng)具(jù)可(kě)以根據酶的氨基酸序列預測酶的功能(néng),即使這個酶未經研究或知之甚少。研究人員表示,這款名(míng)為(wèi)“啓用(yòng)對比學(xué)習的酶注釋(contrastive learning–enabled enzyme annotation, CLEAN)”的機器學(xué)習算法,在準确性、可(kě)靠性和靈敏度方面優于領先的最先進工(gōng)具(jù),有(yǒu)助于對酶及其功能(néng)的了解,并有(yǒu)利于基因組學(xué)、化學(xué)、工(gōng)業材料、醫(yī)學(xué)、制藥等領域的研究。

CLEAN 機器學(xué)習算法,與最先進的工(gōng)具(jù) BLASTp 相比,它可(kě)以将 EC 編号分(fēn)配給具(jù)有(yǒu)更高準确性、可(kě)靠性和靈敏度的酶。對比學(xué)習框架使 CLEAN 能(néng)夠準确地注釋未充分(fēn)研究的酶、糾正錯誤标記的酶,以及識别具(jù)有(yǒu)兩個或更多(duō) EC 數字的混雜酶。團隊透過系統的模拟計算功能(néng)和體(tǐ)外實驗證明,該工(gōng)具(jù)将能(néng)夠被廣泛用(yòng)于預測未表征酶的功能(néng),從而推動許多(duō)領域的發展,例如基因組學(xué)、合成生物(wù)學(xué)和生物(wù)催化。

研究負責人趙惠民(mín)教授說:“就像 ChatGPT 使用(yòng)書面語言的數據來建立預測文(wén)字一樣,我們正在利用(yòng)蛋白質(zhì)的語言來預測它們的活動,因為(wèi)幾乎每個研究人員在處理(lǐ)新(xīn)的蛋白質(zhì)序列時,都想立即知道蛋白質(zhì)的作(zuò)用(yòng)。本團隊不是第一個使用(yòng) AI 工(gōng)具(jù)來預測酶 EC 編号的人,但是首個使用(yòng)這種對比學(xué)習的新(xīn)深度學(xué)習算法來預測酶功能(néng)的人。這種算法比 AI 效果更好。雖然不能(néng)保證每個産(chǎn)品都可(kě)以被準确預測,但可(kě)以獲得比其他(tā)兩種或其他(tā)三種方法更高的準确率。”此外,在為(wèi)任何應用(yòng)(生物(wù)學(xué)、醫(yī)學(xué)、工(gōng)業)制造化學(xué)品時,該工(gōng)具(jù)将幫助研究人員快速确定酶的功用(yòng)。
研究團隊正在為(wèi)尋找表征酶或确定酶是否可(kě)以催化所需反應的其他(tā)研究人員提供在線(xiàn)訪問 CLEAN 的途徑。希望這個工(gōng)具(jù)能(néng)被廣大研究界廣泛使用(yòng),通過網絡界面,研究人員隻需在搜索框中(zhōng)輸入序列,就像搜索引擎一樣,就可(kě)以看到結果。該小(xiǎo)組計劃擴展 CLEAN 背後的 AI,以表征其他(tā)蛋白質(zhì),例如結合蛋白,并進一步開發機器學(xué)習算法,以利用(yòng)戶搜尋所需的反應,而 AI 會指出适合該任務(wù)的酶。

趙教授表示:“有(yǒu)很(hěn)多(duō)未表征的結合蛋白,例如受體(tǐ)和轉錄因子,我們也想預測它們的功能(néng)。我們想預測所有(yǒu)蛋白質(zhì)的功能(néng),以便我們能(néng)夠了解細胞所具(jù)有(yǒu)的所有(yǒu)蛋白質(zhì),并更好地研究或設計整個細胞以用(yòng)于生物(wù)技(jì )術或生物(wù)醫(yī)學(xué)應用(yòng)。”

參考資料:1. https://www.science.org/doi/10.1126/science.adf2465

評論

登錄後才可(kě)以留言!
相關文(wén)章