數(shù)字報
客戶端
公眾號
《Cell》發(fā)表中山大學(xué)、阿里云聯(lián)合研究成果:AI發(fā)現(xiàn)超16萬種RNA病毒
2024-10-11 10:00:47
來源:科技日報  作者: 崔爽

記者10月10日獲悉,國際學(xué)術(shù)期刊《Cell》(《細胞》)發(fā)表中山大學(xué)與阿里云合作的科研成果,研究團隊利用云計算與人工智能(AI)技術(shù)發(fā)現(xiàn)了180個超群、16萬余種全新RNA病毒,是已知病毒種類的近30倍,大幅提升業(yè)界對RNA病毒多樣性和病毒演化歷史的認知。

該研究成果提出了一種基于深度學(xué)習(xí)的RNA病毒發(fā)現(xiàn)方法,是深度學(xué)習(xí)算法在病毒發(fā)現(xiàn)領(lǐng)域的重要進展,為病毒學(xué)研究開創(chuàng)全新范式。

病毒與人類健康密切相關(guān),但人類已知已確認的病毒種類僅有5000余種,是病毒世界的冰山一角。傳統(tǒng)RNA病毒鑒定方法高度依賴序列同源性比對,即通過比較未知病毒與已知病毒的序列相似性來進行識別。然而,RNA病毒種類繁多且高度分化,傳統(tǒng)方法難以捕捉缺乏同源性或同源性極低的“暗物質(zhì)病毒”,新病毒發(fā)現(xiàn)的效率較低。

AI與病毒學(xué)研究的結(jié)合正在突破這一難題。本篇論文提出了全新的深度學(xué)習(xí)模型“LucaProt”,它基于Transformer框架與大模型表征技術(shù),結(jié)合蛋白質(zhì)序列和內(nèi)在結(jié)構(gòu)性特征,在獨立的測試數(shù)據(jù)集上表現(xiàn)優(yōu)異,具有極高準確性(假陽性率僅為0.014%)和特異性(假陰性率為1.72%)。

據(jù)介紹,研究團隊對來自全球生物環(huán)境樣本的10487份數(shù)據(jù)進行病毒挖掘,發(fā)現(xiàn)了513134條病毒基因組,代表161979個潛在病毒種及180個RNA病毒超群。使RNA病毒超群數(shù)量擴容約9倍,病毒種類增加約30倍,其中23個超群無法通過序列同源方法識別,被稱為病毒圈的“暗物質(zhì)”。

該論文還揭示多個病毒學(xué)領(lǐng)域新發(fā)現(xiàn):發(fā)現(xiàn)迄今為止最長的RNA病毒基因組,長度達到47250個核苷酸;識別出超出以往認知的基因組結(jié)構(gòu),展示了RNA病毒基因組進化的靈活性;此外,在高溫的深海熱泉等極端環(huán)境中,RNA病毒依舊存在多樣性。

中山大學(xué)醫(yī)學(xué)院教授施莽表示:“在科研領(lǐng)域,AI的應(yīng)用已經(jīng)勢不可擋,通過AI方法探索科學(xué)問題已取得重要突破。這種研究范式將成為未來科學(xué)界的常態(tài),也可能成為我們認知世界的重要手段?!?/p>

該論文共同第一作者、阿里云飛天實驗室算法專家賀勇表示:“基于AI+病毒學(xué)的新研究框架刷新了人類對病毒圈的認識,這種認識的不斷完善,有助于人類對未來可能發(fā)生的大流行進行預(yù)警,以及進一步推動RNA病毒疫苗的研發(fā)?!?/p>

據(jù)悉,過去幾年,阿里云積極與國內(nèi)高校和研究機構(gòu)展開合作,在生命科學(xué)領(lǐng)域已發(fā)表核酸和蛋白質(zhì)統(tǒng)一基礎(chǔ)模型-LucaOne、RNA病毒發(fā)現(xiàn)-LucaProt、磷循環(huán)蛋白家族識別-LucaPCycle等研究成果。

(采訪對象供圖)

編輯:韓夢晨
相關(guān)閱讀:
高新視頻 更多
高新熱榜 全部本月
編輯推薦 更多

友情鏈接: 政府 高新園區(qū)合作媒體

Copyright 1999-2024 中國高新網(wǎng)chinahightech.comAll Rights Reserved.京ICP備14033264號-5

電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報》社有限責(zé)任公司