隨著武漢新型冠狀病毒肺炎的爆發(fā),全國確診病例不斷攀升的情況下,使得一線醫(yī)療人員的工作面臨巨大挑戰(zhàn)。截止到2月4日(下午17時(shí)),中國(含港澳臺)確診病例20533,疑似病例23214,治愈病例680,死亡病例426。為了加速新型肺炎疫苗、新藥研發(fā)和病例的確診速度,阿里達(dá)摩院宣布向全球公共科研機(jī)構(gòu)免費(fèi)開放全新AI算法;而百度研究院宣布,向各基因檢測機(jī)構(gòu)、防疫中心免費(fèi)開放線性時(shí)間算法LinearFold以及世界上現(xiàn)有最快的RNA結(jié)構(gòu)預(yù)測網(wǎng)站。
現(xiàn)階段,中國疾病控制中心已成功分離毒株,正在爭分奪秒地進(jìn)行疫苗和藥物研發(fā)工作。研發(fā)期間,需要進(jìn)行大量的數(shù)據(jù)分析、大規(guī)模文獻(xiàn)篩選和科學(xué)超算工作。科研人員通過阿里提供的強(qiáng)大AI算法,將極大地縮短病毒基因測序、新藥研發(fā)、蛋白篩選等工作,幫助科研機(jī)構(gòu)縮短研發(fā)周期。此前,阿里就曾與基因公司聯(lián)合打破世界紀(jì)錄:僅用15分鐘,便可完成高精度的個(gè)人全基因組測序。在過去,科學(xué)界普遍需要120個(gè)小時(shí)才能完成類似流程。
目前,浙江省疾控中心已上線自動化全基因組檢測分析平臺。該平臺由浙江省疾控中心、阿里巴巴達(dá)摩院、杰毅生物聯(lián)合研發(fā),為浙江省疾控在新型冠狀病毒疫情防控上提供了全自動建庫和分布式計(jì)算分析能力。通過阿里達(dá)摩院研發(fā)的AI算法,可將原來數(shù)小時(shí)的疑似病例基因分析縮短至半小時(shí),大幅縮短確診時(shí)間,并能精準(zhǔn)檢測出病毒的變異情況。
該平臺采用不同于核酸檢測方法,而是以一項(xiàng)全基因組檢測技術(shù),對疑似病例的病毒樣本進(jìn)行全基因組序列分析比對,能夠有效防止病毒變異產(chǎn)生的漏檢,大幅提高疑似病例的確診速度和準(zhǔn)確率。
通常,主流檢測手段為核酸檢測方法,原理是比對疑似病例的核酸構(gòu)成跟病毒的核酸構(gòu)成,完全對上就可確診。這項(xiàng)技術(shù)相對成熟,但由于新型冠狀病毒生物安全等級較高,為防止泄漏和操作人員感染,大量自動化過程改由純手工操作,導(dǎo)致實(shí)際檢測時(shí)間相對較長。
此前,湖北省疾病控制中心已成功完成新型冠狀病毒分離與全基因組測序工作,獲得病毒全基因組序列全長29847bp,是基因組序列最長的病毒之一。而核酸檢測方法,只能檢測到病毒基因的局部。由于病毒存在變異可能,因此對于整個(gè)基因序列來說,核酸檢測變的非常棘手,一旦病毒發(fā)生變異,就可能出現(xiàn)漏檢的情況。
阿里達(dá)摩院表示,此次研發(fā)的自動化全基因組檢測分析平臺屬于高通量測序,在AI算法的加持下,彌補(bǔ)了此前處理和數(shù)據(jù)分析費(fèi)時(shí)費(fèi)力的缺點(diǎn)。在整個(gè)平臺中,杰毅生物開發(fā)了全自動化高通量測序建庫儀,把常規(guī)需要12小時(shí)的工作縮短到2個(gè)小時(shí)。
每次測序過程中產(chǎn)生的海量基因數(shù)據(jù),則交由達(dá)摩院AI算法進(jìn)行分析。針對新型冠狀病毒基因進(jìn)行特征分析,達(dá)摩院團(tuán)隊(duì)決定采用分布式設(shè)計(jì)的分析算法,并基于蛋白質(zhì)數(shù)據(jù)庫(PDB)等公共數(shù)據(jù)集的數(shù)據(jù)進(jìn)行算法的優(yōu)化訓(xùn)練。
達(dá)摩院算法專家顧斐表示,在基因序列對比過程中,他們對算法增加了分布式設(shè)計(jì),病毒基因分析的速度由數(shù)小時(shí)縮短到半小時(shí),從而大幅提高疑似病例的確診速度。同時(shí),由于采用分布式算法,病毒拼接的速度由30分鐘-1小時(shí)縮短到15-30分鐘,能幫助醫(yī)護(hù)人員檢測到病毒全貌,變異的病毒也能精準(zhǔn)檢測,大幅提升確診效率。
病毒序列拼接完成后,通過設(shè)計(jì)BiLSTM+DNN的方式訓(xùn)練模型,可以在15-30分鐘內(nèi)預(yù)測病毒蛋白二級結(jié)構(gòu)。同時(shí),達(dá)摩院還在研究基于序列的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測模型以及藥物篩選模型,為藥物研發(fā)貢獻(xiàn)技術(shù)能力。
此外,百度研究院也宣布將向各基因檢測機(jī)構(gòu)、防疫中心免費(fèi)開放線性時(shí)間算法LinearFold,以及世界上最快的RNA結(jié)構(gòu)預(yù)測網(wǎng)站,以提升新型冠狀病毒RNA空間結(jié)構(gòu)預(yù)測速度。
據(jù)百度研究院透露,LinearFold算法可將此次新型冠狀病毒的全基因組二級結(jié)構(gòu)預(yù)測從55分鐘縮短至27秒,提速120倍,節(jié)省了兩個(gè)數(shù)量級的等待時(shí)間。相較于經(jīng)典算法,現(xiàn)在只需不到半分鐘就可以拿到病毒的結(jié)構(gòu)資料,提升基因檢測、疫苗研發(fā)等科研中心的工作效率。
此次引起武漢肺炎的新型冠狀病毒(2019-nCoV)與“非典”病毒、艾滋病毒、埃博拉病毒一樣都屬于RNA病毒,其單鏈結(jié)構(gòu)導(dǎo)致病毒更容易變異、不易開發(fā)疫苗。RNA序列有豐富的空間結(jié)構(gòu),而這些結(jié)構(gòu)能決定 RNA 的功能,進(jìn)而幫助設(shè)計(jì)分子藥物和分子檢測儀。
傳統(tǒng)上,RNA二級結(jié)構(gòu)預(yù)測需要三次方時(shí)間復(fù)雜度的算法。也就是說,如果序列長度翻一倍的話,就要付出8 倍的計(jì)算時(shí)間,這對于 RNA 病毒基因組這樣的超長序列(例如艾滋病毒有約1萬個(gè)堿基,埃博拉病毒有約2萬個(gè)堿基)需要很長的等待時(shí)間。而冠狀病毒(包括非典病毒和這次的新冠病毒)的基因組又是所有 RNA 病毒里最長的,長達(dá) 3 萬個(gè)堿基,最快的經(jīng)典算法也需要 55 分鐘。
同時(shí),百度開放LinearFold網(wǎng)站給全世界科學(xué)家免費(fèi)使用,據(jù)稱,該網(wǎng)站在RNA結(jié)構(gòu)預(yù)測速度和序列長度方面,都具有很大優(yōu)勢,在預(yù)測速度上無出其右,而且能處理的最長序列長度達(dá)10萬堿基,能滿足對RNA病毒全基因組結(jié)構(gòu)預(yù)測的要求。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 加速新型冠狀病毒確診和疫苗研發(fā),阿里達(dá)摩院發(fā)布自動化AI檢測工具
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國