當前,大數據與人工智能已滲透到各個科研與產業(yè)領域。大數據在生物醫(yī)學領域被重新定義為“生物醫(yī)學大數據”、“健康醫(yī)療大數據”以及分子生物學層面的“多組學大數據”等。然而,生物醫(yī)學大數據的核心是解析、預測更多的數據, 從而可以處理與個體疾病表型相關的所有數據,并最終明確各因素的相關性和混雜性。因此,在當前大數據、人工智能和高性能計算逐漸融合的趨勢下,設計與實現(xiàn)高性能的數據解讀學習模型、算法與軟件,是逾越生命信息學“數據鴻溝”的主要手段。
針對癌癥基因組學、宏基因組學,特別是基于下一代高通量測序的“精準醫(yī)學”數據解讀算法與軟件技術,牛北方博士已在高性能計算數據解讀方面取得了有一定影響力的學術及應用研究成果。近日,轉化醫(yī)學網有幸邀請到牛北方博士接受專訪,以下為專訪內容:
鑄就科研之路
牛北方博士,您是如何踏入高性能計算與生物信息學的交叉研究領域中的?
基于對代碼編程的濃厚興趣,我考取了中國科學院計算機網絡信息中心的研究生并得以提前攻讀計算機軟件與理論博士學位。在攻讀博士學位期間,我非常幸運的師從我國高性能計算領域的知名專家——遲學斌研究員。隨著研究課題的開展,有幸參與的中國國家網格-生物信息學網格項目經歷,給了我短暫師從中國生物信息學第一人——陳潤生院士的機會,使我接觸到了生物信息學這門令人著迷的學科,從此踏入了高性能計算與生物信息學的交叉研究領域。非常感謝兩位恩師的教誨與指導,讓我受益終身。
2012年,結束美國加州大學圣迭戈博士后研究后,牛北方博士受邀應聘于美國圣路易斯華盛頓大學醫(yī)學院麥道基因組研究所,參與美國癌癥基因組圖譜計劃(TCGA),請您簡單介紹一下您在TCGA項目中取得的一些成果。
在美國TCGA項目中,我獲得了與基因組醫(yī)學領域國際著名科學家合作的機會,參與了美國TCGA及國際癌癥基因組聯(lián)盟(ICGC)多個癌種的大規(guī)模癌癥基因組數據分析項目。這期間,帶領生物信息團隊,率先分析了基于高通量測序數據的癌變基因組多子克隆結構問題,設計并研發(fā)了癌癥顯著突變基因識別算法及其軟件系統(tǒng)MuSiC2。該方法被成功應用于12種3000多例癌癥患者的高通量測序數據,成功識別出127個顯著突變癌癥基因并大多被濕實驗驗證(Nature, 2013)。MuSiC2軟件也被成功應用于美國TCGA胃癌分子特征分析(Nature, 2014)和美國 TCGA 泛癌基因組分子分型的工作(Cell, 2014),并獲得 2015 年美國十大臨床研究成就獎。隨后,我們和美國布朗大學的Ben J. Raphael教授合作,將癌癥罕見體細胞突變映射到二維網絡模型,研發(fā)了HotNet2軟件系統(tǒng)(Nature Genetics, 2015);后又基于蛋白質三維空間結構數據,成功研發(fā)了癌突變位點和藥物位點空間整合分析的軟件系統(tǒng)HotSpot3D(Nature Genetics, 2016)。美國國家癌癥研究院(NCI)癌癥電鏡中心主任Jacqueline Milne教授對這項工作進行了特別評述,他評價道:“HotSpot3D可以快速篩選癌癥驅動突變,并指導FDA已經批準藥物的重定位”。上述系列研究成果也得到知名公共媒體的廣泛關注,美國主流媒體華爾街日報、布隆伯格新聞評論和科學日報等都以不同篇幅進行過報道。
作為高性能計算技術與生物信息學交叉研究領域的專家,您認為高性能計算技術對于精準腫瘤學(Precision Oncology)研究的價值主要體現(xiàn)在哪里?在籌建面向數據和計算整合的癌癥組學數據挖掘體系過程中,有哪些技術難題有待突破?
在精準腫瘤學領域,人們從腫瘤基因組測序數據獲得的有價值信息仍然十分有限,試圖發(fā)現(xiàn)的腫瘤驅動基因突變不到基因組變異的2%,因此需要獲得更多有價值的信息。而高性能計算技術可以解決超大規(guī)模數據的快速、準確解讀帶來的新挑戰(zhàn),為未來的腫瘤發(fā)病機制研究和臨床應用奠定基礎,將產生巨大的產業(yè)價值和新的產業(yè)鏈。作為生物信息學分支的腫瘤基因組信息學,在精準腫瘤學研究中具有核心的價值和地位。一個合理的預測是,生物信息學在精準醫(yī)療中的應用或將引爆生命科學研究的新變革。
在籌建面向數據和計算整合的癌癥組學數據挖掘體系過程中,仍然存在許多技術壁壘。首先,生物數據尤其是多組學數據,其規(guī)模大、種類多、樣本量小,如何在原有統(tǒng)計學基礎上研究數據、高效的存儲大規(guī)模數據、提高數據的處理速度等都是目前研究的熱點和問題的關鍵,開發(fā)及優(yōu)化針對新測序技術數據挖掘的大規(guī)模數據處理軟件非常有必要。其次,目前尚缺乏針對中國特有的癌癥樣本二級數據庫。我國亟需構建面向中國癌癥樣本的基因組、轉錄組、蛋白質組、臨床醫(yī)療數據等在內的二級數據庫。最后,目前多組學數據處理流程繁雜且不統(tǒng)一,如何簡化分析流程、提高分析速度、建立通用的數據解析流程也是亟待解決的問題。因此,急需研發(fā)高性能數據分析的工作流軟件系統(tǒng),以簡化計算流程,助力國家精準醫(yī)學計劃產生的大規(guī)模數據分析任務。
從科研者到創(chuàng)業(yè)者
牛北方博士,您開發(fā)了MSIsensor軟件系統(tǒng),并被成功應用于FDA首個批準的腫瘤多基因檢測大Panel——MSK-IMPACT中,您如何看待中國腫瘤大Panel?
我和同事首次提出并成功解決了基于 NGS 的基因組微衛(wèi)星不穩(wěn)定性的檢測問題,帶領團隊研發(fā)了MSI狀態(tài)探測軟件系統(tǒng)MSIsensor(Bioinformatics, 2014),其性能優(yōu)于當前臨床病理檢測方法,為微衛(wèi)星位點識別提供了先進的計算手段。2017年11月,美國FDA批準了美國紀念斯隆凱特琳癌癥中心(MSKCC)的基于二代測序技術的多基因檢測分析產品MSK-IMPACT?,這是FDA首次并非針對特定基因的特定位點,而是基于整個Panel及相應的技術平臺進行審批,是精準醫(yī)學發(fā)展道路上的一次重要跨越。這也是美國FDA批準的首款不依據腫瘤來源,而是依據生物標志物進行區(qū)分的檢測產品。另外,F(xiàn)DA對MSK-IMPACT?授權的另外一個重要應用便是MSI檢測,其MSI檢測就是使用我研發(fā)的軟件系統(tǒng)MSIsensor。經過多年的精心維護與功能改進,MSIsensor檢測系統(tǒng)已成為當前該領域的核心方法,在國際上被多家科研單位、醫(yī)療機構和公司廣泛使用。
目前而言,美國FDA于2017、2018年連續(xù)批準了MSK和Foundation Medicine兩款大Panel檢測產品。令人欣慰的是,國內部分企業(yè)已經走在開發(fā)腫瘤大Panel產品的前沿。個人認為,國內腫瘤大Panel的產品應該踏實,穩(wěn)步推進,徹底理解并借鑒FDA批準的兩款大Panel產品的設計思路。當然,作為一名科技工作者,我將與其它科研人員一起,踐行“健康中國”理念,為實現(xiàn)大Panel在我國行業(yè)規(guī)范標準的建立貢獻自己的力量。
您在美國進修了博士后,后又在美國圣路易斯華盛頓大學做研究員,是何種情懷促使您選擇回國發(fā)展?
2015年初,美國啟動精準醫(yī)療計劃,隨后的3月中國科技部舉辦首屆“國家精準醫(yī)療戰(zhàn)略專家會議”,啟動中國版“精準醫(yī)療計劃”。精準醫(yī)療計劃離不開大數據、基因檢測技術、高性能計算技術……中國亟需各種復合型高科技人才。與此同時,數據安全日益重要,能否守住中國人基因數據,能否培養(yǎng)、引回國際一流的生物信息分析人才,或許將成為我國精準醫(yī)療計劃成功的關鍵。另外,由于地域差異,美國腫瘤基因圖譜并不能完全適用于中國人群,中國亟需構建中國腫瘤基因圖譜計劃。
祖國日益強大,國家是科研人員最強大的后盾。眾所周知,多年前,我國的高性能計算并行機,連核心CPU都是國外生產的?,F(xiàn)如今,我們已經擁有了完全自主生產的超級計算機,能夠最大程度的保障科技成果落地及轉化。相信我國的高性能計算、大數據技術能讓科學研究走得更遠,不僅局限在醫(yī)療行業(yè),而且能夠在國民經濟的各個行業(yè)中都將發(fā)揮更大的作用。
另外,中國是人口大國,也是癌癥大國,對于一名科研工作者而言,利用自己的微薄力量為中國腫瘤事業(yè)做貢獻,某種層面上也是為全球科研在做貢獻。如果不能將自身科研成果應用于人類健康,似乎自身的科研價值就沒有完全體現(xiàn)。因此,我選擇回國,投身到國家生物信息學與高性能計算技術交叉領域的研究中,也是情理之中。
2018年,您受邀加盟求臻醫(yī)學(北京)有限公司(以下簡稱“求臻醫(yī)學”)擔任首席信息官一職,請您分享下您的心路歷程。
選擇加入求臻醫(yī)學,不僅僅是由于某些理念“不謀而合”,研究方向完全匹配,更多是因為我在求臻醫(yī)學看到了“中國腫瘤大Panel的希望”。隨著自己對腫瘤認識的逐步加深,我開始重新理解精準醫(yī)療領域。目前,腫瘤精準醫(yī)療領域的一大痛點在于數據分析缺乏標準化。為早日實現(xiàn)腫瘤基因組大數據的標準化整合、共享和高效利用,推動科學研究和生物醫(yī)藥產業(yè)的協(xié)同發(fā)展。2018年,我受邀加入求臻醫(yī)學,參與中國腫瘤圖譜計劃項目,推動泛腫瘤大Panel基因檢測的標準化。
探索科技創(chuàng)新 致力醫(yī)學求臻
作為求臻醫(yī)學首席信息官,您認為求臻醫(yī)學在精準腫瘤學領域有哪些獨特優(yōu)勢?
團隊優(yōu)勢
求臻醫(yī)學聯(lián)合創(chuàng)始人、首席科學家李蔚教授來自美國三大基因組測序中心之一的貝勒醫(yī)學院,李蔚教授和我都參與過TCGA 泛癌種的分子分型工作,有著多年的腫瘤基因組數據分析工作和項目經驗,為求臻醫(yī)學精準腫瘤學檢測產品的研發(fā)提供了一定的人才優(yōu)勢。求臻醫(yī)學創(chuàng)立伊始,便匯聚高科技行業(yè)團隊,以強有力的高素質人才支撐加速鍛造科技創(chuàng)新凝聚力,其企業(yè)運營管理經驗、技術、人才儲備,在國內的基因檢測產業(yè)界頗具特色。
技術優(yōu)勢
求臻醫(yī)學與國內外科研團隊合作成功研發(fā)了一系列擁有自主知識產權的分析軟件,例如用于RNA-seq數據分析的RseQC,用于甲基化分析的BSMAP、MOABS、Canyons,用于MSI檢測的MSIsensor、ChosenDeepMSI等,尤其在腫瘤多基因檢測大Panel方面獨具優(yōu)勢。
求臻醫(yī)學的腫瘤大Panel產品——ChosenOne599?充分學習了FDA批準的兩款產品的研發(fā)思路,是基于NGS平臺、IHC及ddPCR平臺的最新一代檢測產品,涉及腫瘤用藥、預后及發(fā)生發(fā)展相關的599個基因。近日,此產品獲得了中關村及北京市新技術新產品(服務)的認證,這是政府層面對求臻醫(yī)學產品和技術的認可。求臻醫(yī)學的ChosenOne599?大Panel在信息學分析具有如下新特點:
- 變異檢測方面:ChosenOne599?大Panel變異檢測結合TCGA標準流程和中國人變異基線特點定制,對每一個變異位點采用多個公共檢測軟件,并結合自主知識產權的變異檢測軟件ChosenBassovac進行打分,后續(xù)采用機器學習模型結合TCGA大規(guī)模癌突變數據對變異位點的顯著性進行智能化評估,不同于常用的VAF及人群頻率等閾值過濾策略,使變異位點檢測更準確的同時,得到位點的顯著性評估;
- TMB指標方面:除報告常規(guī)TMB值之外,基于自主知識產權的ChosenHotSpot算法,提出了一個三維立體的TMB顯著性指標:3dTMB,該指標可以綜合評估已知功能位點和未知功能位點、靶向藥物等之間的相互關系及顯著性,以及發(fā)現(xiàn)更多的靶向治療藥物嘗試點,提高癌癥患者的生存率;
- MSI檢測方面:MSI檢測采用機器學習模型新算法,測試性能顯示新算法優(yōu)于原來的MSIsensor,檢測速度從原來分析一個全外顯子組樣本耗時30分鐘,降低至100秒,大大提高了MSI的檢測效率,可以推廣到更多的定制化基因檢測Panel、ctDNA及全外顯子組、全基因組數據,具有更加廣闊的臨床應用前景。
另外,在大數據處理和流程封裝方面,求臻醫(yī)學采用了目前具有優(yōu)勢的Docker技術搭建Spark服務器集群,為醫(yī)院等下游客戶提供一站式的生物信息學解決方案,從而推動生物信息標準化流程的建立。
求臻醫(yī)學基于全新的生物信息學分析和遺傳咨詢解讀的標準化流程建立規(guī)范化腫瘤圖譜,同時基于ChosenOne599?大Panel產品建設中國人群腫瘤數據庫,探索開發(fā)出一套國人腫瘤數據共享及高效利用的管理機制,為我國科技創(chuàng)新和經濟社會發(fā)展提供物質保障和服務支撐。
開放共贏的大格局
求臻醫(yī)學的創(chuàng)始人團隊具有開放共贏、致力于共同譜寫中國精準醫(yī)學新篇章的思想和開放大格局。求臻醫(yī)學不僅在核心檢測產品ChosenOne599?大Panel的信息學分析上具有獨特、新穎的思路,同時還在研發(fā)過程中產出一批可以為整個國內基因檢測行業(yè)開放使用的信息分析系統(tǒng),求臻醫(yī)學在不斷突破技術的“天花板”。
近來,求臻醫(yī)學推出了新的基于機器學習模型的MSI智能檢測算法ChosenDeepMSI。基于此新的智能算法,求臻醫(yī)學可以為任何檢測公司、任意大小的基因檢測Panel提供其獨有的MSI檢測訓練模型服務。換而言之,我們可以為任何基因個數的檢測Panel定制MSI檢測模型。另外,ChosenDeepMSI近期也授權美國國家癌癥研究院的GDC項目組進行系統(tǒng)全面的測試。這些獨特的技術優(yōu)勢,求臻醫(yī)學都將無償的提供給國家各種類型的生物醫(yī)學項目,為國家精準腫瘤學數據分析貢獻自己的力量。
最后,牛北方博士表示,他作為主要作者研發(fā)的幾個軟件系統(tǒng)在癌癥基因檢測領域應用廣泛,將繼續(xù)研發(fā)能夠解決精準腫瘤學臨床實際問題的檢測信息系統(tǒng)及計算支撐體系,他將憑借自己在高性能計算領域內多年的腫瘤基因組數據分析工作和項目經驗,追求求臻出品,必然是精品的思路,幫助求臻醫(yī)學建立世界一流的研發(fā)團隊,實現(xiàn)關鍵核心技術自主可控。

牛北方博士個人簡介
牛北方,博士,中科院計算機網絡信息中心研究員,博士生導師,中國科學院大學崗位教授,求臻醫(yī)學首席信息官。主要從事高性能計算與生物信息學研究,特別是基于下一代高通量測序(NGS)的腫瘤“精準醫(yī)學”數據處理算法與軟件技術。迄今發(fā)表同行評審論文30余篇,包括Nature、Nature Genetics等期刊,總被引用近10000次,ESI高被引(1%)論文10篇,其中多項研究成果被媒體報道。是MSIsensor、MuSiC/MuSiC2、HotSpot3D、CD-HIT系列等流行癌癥基因檢測軟件的主要作者。其中的MSIsensor檢測系統(tǒng)已作為該領域的核心方法,在國際上被多家科研單位、醫(yī)療機構和公司廣泛使用,并被成功應用于FDA批準的首個基于NGS的癌癥多基因檢測試劑盒(MSK-IMPACT)。主持多項國家自然科學基金面上項目、國家重點研發(fā)計劃課題、中科院信息化專項課題等。目前擔任中國運籌學會計算生物學分會理事,中國計算機學會高性能計算專委與生物信息學專委委員等職,曾為美國癌癥基因組圖譜計劃(TCGA)多個癌種基因組數據分析工作組成員,國際癌癥基因組聯(lián)盟(ICGC)泛癌種基因組數據分析工作組(PCAWG)成員。