2016年5月6日,“2016北大CIO中國行--武漢站”活動(dòng)在武漢華中科技大學(xué)隆重舉行,作為2016年中國行活動(dòng)的第四站,本次活動(dòng)以教育科研行業(yè)的信息化與大數(shù)據(jù)應(yīng)用為背景,活動(dòng)主題為:數(shù)據(jù)共享,合作共贏。本次活動(dòng)由中國新一代IT產(chǎn)業(yè)推進(jìn)聯(lián)盟主辦,CIO時(shí)代網(wǎng)與希嘉教育承辦,北大信息化與信息管理研究中心協(xié)辦,專業(yè)云計(jì)算服務(wù)商UCloud冠名。與此同時(shí)本次活動(dòng)還得到了希嘉教育、英維克、億方云、全時(shí)等合作伙伴的支持。中科院網(wǎng)絡(luò)中心科學(xué)大數(shù)據(jù)中心常務(wù)副主任周園春分享了題為《科學(xué)大數(shù)據(jù)》的主題演講,以下為演講實(shí)錄:
各位專家下午好!非常高興能有機(jī)會(huì)跟大家交流關(guān)于科學(xué)大數(shù)據(jù)相關(guān)工作,實(shí)際上真正大數(shù)據(jù)起源也是從科研領(lǐng)域開始,大數(shù)據(jù)數(shù)字化,網(wǎng)絡(luò)化,帶動(dòng)整個(gè)數(shù)據(jù)產(chǎn)生的革命性變化,這個(gè)起源是科研研究。整個(gè)大數(shù)據(jù)現(xiàn)在互聯(lián)網(wǎng)的發(fā)展比較快,但是真正科學(xué)數(shù)據(jù)其實(shí)也能產(chǎn)生商業(yè)價(jià)值,這里面典型價(jià)格就是美國的加州氣候公司,基于氣象,天氣、降雨,地質(zhì)土壤調(diào)查等海量科學(xué)數(shù)據(jù),面向保險(xiǎn)企業(yè)和農(nóng)民提供,它本身的價(jià)值除外還有很大的商業(yè)價(jià)值。
科學(xué)“大”數(shù)據(jù)資源的特征與挑戰(zhàn)
從挑戰(zhàn)來說,科學(xué)大數(shù)據(jù)跟阿里和騰訊不一樣,首先科研人員分散,科學(xué)家自己產(chǎn)生相應(yīng)數(shù)據(jù),不像阿里是封閉的,自有產(chǎn)生,而且是集中的,這些分散如何讓大家分享這些數(shù)據(jù)。我們現(xiàn)在科學(xué)大數(shù)據(jù)里面更加明顯就是它的格式多樣,表格影像,還有視頻文獻(xiàn),包括SQL數(shù)據(jù)等等這些數(shù)據(jù),這些數(shù)據(jù)跟我們傳統(tǒng)的是有很大不一樣,因?yàn)樗懈囝愋偷亩鄻踊蛘弋悩?gòu)化。同時(shí)這些數(shù)據(jù)是相互關(guān)聯(lián),比如說拿后面提到的例子,這個(gè)可能是由某個(gè)物體,某種基因而產(chǎn)生,這個(gè)是某個(gè)屬性,某個(gè)物種,或者是跟環(huán)境相關(guān),生態(tài)數(shù)據(jù)、基因數(shù)據(jù)都是關(guān)聯(lián),導(dǎo)致你研究某一類問題都要應(yīng)用這個(gè)數(shù)據(jù)。所以這樣帶來問題是這些數(shù)據(jù)怎么關(guān)聯(lián),怎么整合,所以是共享發(fā)展的最大問題。這個(gè)是資源方面挑戰(zhàn),一個(gè)是相比其他數(shù)據(jù)資源,我們是分散,生產(chǎn)的數(shù)據(jù),而且是分散持有的,同時(shí)是格式豐富,所以最關(guān)鍵數(shù)據(jù)在哪里,它不像淘寶的數(shù)據(jù),科學(xué)數(shù)據(jù)在哪里都不知道。
科學(xué)“大”數(shù)據(jù)技術(shù)的特征與挑戰(zhàn)
技術(shù)數(shù)據(jù),比如說大數(shù)據(jù)技術(shù)存儲(chǔ),計(jì)算存儲(chǔ)分離到計(jì)算存儲(chǔ)融合,到現(xiàn)在有一些固態(tài)硬盤,包括海量的文件系統(tǒng)構(gòu)建這樣一個(gè)存儲(chǔ)發(fā)展趨勢,這是一個(gè)從存儲(chǔ)角度。從大數(shù)據(jù)管理角度,從傳統(tǒng)的關(guān)于數(shù)據(jù)庫受限于它的整個(gè)存儲(chǔ)價(jià)值,所以它對(duì)海量的數(shù)據(jù)很難做這個(gè),后面到其他的里面的模式,又保證它的原本模式,現(xiàn)在出來了新的整合型的,從大數(shù)據(jù)處理技術(shù)來說,那就是合久必分,分久必合,我們關(guān)系查詢,數(shù)組,矩陣,圖數(shù)據(jù),到現(xiàn)在某一個(gè)應(yīng)用或者是某一類應(yīng)用可能都會(huì)用到U處理,P處理,所以這個(gè)計(jì)算要整合,這是一個(gè)合久必分,分久必合的確實(shí)。大數(shù)據(jù)分析來說可以看出來傳統(tǒng)數(shù)據(jù)分析有假設(shè)驅(qū)動(dòng),數(shù)據(jù)統(tǒng)計(jì)模型,指數(shù)分布,結(jié)構(gòu)化分析。后面機(jī)器學(xué)習(xí),數(shù)據(jù)驅(qū)動(dòng),混合模型,覆蓋長尾效應(yīng),后面是類腦計(jì)算,這是它的整個(gè)流程。從這個(gè)公共的基礎(chǔ)發(fā)展來看,延伸到科學(xué)大數(shù)據(jù)管理,科學(xué)大數(shù)據(jù)有生物,物理,化學(xué),單一的無法來覆蓋,關(guān)聯(lián)中怎么來找到跨領(lǐng)域數(shù)據(jù)圍繞某個(gè)主題所有的相應(yīng)核心的,這是一個(gè)面臨的挑戰(zhàn)。從處理的挑戰(zhàn)來說一樣,那么現(xiàn)在這么多的可能搖桿處理模型,所以這些模型本身已經(jīng)存在,或者未來結(jié)合很緊,如何利用互聯(lián)網(wǎng)產(chǎn)生新的處理模型,比如說HDFS來做一些聯(lián)合,因?yàn)樗a(chǎn)生的架構(gòu)怎么跟科研領(lǐng)域做結(jié)合,這是一個(gè)很大問題。從應(yīng)用特征,現(xiàn)在淘寶也好,阿里也好,它明確的需求在哪,我希望把這個(gè)推薦,或者把我們淘寶生態(tài)系統(tǒng)做得更優(yōu),提供增值服務(wù)更加豐富,更加個(gè)性化。
科學(xué)“大”數(shù)據(jù)應(yīng)用的特征與挑戰(zhàn)
科研大數(shù)據(jù)應(yīng)用在哪里,圍繞這個(gè)數(shù)據(jù)在哪里,最后基于這個(gè)數(shù)據(jù)支持的科研發(fā)現(xiàn)又在哪里,所以這個(gè)可能跟我們傳統(tǒng)大數(shù)據(jù)應(yīng)用還有很大不一樣,正因?yàn)檫@個(gè)可能要專注于在某個(gè)領(lǐng)域,如果是要基于大數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn),在這里面要專,而且要精,而且這些領(lǐng)域不一定實(shí)現(xiàn)其他領(lǐng)域,是逐步適應(yīng)的一個(gè)框架。我們從資源、技術(shù)、應(yīng)用三個(gè)角度來探討了在科學(xué)大數(shù)據(jù)跟傳統(tǒng)的,或者跟現(xiàn)代互聯(lián)網(wǎng)大數(shù)據(jù)相同點(diǎn)或者不同點(diǎn)。
科學(xué)“大”數(shù)據(jù)相關(guān)實(shí)踐與探索
后面是我們的探索,86年開始,剛才陳處已經(jīng)講了科研信息化歷程,86年開始一直到現(xiàn)在,從2001年開始真正按照每個(gè)五年的計(jì)劃,所以十五,十一五,十二五,到后面麻煩進(jìn)行的十三五。十一五是科學(xué)數(shù)據(jù)網(wǎng)格來實(shí)現(xiàn),十二五形成這樣整體架構(gòu),整個(gè)支持大數(shù)據(jù)分析是分布式的,目前52PB和2千多臺(tái)服務(wù)器來支撐。這是我們?cè)谝粋€(gè)基礎(chǔ)環(huán)境,后面我們大概分成四個(gè)方面介紹。
1、多源異構(gòu)數(shù)據(jù)的管理、組織、集成和共享。
這些數(shù)據(jù)怎么找到,怎么共享,怎么集成。然后又同時(shí)能夠?qū)崿F(xiàn)數(shù)據(jù)整合,對(duì)外服務(wù),實(shí)際上也碰到很多問題。一個(gè)是分地的數(shù)據(jù)庫首先如何找到,找到發(fā)布在網(wǎng)上,發(fā)布完了才能找,然后發(fā)布之后這點(diǎn)有一個(gè)數(shù)據(jù),那邊有一個(gè)數(shù)據(jù),發(fā)布之后怎么集成。武漢,天津,或者是北京,都有相應(yīng)的科研機(jī)構(gòu)產(chǎn)生的數(shù)據(jù),那這些數(shù)據(jù)發(fā)布完了之后怎么去集成,怎么去做整合,最后他們之間可能相互關(guān)聯(lián),怎么提供統(tǒng)一的對(duì)外服務(wù)。
比如拿生物來說,武漢有生物的相關(guān)數(shù),他們之間可能有相互關(guān)聯(lián)的屬性,怎么實(shí)現(xiàn)單獨(dú)的整合服務(wù),所以我們形成了這樣一個(gè)總體的方案。實(shí)際上從下面來說,它本身是一個(gè)自制的,就是物理部占課題組發(fā)布,發(fā)布完了之后才有服務(wù)發(fā)現(xiàn),最后支持對(duì)外服務(wù)共享。最終每一層的技術(shù)體系有支持科研人員自動(dòng)化發(fā)布管理,集成。剛才我們說如何對(duì)現(xiàn)有數(shù)據(jù)庫進(jìn)行發(fā)布,形成這樣的一些數(shù)據(jù)。然后怎么集成,還有一個(gè)怎么去搜索,怎么去發(fā)現(xiàn)這些數(shù)據(jù),這些數(shù)據(jù)的共享情況和服務(wù)情況用相應(yīng)工具。最終我們?cè)谑宓臅r(shí)候達(dá)到這樣一個(gè)資源服務(wù)能力,部署423建庫單位,完成60TB以上關(guān)系型,文件型數(shù)據(jù)的Web化發(fā)布,累計(jì)9.44億條記錄,591.7萬個(gè)文件。這是第一個(gè)在整個(gè)分布式數(shù)據(jù)資源如何發(fā)現(xiàn)管理集成的技術(shù)體系和對(duì)外的。
責(zé)編:pingxiaoli
2. 科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系
其實(shí)在這個(gè)過程中,因?yàn)槊總€(gè)學(xué)科是不一樣的,而且它自己相關(guān)的采集的方式也不一樣,所以如何實(shí)現(xiàn)集成管理,標(biāo)準(zhǔn)規(guī)范是最關(guān)鍵的。這個(gè)標(biāo)準(zhǔn)規(guī)范包括有指導(dǎo)型,有強(qiáng)制型的,我們通過配套軟件固化到一個(gè)軟件里面,實(shí)現(xiàn)對(duì)數(shù)據(jù)的質(zhì)量的控制和數(shù)據(jù)相應(yīng)的發(fā)布和管理。這里面也是列出了我們跟標(biāo)準(zhǔn)規(guī)范的相應(yīng)對(duì)應(yīng)情況,有一些是形成了國家的標(biāo)準(zhǔn)。這是在整個(gè)分布式資源的管理發(fā)布體系,后面講到大數(shù)據(jù)的探索。第一個(gè)實(shí)際上這個(gè)問題很明顯擺在這里,比如說深圳8個(gè)月的GPS數(shù)據(jù),是960億條記錄,如果是北京或者上海更大,如果延伸長周期2年,3年,或者是5年,如果在560億記錄里面找到某一個(gè)時(shí)間段,某一個(gè)出租車的運(yùn)行軌跡,這是一個(gè)很大問題。還有一個(gè)核心問題,除了量大問題,本身這個(gè)數(shù)據(jù)有可能,原來在前年可能采集三個(gè)屬性,今年多拿一個(gè)屬性,明年多一個(gè)屬性,如何能實(shí)現(xiàn)對(duì)這些屬性剩余調(diào)整,我們現(xiàn)在提出了自己的解決方案,而且做了優(yōu)化和完善,在961條出租車數(shù)據(jù)里面,右邊圖可以看到,可以訓(xùn)練時(shí)間段,選擇出租車的編號(hào),1到2秒內(nèi)能夠把出租車運(yùn)行軌跡通過可視化的方式展示出來,如何從海量數(shù)據(jù)里面找到你所需要的這個(gè)數(shù)據(jù)。
這個(gè)數(shù)據(jù)有各種各樣的,這個(gè)數(shù)據(jù)是相互關(guān)聯(lián)。我這個(gè)物種為鳥,鳥還有它的測序,還有鳥的文章,這些信息是詳關(guān)聯(lián),如何能找到所有鳥信息整合,這就是如何管理和發(fā)現(xiàn),然后提出了這樣一套方案,這套方案我們現(xiàn)在目前對(duì)它的關(guān)聯(lián)關(guān)系一個(gè)快速管理,快速自動(dòng)化關(guān)聯(lián)建立,然后提供了16個(gè)數(shù)據(jù)服務(wù)接口,因?yàn)檫@一塊的關(guān)聯(lián)發(fā)現(xiàn),必須要基于某個(gè)領(lǐng)域的需求,它很難說我建立一套關(guān)聯(lián)適應(yīng)所有的,它帶有本體的概念,有領(lǐng)域的背景知識(shí),切入之后實(shí)現(xiàn)了這樣一套系統(tǒng)。我就研究鳥,我就通過調(diào)用你的來獲取跟鳥相關(guān)的所有信息,形成一個(gè)系統(tǒng),這是說我們微生物在整個(gè)關(guān)聯(lián)發(fā)現(xiàn)里面從哪幾個(gè)關(guān)鍵可以看出來相應(yīng)的,相互的關(guān)系。如果一搜這個(gè),就跟這個(gè)相關(guān)的文獻(xiàn)也好,數(shù)據(jù)也好,都能顯示在這里面體現(xiàn)。
另外這是一個(gè)我們?cè)谡麄€(gè)找到它多源異構(gòu)相關(guān)所有數(shù)據(jù)。第一個(gè)是快速找到,第二個(gè)是找到相關(guān)的多源異構(gòu),找到了可能還遠(yuǎn)遠(yuǎn)不夠,大數(shù)據(jù)是預(yù)測,所以找到之后能不能找到它背后的規(guī)律,這個(gè)是很關(guān)鍵的問題。如果能找到給你也沒有什么用,價(jià)值在哪里,所以價(jià)值就是后面要實(shí)現(xiàn)這些數(shù)據(jù)的分析和挖掘,提出一個(gè)預(yù)測的價(jià)值。
在微生物所的應(yīng)用
我們當(dāng)時(shí)的課題是,背景是一個(gè)要預(yù)測某個(gè)三甲醫(yī)院,7到10天內(nèi)就診病人的情況,這個(gè)時(shí)候其實(shí)也是從谷歌的那篇文章,谷歌預(yù)測流感是通過搜索,這邊我們是以微博,微信的數(shù)據(jù),加上它爆發(fā)實(shí)際的數(shù)據(jù),加上交通的數(shù)據(jù)做這樣一個(gè)分析。做這樣分析之后,我們可以看出來這是交通的數(shù)據(jù),這是微信社交網(wǎng)絡(luò),這是醫(yī)院數(shù)據(jù),這三個(gè)數(shù)據(jù)建模之后可以看到說,通過微博的數(shù)據(jù),整個(gè)趨勢差不多,微博數(shù)據(jù)比交通數(shù)據(jù)提前2到3天,交通數(shù)據(jù)會(huì)比醫(yī)院提前2到3天,因?yàn)檫@個(gè)很好理解,如果是一個(gè)社區(qū)醫(yī)院,服務(wù)的對(duì)象就是附近居民,但是北京三院是面向全國,武漢或者江西的病人,在微信、微博上有一個(gè)表達(dá),這個(gè)表達(dá)有可能是表情,也可能是一段話,但是過幾天還不舒服,可能就坐交通工具到北京去了,所以它本身有一個(gè)從常識(shí)來說有一個(gè)時(shí)間延續(xù)的過程,但是原來沒有微信,微博,沒有這個(gè)數(shù)據(jù)沒法分析,由于社交網(wǎng)絡(luò)發(fā)展導(dǎo)致有這個(gè)可能去做這個(gè)預(yù)測,這是我們最終做的一個(gè)預(yù)測,大概準(zhǔn)確率70%多。
第二個(gè)實(shí)際上我們做的這個(gè)病是狂犬病,狂犬病的傳播,除了病本身,還有跟你的溫度,跟你的經(jīng)濟(jì)條件,這個(gè)地方不通交通,它的公路就剛通,人員流動(dòng)很少,這樣給他疾病傳播帶來很大影響,所以你考慮疾病傳播不僅要考慮病本身傳播的特征,更關(guān)鍵是要跟其他的屬性,比如說環(huán)境,社會(huì)經(jīng)濟(jì)發(fā)展和交通因素做綜合分析,然后給出它一個(gè)風(fēng)險(xiǎn)的圖。它大概一天,兩天,三天之后會(huì)是怎樣預(yù)測的結(jié)果,等等,所以這是我們風(fēng)險(xiǎn)預(yù)測的一個(gè)相應(yīng)的數(shù)據(jù)。所以我說大概舉兩個(gè)例子,基于這個(gè)數(shù)據(jù)尋找規(guī)律的兩個(gè)例子。最后這個(gè)展示給用戶,所以可視化很關(guān)鍵??梢暬覀冇羞@樣一個(gè)平臺(tái),這個(gè)平臺(tái)通過簡單配置可以實(shí)現(xiàn)數(shù)據(jù)可視化,可以看出來有時(shí)候是動(dòng)態(tài)的,比如說H7N9,整個(gè)疾病的傳播過程,能夠顯示的展示出來,同一個(gè)平臺(tái)展示不同的應(yīng)用,它的效果完全是不同平臺(tái)來做的。同時(shí)這個(gè)也通過三維的方式展示它整個(gè)的一個(gè)大數(shù)據(jù)分析和預(yù)測的結(jié)果,我們可以看出來這個(gè)是可交互的,就是用戶在這里面進(jìn)行點(diǎn)擊之后,這個(gè)根據(jù)用戶的旋轉(zhuǎn)和交互發(fā)生變化,這個(gè)是我們?cè)诖髷?shù)據(jù)分析完了之后對(duì)它的結(jié)果,或者是對(duì)它分析過程的一個(gè)可視化的過程。最終把很多技術(shù)聯(lián)合在一起,面對(duì)科研領(lǐng)域。比如說遙感領(lǐng)域,我們是達(dá)到PB級(jí)的數(shù)據(jù),超過350TB遙感數(shù)據(jù),支持遙感計(jì)算模型在線分析,提供2維、3維的展示。
3. 大數(shù)據(jù)技術(shù)--大數(shù)據(jù)可視化技術(shù)
在大數(shù)據(jù)里面的探索,找到數(shù)據(jù)背后的規(guī)律,以及怎么把規(guī)律進(jìn)行可視化和分析。這一塊就是剛才提到的,就是數(shù)據(jù)共享。實(shí)際上現(xiàn)在數(shù)據(jù)共享還在,不開放的數(shù)據(jù)占開放數(shù)據(jù)的85%以上,實(shí)際上開放數(shù)據(jù)很少,開放數(shù)據(jù)很少,很多的問題,機(jī)制有各種問題。在概念上,我們?cè)谑遄隽撕芏嗵剿?。第一個(gè)探索原來在科學(xué)院是項(xiàng)目,現(xiàn)在是通過后評(píng)估,你先做,做完了之后我第二年評(píng)估你第一年的數(shù)據(jù)服務(wù)的效果,這是一種方式。但是在科研領(lǐng)域有一個(gè)很大的問題,即使這么做,科研人員不一定貢獻(xiàn)數(shù)據(jù),因科研關(guān)系到它的職稱,文章的發(fā)表,就是像論文一樣,原始創(chuàng)新成果,我們希望有一個(gè)期刊,讓它數(shù)據(jù)發(fā)表,使它有一個(gè)論文引用能夠作為他職稱評(píng)定核心的價(jià)值和核心要素之一,對(duì)它數(shù)據(jù)共享也是很大的支撐之一,也是發(fā)表相應(yīng)文章。我們做了一個(gè)期刊,現(xiàn)在有這么多的期刊發(fā)表的論文,其實(shí)這些論文基于數(shù)據(jù)發(fā)表,這些數(shù)據(jù)怎么辦,這些期刊數(shù)據(jù)存在哪里,所以我們做了一個(gè)平臺(tái),希望把現(xiàn)在期刊關(guān)聯(lián)數(shù)據(jù)放在這個(gè)地方,未來大家可以為這個(gè)數(shù)據(jù)做研究,我可以看你論文之后拿到這個(gè)數(shù)據(jù)能不能回應(yīng)你的研究成果。
4. 數(shù)據(jù)共享新模式探索
有這么多用戶,這個(gè)用戶在科研領(lǐng)域有很多的需求就是說,科學(xué)家希望處理這個(gè)數(shù)據(jù),這個(gè)數(shù)據(jù)實(shí)際上沒有太大的科研創(chuàng)新量,但是它必須要把這個(gè)加工成一個(gè)一級(jí)產(chǎn)品,基于這個(gè)產(chǎn)品再分析,前面的工作是必須做的,時(shí)間長了學(xué)生也不愿做,有這樣平臺(tái),有數(shù)據(jù),有學(xué)生,所以科研人員通過這個(gè)平臺(tái)發(fā)布需求,就是我要提交的這個(gè)產(chǎn)品,然后這個(gè)平臺(tái)里面有11萬看到之后有人定標(biāo),這樣實(shí)現(xiàn)需求供求關(guān)系共生,提升積極性。這也是豬八戒網(wǎng)最開放的,所以這個(gè)時(shí)候我是說,我們可能在整個(gè)的數(shù)據(jù)共享里面做了一些,在技術(shù)上或者平臺(tái)上做了一些探索,因?yàn)闄C(jī)制,政策,法規(guī)可能是需要,但是關(guān)于這個(gè)可能還需要一些其他的東西來做一些讓大家自愿去共享數(shù)據(jù)。
這是我今天分享的內(nèi)容,謝謝大家。