把數(shù)據(jù)存進(jìn)“銀行”有什么用?
作者:李宗聞 姜璐璐
銀行,是日常生活里必不可少的部分。
如果有一個(gè)“銀行”里放的不是金錢,而是海量的“數(shù)據(jù)”,你知道這種“銀行”有什么用嗎?
今天我們就來給大家講講“科學(xué)數(shù)據(jù)銀行”的那些事。
這個(gè)銀行里存的“錢”:科學(xué)數(shù)據(jù)
“科學(xué)數(shù)據(jù)銀行”里存的不是錢,是科學(xué)數(shù)據(jù)。
科學(xué)數(shù)據(jù)是在自然科學(xué)、工程技術(shù)科學(xué)等領(lǐng)域,通過基礎(chǔ)研究、應(yīng)用研究、試驗(yàn)開發(fā)等產(chǎn)生的數(shù)據(jù),以及通過觀測(cè)監(jiān)測(cè)、考察調(diào)查、檢驗(yàn)檢測(cè)等方式取得并用于科學(xué)研究活動(dòng)的原始數(shù)據(jù)及其衍生數(shù)據(jù)。
隨著人類文明發(fā)展和信息技術(shù)的變遷,科學(xué)數(shù)據(jù)可以以很多種形態(tài)出現(xiàn),例如實(shí)驗(yàn)記錄手寫稿、機(jī)寫紙質(zhì)稿、紙質(zhì)照片、電子表格、電子文本、電子圖片、視頻或軟件代碼等。
(圖片來源:veer圖庫)
如果把科學(xué)數(shù)據(jù)類比為貨幣,那么科學(xué)數(shù)據(jù)存儲(chǔ)庫就是存儲(chǔ)數(shù)據(jù)的銀行。與生活中的銀行不同的是:科學(xué)數(shù)據(jù)銀行是支持共享、出版和開放獲取的。科研人員們把各自收集整理的科學(xué)數(shù)據(jù)在數(shù)據(jù)銀行進(jìn)行儲(chǔ)存和出版,而數(shù)據(jù)銀行通過吸納“數(shù)據(jù)存款”, “變小錢為大錢,變死錢為活錢”,把分散在個(gè)人和集體中的數(shù)據(jù)資源集中起來,使其更容易被發(fā)現(xiàn)、訪問、互操作和重用。
這些“錢”有什么用?它們?cè)诳茖W(xué)研究的過程中的作用可不少:
對(duì)于研究人員,科學(xué)數(shù)據(jù)的透明度一定程度上決定了其學(xué)術(shù)論文等研究成果的可信度,公開共享的科學(xué)數(shù)據(jù),將在論文投稿過程中成為期刊編輯部、同行評(píng)議專家評(píng)審的依據(jù)。論文發(fā)表后,也將有效提升其論文的可發(fā)現(xiàn)性和可引用性。
“把數(shù)據(jù)(《青藏高原MODIS逐日無云積雪面積數(shù)據(jù)集》DOI: 10.11922/sciencedb.55)拿出來的初衷只是想存儲(chǔ),想著能有一個(gè)地方幫助管理數(shù)據(jù),沒想到收到了大量包括海外用戶在內(nèi)的積極使用反饋,相關(guān)數(shù)據(jù)獲得了數(shù)千訪問量和多個(gè)平臺(tái)、國家級(jí)科學(xué)數(shù)據(jù)中心轉(zhuǎn)載,幾年來下載量一直在科學(xué)數(shù)據(jù)存儲(chǔ)庫名列前茅。”
——中國科學(xué)院空天信息創(chuàng)新研究院
副研究員 邱玉寶
《青藏高原MODIS逐日無云積雪面積數(shù)據(jù)集》出版頁面
對(duì)于研究領(lǐng)域,科學(xué)數(shù)據(jù)的共享可供其他研究人員引用或重現(xiàn)實(shí)驗(yàn),避免不必要的重復(fù)實(shí)驗(yàn)操作,縮短研究周期,使得研究人員的主要精力可以集中在新的探索發(fā)現(xiàn),有助于加快整個(gè)領(lǐng)域的研究進(jìn)程。
信息科學(xué)領(lǐng)域數(shù)據(jù)具有良好的科學(xué)數(shù)據(jù)開放共享基礎(chǔ),各類算法競賽提供基準(zhǔn)數(shù)據(jù)集,比如視覺識(shí)別挑戰(zhàn)大賽(ILVRC)的基準(zhǔn)數(shù)據(jù)集ImageNet。2012年,AlexNet在該賽事基于ImageNet獲得圖像分類和物體識(shí)別算法的優(yōu)勝,錯(cuò)誤率比第二名低了10.8個(gè)百分點(diǎn),一戰(zhàn)成名,刺激了更多使用卷積神經(jīng)網(wǎng)絡(luò)和GPU來加速深度學(xué)習(xí)研究的出現(xiàn)?;鶞?zhǔn)數(shù)據(jù)集的公開共享和應(yīng)用,驅(qū)動(dòng)相關(guān)領(lǐng)域研究取得重大突破和進(jìn)展。
對(duì)于社會(huì)整體,科學(xué)數(shù)據(jù)的共享可減少研究人員的重復(fù)工作,節(jié)約科研資助機(jī)構(gòu)的資助資源;更高透明度的科學(xué)研究,將大大增強(qiáng)政府和公眾對(duì)于研究成果的信任感,有效推動(dòng)科學(xué)研究成果對(duì)于社會(huì)經(jīng)濟(jì)發(fā)展等方面發(fā)揮作用。
“青藏高原鐵路建設(shè)項(xiàng)目利用了青藏高原7個(gè)觀測(cè)站長期觀測(cè)得到的氣象、地溫、凍土等觀測(cè)數(shù)據(jù)資料,在超級(jí)計(jì)算環(huán)境下構(gòu)建了青藏鐵路凍土路基穩(wěn)定性模型,模擬分析鐵路路基是否會(huì)影響下層凍土的融化或者凍土融化是否會(huì)影響鐵路路基的穩(wěn)定或者導(dǎo)致路基變形,相關(guān)科學(xué)數(shù)據(jù)發(fā)揮了非常關(guān)鍵的作用。”
——中國科學(xué)院西北生態(tài)環(huán)境資源研究院
研究員 張耀南
為啥要把數(shù)據(jù)存在“銀行”里?
有人也許會(huì)說:既然科學(xué)數(shù)據(jù)這么有用,大家各自保存不就好了。為什么還需要有個(gè)“銀行”呢?
大家知道,現(xiàn)實(shí)生活中的銀行是隨著貨幣經(jīng)濟(jì)發(fā)展而出現(xiàn)的。“科學(xué)數(shù)據(jù)銀行”也是如此。信息技術(shù)與科學(xué)研究的交互融合引發(fā)了數(shù)據(jù)量的迅猛增長,促成了數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的科研第四范式的到來,數(shù)據(jù)成為科研和創(chuàng)新的基礎(chǔ)驅(qū)動(dòng)力。委托專業(yè)數(shù)據(jù)存儲(chǔ)環(huán)境進(jìn)行科學(xué)數(shù)據(jù)的保存和傳播,優(yōu)勢(shì)不止一個(gè):
從數(shù)據(jù)安全性保障看,數(shù)據(jù)存在研究人員個(gè)人或集體手中,會(huì)因?yàn)樵O(shè)備損壞、人員流動(dòng)、辦公場(chǎng)所遷移等原因,帶來數(shù)據(jù)的流失和遺漏。數(shù)據(jù)銀行配套專業(yè)機(jī)房等基礎(chǔ)設(shè)施保障,配備超強(qiáng)數(shù)據(jù)資產(chǎn)存儲(chǔ)、處理及管理能力;提供專業(yè)的數(shù)據(jù)資產(chǎn)安保服務(wù)和備份機(jī)制,最大限度保障數(shù)據(jù)資產(chǎn)安全、存儲(chǔ)與共享資產(chǎn)的永久可訪問、可獲取。
(圖片來源:veer圖庫)
從促進(jìn)數(shù)據(jù)流通看,存款可通過銀行的貨幣兌換業(yè)務(wù),兌換成其他國家的貨幣、儲(chǔ)蓄到國際認(rèn)可的儲(chǔ)蓄卡中,在全球消費(fèi)流通。把數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)銀行并進(jìn)行標(biāo)準(zhǔn)化出版,配備Schem.org和都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù),以及CSTR、DOI唯一數(shù)字標(biāo)識(shí),就可以實(shí)現(xiàn)更新更大領(lǐng)域的流通和轉(zhuǎn)換。
從提升數(shù)據(jù)收益看,存款可委托給銀行購買國債、基金等投資理財(cái)產(chǎn)品,以期待更大收益。數(shù)據(jù)也可通過在數(shù)據(jù)銀行出版,由數(shù)據(jù)銀行根據(jù)當(dāng)前資源匯聚情況和熱門時(shí)間,收納到其有價(jià)值有熱點(diǎn)的數(shù)據(jù)專題中,還可以納入到關(guān)聯(lián)推薦閱讀,獲得更高流量和更強(qiáng)學(xué)術(shù)影響力,給數(shù)據(jù)賦予更大價(jià)值。
科學(xué)數(shù)據(jù):從“附屬物”到“一等公民”
自20世紀(jì)以來,科學(xué)數(shù)據(jù)經(jīng)歷了不同的發(fā)展階段。
20世紀(jì)40年代前,科學(xué)數(shù)據(jù)工作處于起步階段,科學(xué)數(shù)據(jù)僅僅作為一般科技工作的附帶或者輔助,缺乏有效組織。隨著科技界對(duì)基礎(chǔ)科學(xué)數(shù)據(jù)的交流和應(yīng)用,科學(xué)數(shù)據(jù)逐步作為獨(dú)特的科技領(lǐng)域,確立了其基礎(chǔ)性地位。
在國際科學(xué)聯(lián)合會(huì)(ICSU)組織下,1957年成立了以地球科學(xué)、空間科學(xué)和天文學(xué)數(shù)據(jù)為重點(diǎn)的世界數(shù)據(jù)中心(WDC) ,又于1966年成立了覆蓋更廣泛學(xué)科領(lǐng)域的國際科技數(shù)據(jù)委員會(huì)(CODATA)。90年代以來,科技界不但出現(xiàn)了跨學(xué)科的前沿?cái)?shù)據(jù)領(lǐng)域如蛋白質(zhì)、基因組等重大數(shù)據(jù)庫,科學(xué)研究工作也愈加依賴專業(yè)的數(shù)據(jù)庫資源。2001年CODATA創(chuàng)辦了以科學(xué)數(shù)據(jù)為對(duì)象的電子雜志《數(shù)據(jù)科學(xué)雜志》(Data Science Journal) ,確立了科學(xué)數(shù)據(jù)成為一個(gè)新的學(xué)科領(lǐng)域。
《數(shù)據(jù)科學(xué)雜志》
當(dāng)前,許多國際重要的學(xué)術(shù)期刊都已經(jīng)制定數(shù)據(jù)開放、數(shù)據(jù)共享和數(shù)據(jù)利用的相關(guān)政策。例如傳統(tǒng)學(xué)術(shù)期刊BMC Evolutionary Biology,PLoS One,BMJ,Science,ZooKeys等,其政策內(nèi)容主要包括:(1)支撐研究論文主要研究結(jié)論的科學(xué)數(shù)據(jù)應(yīng)以各種形式開放供讀者查閱,以便重現(xiàn)研究過程,驗(yàn)證研究結(jié)果。(2)提交科學(xué)數(shù)據(jù)的方式主要包括將數(shù)據(jù)交給期刊存儲(chǔ);將數(shù)據(jù)存儲(chǔ)在開放獲取的綜合性數(shù)據(jù)倉儲(chǔ)(如Dryad)、領(lǐng)域數(shù)據(jù)倉儲(chǔ)、機(jī)構(gòu)知識(shí)庫等;作者自存儲(chǔ)數(shù)據(jù);在讀者提出相關(guān)數(shù)據(jù)的查閱和利用需求時(shí),作者直接提供給讀者。(3)在相應(yīng)使用許可條件下,這些科學(xué)數(shù)據(jù)可以獲取、傳播和重復(fù)使用。(4)是否提交相應(yīng)數(shù)據(jù)作為學(xué)術(shù)論文發(fā)表的重要前提之一。
當(dāng)今,科研數(shù)據(jù)不再僅是學(xué)術(shù)論文的附屬物,而成為了科研的基礎(chǔ)產(chǎn)出和“一等公民”,具有獨(dú)立的身份識(shí)別、屬性描述、監(jiān)護(hù)機(jī)制、溯源流程,通過信息網(wǎng)絡(luò)可發(fā)現(xiàn)、可獲取、可互操作和可重用(FAIR原則),并逐步支持把數(shù)據(jù)監(jiān)護(hù)和共享納入科技界認(rèn)可的學(xué)術(shù)貢獻(xiàn)體系。
目前較為成熟的數(shù)據(jù)出版模式可分為三類:作為論文輔助資料的數(shù)據(jù)發(fā)布(附屬于出版物的數(shù)據(jù)發(fā)布)、以數(shù)據(jù)論文形式發(fā)布(作為出版物本身的數(shù)據(jù)出版)、獨(dú)立的數(shù)據(jù)出版即在數(shù)據(jù)存儲(chǔ)庫存儲(chǔ)發(fā)布(不依賴出版物的數(shù)據(jù)發(fā)布)。
“科學(xué)數(shù)據(jù)銀行”發(fā)展如何?
目前,全球較為領(lǐng)先的數(shù)據(jù)存儲(chǔ)庫主要有Dryad Digital Repository,figshare,Harvard Dataverse,Open Science Framework,Zenodo,Mendeley Data等等。這些存儲(chǔ)庫全部來自美國和歐洲國家,并與國際出版知名出版商、國際DOI發(fā)布機(jī)構(gòu)和國際組織展開合作,形成了強(qiáng)大的科學(xué)數(shù)據(jù)、開放獲取的合作聯(lián)盟社區(qū)。
由于國內(nèi)科學(xué)數(shù)據(jù)共享工作起步相對(duì)較晚,我國在很長一段時(shí)間內(nèi)都缺乏獲得國際認(rèn)可的科學(xué)數(shù)據(jù)庫。這意味著中國的科研人員想要在國外期刊發(fā)表論文,必須將數(shù)據(jù)提交到這些國外數(shù)據(jù)存儲(chǔ)庫。這種狀況就導(dǎo)致了我國科學(xué)研究成果的嚴(yán)重流失,國內(nèi)學(xué)術(shù)期刊和出版機(jī)構(gòu)的學(xué)術(shù)公信力和影響力難以得到有力提升。
另外,這也導(dǎo)致科研成果流向的嚴(yán)重不平衡:我國近年來崛起的科學(xué)研究力量和成果大量輸出給國際社會(huì),國內(nèi)學(xué)術(shù)期刊和數(shù)據(jù)存儲(chǔ)庫卻難以汲取相對(duì)等的國際科研成果。
最近,這樣的情況有了改變。
這樣的“數(shù)據(jù)銀行”我們也有了
ScienceDB是中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心自主研發(fā)的可支持中英文的科學(xué)數(shù)據(jù)存儲(chǔ)庫系統(tǒng),得到了中國科學(xué)院信息化專項(xiàng)和國家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心的長期支持,面向?qū)W術(shù)期刊、科研人員提供數(shù)據(jù)在線存儲(chǔ)、匯交管理、長期保存與獲取、共享、出版和引用服務(wù)。截至目前,ScienceDB已經(jīng)為《生態(tài)學(xué)報(bào)》《中國科學(xué)數(shù)據(jù)》等8本中文期刊,Science、PNAS、ESSD等14本英文期刊以及2300多位科研工作者提供科學(xué)數(shù)據(jù)存儲(chǔ)和出版服務(wù)。
近期,ScienceDB被Scientific Data、Springer Nature和AGU收錄到其推薦的通用型數(shù)據(jù)存儲(chǔ)庫名單,還與FAIRsharing、re3data、OPENDOAR等國際數(shù)據(jù)存儲(chǔ)庫收錄平臺(tái)建立合作??傊?,ScienceDB致力于提升科研數(shù)據(jù)成果的價(jià)值,幫助學(xué)術(shù)期刊、科研人員更好地管理和傳播學(xué)術(shù)研究成果。
那么,ScienceDB能為用戶提供哪些優(yōu)質(zhì)服務(wù)呢?
點(diǎn)擊下方空白處,看看三大服務(wù)都是啥?
ScienceDB為每一個(gè)數(shù)據(jù)集發(fā)布了數(shù)據(jù)出版主頁,這張頁面提供數(shù)據(jù)集的作者、學(xué)科分類、唯一標(biāo)識(shí)、關(guān)鍵詞、摘要、關(guān)聯(lián)出版論文等元數(shù)據(jù)信息的展示和獲取,以及瀏覽量、下載量等實(shí)時(shí)統(tǒng)計(jì)信息,并配有系統(tǒng)自動(dòng)生成的推薦引用格式、推薦閱讀等服務(wù)。
在ScienceDB發(fā)布的數(shù)據(jù)是什么樣子?
發(fā)表于ESSD、Science的論文關(guān)聯(lián)數(shù)據(jù)出版詳情頁
這個(gè)“銀行”到底長啥樣?掃一掃來看看?
↓↓↓
參考資料:
[1] 孔麗華,習(xí)妍,張曉林.數(shù)據(jù)出版的趨勢(shì)、機(jī)制與挑戰(zhàn)[J].中國科學(xué)基金,2019,33(03):237-245.
[2] 第一屆“ScienceDB獎(jiǎng)”得主專訪邱玉寶:共享讓數(shù)據(jù)不斷增值https://mp.weixin.qq.com/s/-AePBa0TbZGdXSHEn_1F2w
[3] https://bk.tw.lvfukeji.com/baike-AlexNet
[4] 第一屆“ScienceDB獎(jiǎng)”得主專訪張耀南:堅(jiān)守、堅(jiān)定、堅(jiān)持https://mp.weixin.qq.com/s/yM7vXAIPkdPhdb4Uk5dTKw
[5] 張麗麗,溫亮明,石蕾,鄭曉歡,黎建輝.國內(nèi)外科學(xué)數(shù)據(jù)管理與開放共享的最新進(jìn)展[J].中國科學(xué)院院刊,2018,33(08):774-782.
[6] 屈寶強(qiáng),王凱,彭潔,翟娟華.面向利益相關(guān)者的科學(xué)數(shù)據(jù)共享政策分析[J].中國科技資源導(dǎo)刊, 2015, 047(006):35-40.
[7] https://www.springernature.com/gp/authors/research-data
文章首發(fā)于科學(xué)大院,僅代表作者觀點(diǎn),不代表科學(xué)大院立場(chǎng)。轉(zhuǎn)載請(qǐng)聯(lián)系cas@cnic.cn。科學(xué)大院是中科院官方科普微平臺(tái),由中科院科學(xué)傳播局主辦、中國科普博覽團(tuán)隊(duì)運(yùn)營,致力于最新科研成果的深度解讀、社會(huì)熱點(diǎn)事件的科學(xué)發(fā)聲。