
發布日期:2021-8-15 19:44:14 訪問次數:1079
孟小峰 博士,中國人民大學教授,博士生導師,CCF會士。主要研究方向為數據庫理論與系統、大數據管理系統、大數據隱私保護、大數據融合與智能、大數據實時分析、社會計算等。
摘 要
隨著全球各科學領域大科學裝置的出現,科學發現進入了大數據時代。科學發現無法完全依賴于專家經驗從海量數據中發現稀有科學事件,大量歷史數據無法有效利用,同時愈發突出實時性和高精度,科學事件的模式具有稀有性,通用的算法并不適用于科學領域,由此科學數據智能發現問題應運而生。科學數據智能發現旨在使用數據智能的方法加速科學事件的發現。然而,科學數據智能發現缺少整體框架設計,具體表現為缺乏科學數據的一體化分析體系和異構科學數據高效知識融合機制,并且海量歷史數據長期存儲及挖掘低效。本文從數據管理的角度提出科學數據智能發現與管理框架和相關挑戰,以期推動科學發現的進步。
關鍵詞: 科學數據;數據智能;數據管理;智能發現;知識融合;長期存儲
科學數據是指人類在科學活動中,經由科學裝置的不斷發展而產生,通過實驗、觀測、探測、調查、挖掘等途徑獲取的用于研究活動的原始數據及衍生數據,這些積累的數據能夠反映客觀事物的本質、特征、變化規律。隨著科學觀測裝置、觀測技術的發展,科學數據已進入信息豐富的大數據時代[1]。天文學、遙感科學、高能物理學等領域都面臨著科學數據激增,需要探索更加高效、智能的方法從大規模科學數據中發現有價值的科學事件。
科學事件的探索和發現往往具有時效性,以時域天文學為例,大視場短時標巡天以其陣列式觀測覆蓋組合大視場和高時間分辨率的數據采集,具備了高效發現短時標科學事件(持續時間較短的科學事件)的能力,但也對數據管理帶來前所未有的挑戰。大視場短時標巡天每天都以TB量級的速度快速采集數據,并形成大規模數據流,短時標科學事件就蘊含其中,但是短時標科學事件極其稀有且稍縱即逝,因此對分析的實時性要求很高,此外高噪聲和偽事件又導致其真偽判斷愈加困難[2-4]。不僅在于天文學領域,其他科學領域數據收集類似,都愈發強調實時性和高精度。
事實上,上述例子的挑戰主要表現為“快、準、全”三方面。首先, 大科學裝置產生的大多為科學數據流,大規模流式處理和分析是必須的,其本質為“大”數據中發現“小”概率的科學事件,要求系統具備實時智能分析的能面[5]。其次,系統需要提供對科學事件快速驗證的能力,因此不同的數據源的高精度融合和多尺度實體畫像構建能夠助力科學家做出準確判斷,即整體發現不僅要“快”,更要“準”。最后,由于科學事件的稀有性,系統需要實現智能地自我更新,以不斷提高整個系統的發現能力,因此,必須借助歷史數據的高效分析以實現科學事件發現的“全”面[6]。
基于此,針對科學事件的發現目標,要解決大規模科學數據的智能發現問題,本質上是實現大規模科學數據的智能管理,本文從數據管理的角度來解決智能發現問題。
具體而言,大規模科學數據智能發現與管理主要面臨著如下三方面的挑戰:
(1) 實時智能的科學事件分析
實時智能的科學事件分析事實上主要面臨數據處理和智能發現兩方面問題。科學數據中的觀測目標極多,即數據基數大,就要求報警率極低(可達十萬分之一),才能保證科學家對報警的重視程度,因此不僅需要具備實時處理大規模科學數據的能力,同時需要具備高精度的智能發現能力。
(2) 快速高效的科學事件驗證
高效的科學事件驗證主要解決的問題是對于科學事件報警信號的實時驗證,以快速識別其價值。例如,在時域天文學中,天文學家的驗證工作繁瑣,雖然有集成的數據庫平臺可以使用,但這些數據庫都只停留在數據的集成階段,未能高效地從集成的數據庫中抽取數據間的關系和知識并加以融合,也不能充分利用歷史科學文獻中積累的科學事件知識,導致驗證工作困難[7]。
(3) 大規模科學數據的長期存儲
當前科學數據的收集效率越來越高,然而長期歷史數據由于管理能力限制呈現出價值逐年遞減的態勢,如同礦業領域的煤矸石一樣,不能被高效利用,影響了長期數據服務于提高系統發現能力的效率,因此,對長期歷史數據的存儲和分析是必須解決的問題。如何有效組織并以低成本解決大量歷史數據的查詢分析問題,使得能夠從底層數據角度服務于智能分析和驗證任務是科學數據面臨的普遍問題。
1 科學數據智能發現與管理框架
前文所述的挑戰如果得以解決,將為科學發現打開一扇嶄新的窗口,極大地助力科學家對科學事件的發現工作。基于此,本文提出大規模科學數據智能發現與管理框架,如圖1所示,包含智能分析層、知識融合層和數據存儲層三個部分:
圖1 大規模科學數據智能發現與管理框架
(1) 科學事件的實時智能化分析:針對科學事件的實效性和特殊科學裝置數據采集特點設計新的流數據處理框架適應科學數據要求的實時性能約束和處理模式,此外計算任務從數據和模型兩個角度助力科學事件的高效智能分析。
(2) 多尺度科學數據的全景化融合:科學觀測不是單方面的觀測,存在多個觀測角度、觀測裝置、觀測地點等,針對科學數據特有的多尺度、多源觀測特性,采用知識融合及知識圖譜技術實現不同科學數據源的交叉融合,構建海量科學事件觀測目標知識圖譜,加速科學事件驗證。
(3) 大規模科學數據的協同化存儲:科學數據的長期存儲主要解決高效查詢問題。因此,首先從存儲優化角度提高整體數據訪問性能,科學數據通常具有時間和空間特性,可以通過時空優化的內外存協同存儲與索引機制保證數據存儲的合理性;其次從系統合理配置角度提高特定查詢的效率,通過科學數據工作負載運行時的特征收集和分析,動態設置系統的最優化配置方案。
事實上,本文提出科學數據智能管理框架以科學事件智能分析、高效科學事件驗證和大規模科學數據長期存儲三大基礎性關鍵技術作為支撐,三個關鍵技術作為一個有機整體共同助力科學事件的快速發現。
2 科學事件的實時智能化分析
本節主要聚焦于從處理框架和分析方法兩個角度介紹科學數據流的智能化分析。
2.1 科學數據的分布式處理框架
科學數據流的形式是多樣的,最終都可以歸結為觀測值的時間序列,但采集方式會有不同。對于元組采集方式而言,每個采集終端負責對一個目標或極小區域采集樣本值,如海洋中的觀測浮標收集溫度濕度等,每次數據采集都是一個極小的數據元組。對于批量采集方式而言,觀測單元對海量目標同時進行數據采集,如時域天文學中觀測陣列對天體光度采集,每次都會形成海量目標的觀測值的數據塊,且這類數據塊又不適宜拆分成元組處理,因為會損失塊內鄰域元組之間的關聯特性。
針對以上特性,科學數據的分布式處理框架需要能夠結合不同的領域知識動態適應不同采集方式。對于元組采集模式而言,處理框架需要使用非阻塞式元組處理模式或阻塞式微批處理模式[8-9],即Apache Storm和Apache Spark streaming采用的方式處理。對于批量采集方式而言,處理框架需要使用非阻塞式實時塊數據處理模式,該處理不同于上述兩種處理模式。由于塊數據不能拆分元組處理又要保證塊數據處理的實時性,因此處理框架必須兼顧塊鄰域關聯特點的基礎上動態對塊數據分區進行分布式處理,且分區數據的處理要進一步有實時性保證。這就要求處理框架底層支持基于塊數據分布式處理的實時約束技術。此外,還需要通過資源隔離的方式隔離不同的處理模式并保證它們有機地協同工作。
2.2 交互反饋的科學發現機制
科學發現中常用的方法是時間序列異常檢測[10-13],主要方法可分為:基于分類、基于聚類、基于統計學、基于信息論以及基于人工智能的異常檢測等技術等。而當下科學數據通常是以時序流形式呈現[14],且異常發現模式不能夠完全窮盡,導致傳統的時間序列異常檢測算法不能夠勝任。
科學數據具有連續采集特性,因此科學發現可分為離線挖掘與在線分析兩部分,從模型角度提高科學數據分析精度。離線層數據量大,使得離線數據訓練的模型精度高,更能夠涵蓋數據的全局特征,但離線訓練模型耗費時間長;實時層數據量少,實時層的模型訓練要求快,但訓練的模型精度低,只能夠涵蓋數據的最新特征(局部)。因此需要研究在線與離線交互分析反饋機制,用離線精度高的模型,支持實時的異常檢測,從系統和算法兩方面實現實時序列異常發現算法體系的演化,并實現離線分類模型自適應更新,圖2為本文提出的實時—離線閉環反饋策略。
圖2 實時—離線閉環反饋機制
基于反饋機制的科學發現使得系統的離線層和實時層形成閉環,從而持續提高科學發現的精度,形成科學數據處理的工作流[15]。
2.3 數據質量控制與序列補全
科學數據作為一系列觀測值容易受到外界環境干擾,會導致數據的畸變或缺失,因此考慮從數據角度提高分析精度。
對于典型的元組采集方式而言,目前有很多抗噪聲的方法用于數據的質量控制,如小波變換等。但是對于批量采集方式而言,這類方式是不適用的。因為每次干擾都是局部空間相關的,如時域天文學中云霧對天體光度的遮擋都是范圍性的。因此,分析這種局部空間的相關性干擾是數據質量控制的核心。這要求質量控制技術需要區分不同數據采集方式,以動態適配。
無論是哪種數據采集方式,最終都是以時間序列形式呈現的,由于觀測計劃改變、設備故障等,常常導致時間序列殘缺不全,缺失的數據比例之大導致已有的方法無法解決,嚴重影響了后續對觀測數據的分析以及科學事件發現。針對時間序列的補全,主要有基于統計量的統計學、基于相關時間序列以及基于深度學習的方法[16-17]。這些方法通常只能在離線層使用,要求相關序列非完全缺失,而且無法處理連續大量的缺失數據。
在科學發現的真實場景下,序列的缺失情況千差萬別,不僅需要科學數據的實時補全方法,同時需要保證在缺失數據無法補全時的發現精度,結合反饋機制來不斷完善補全算法,具有重要意義。
3 多尺度科學數據的全景化融合
在科學發現場景下,科學事件的驗證往往需要借助多個數據源的數據對觀測到的科學事件候選體進行統一化的多維度描述形成觀測目標的多尺度畫像,以輔助科學家更為清楚地驗證候選體的真偽,同時能夠對數據進行溯源[18]。為了對觀測目標的知識進行可粒度縮放、可跨界關聯、可全局視圖的融合與管理[19-20],本節提出基于知識表示學習的全景式科學數據知識融合機制(圖3),幫助科學家實現智能驗證,突破目前驗證的高延遲瓶頸。
圖3 大數據驅動的“全景式”科學數據融合機制
3.1 多尺度觀測目標之間的數據融合
科學數據可以來源于不同的觀測設備、觀測地點、觀測方式、觀測順序等,其數據形式可以是數據集、數據庫、文本或文檔等,數據格式可以是圖像、文字等,因此其數據的多源異構特性非常明顯。傳統方法主要結合語義信息和多輔助信息來計算相似度,需要設計不同的學習模型來適應不同數據的特征,十分不便[21]。
針對科學數據的多源異構特性,需要實現多模態數據之間的表示轉換,以便將不同的特征映射到統一的知識表示空間中[22]。該實體融合方法將來自于不同觀測設備的、以不同格式存儲的觀測目標信息轉化為統一的資源描述框架,并據此進行知識的對齊和消歧,具體使用基于知識圖譜技術的有監督數據轉化方法,通過參數共享、正則項添加等方式完成觀測實體的融合。
3.2 觀測目標及其描述間的知識獲取
科學領域有著大量的科學數據庫和本體庫,與此同時還有海量的科學研究文獻數據,關于科學發現和科學事件分析等科學論文可以從相關網站或數據庫中自由獲取,這使得抽取大量以文本形式存在的科學知識變為可能,而且這也為知識的更新和質量控制提供了保證。
因此在科學發現中,可以通過基于知識表示學習的科學知識獲取方法,將科學文獻中存在的科學知識進行挖掘和抽取,具體研究基于初始知識庫和本體庫的雙向嵌入式學習,對實體和本體都進行嵌入式學習,以此增強從科學文獻中提取實體和關系的效率,同時研究在低資源情境下基于遷移學習方法來把開放領域中的研究模型引入到科學文獻中的知識發現過程中來。
3.3 大規模觀測目標知識的全景融合
針對大規模觀測目標的知識全景融合,旨在刻畫大數據驅動的“全景式”科學數據知識圖譜。這里提出將對齊的多源科學數據和獲取的科學知識從概念層和實例層對齊后再次融合到一個全局視圖的全景化知識圖譜中[23]。
首先,需要在已有的科學數據上進行知識融合,需要對已有數據中的概念和實例進行對齊[24];其次,基于上述兩個研究基礎,對從開源數據中獲取的觀測目標科學知識與已知的觀測數據庫進行再一次知識的對齊驗證,同樣需要從概念和實例兩個層次來完成,由于需要較強的觀測領域背景知識,也為了方便服務于科學工作者,利用眾包技術或者交互設計技術將人工部分融入到集成過程中來[25],使得融合后的知識質量得到有效控制;最后,基于融合后的最終知識圖譜設計鏈接預測方法,比如利用圖嵌入式學習或表示學習方法進行標注缺失數據的標簽預測,以便補全觀測目標知識中的缺失或遺漏部分。
4 大規模科學數據的協同化存儲
在科學領域觀測產生的數據主要服務于實時智能的科學發現,但是隨著數據源源不斷到來,系統依然需要將數據進行長期存儲,以提供智能分析層、數據融合層和上層科學家查詢。由于科學場景的查詢具有典型的時空局部性,因此,本節主要研究高效的科學數據存儲框架和查詢性能優化。
4.1 時空優化的多級存儲架構
實時性和快速性是智能管理場景下科學數據長期存儲的核心要求。而傳統的長期科學數據的管理,主要研究目標是批式大數據管理系統,不能夠滿足智能管理的實時性和快速性。新的采樣數據不斷到來,系統不僅需要實時地處理和查詢這些數據,而且需要持久化地保存歷史數據,以便支持數據的全時態查詢與分析。
針對科學數據的時間和空間特性,可以通過使用內存或高速存儲設備實現內外存協同存儲,并結合科學數據的時空相關性進行優化。通過時空優化的多級內外存協同存儲與索引機制可以將不同時間段的數據合理存放以兼顧實時性和空間消耗,從而實現科學大數據快速持久化,圖4即為內外存協同多級存儲架構。
圖4 內外存協同多級存儲架構
通過事先存儲供聚集分析使用的粗粒度概要數據,并使用精度感知存儲機制,在適當放寬查詢的精度要求下訪問近似或者部分概要數據來給出可以接受的結果,以提高查詢分析性能。
4.2 運行時系統自動化配置
面向智能管理的科學查詢需要實時性約束(特別是針對短期歷史數據),由于觀測周期的限制,每次發起的查詢最好能在一次觀測周期內完成,以確保查詢結果能夠用于下次數據處理,即查詢延遲要小于給定的時間限制[26]。
由于科學查詢是復雜多變的,對滿足實時性的系統資源的要求也是不同的,若系統資源配置不合理,會嚴重影響系統查詢的整體延遲。可以構建增量性能模型的方式預測查詢延遲,運行時特征可以包括查詢規模、查詢算子、系統配置、資源使用等。最終通過預測的延遲選擇合適任務配置與調優方法,保證在盡可能滿足實時性的條件下資源消耗最小,最后快速實現新配置方案的部署。
5 總結與展望
科學數據進入信息豐富的大數據時代,其具有多樣性和復雜性特點,目前的大數據分析方法主要依賴于常規的標準數據類型,缺乏科學數據一體化分析體系。此外,科學數據的統一表達、建模、操作計算方法明顯欠缺,難以實現多維度、多尺度的科學數據知識融合與分析,使得科學家在科學事件驗證時面臨效率低、耗時久的瓶頸。科學大數據的長期存儲和高效查詢也是目前科學發現工作面臨的重要問題。
要實現科學數據智能發現與管理由挑戰到機遇的華麗轉身,就需要提出新的發現與管理框架。本文從數據管理的角度提出科學數據發現與管理框架,將科學數據智能管理分解為智能分析、知識融合、數據存儲三個層面,為大規模科學數據智能發現打開了新窗口,為科學領域的觀測和科學事件的發現提供了新思路。
可預見的未來,大科學裝置蓬勃發展,面向不同的科學目標產生的科學數據形態各異,需要的分析技術也是不盡相同的,如果都從零開始構造科學大數據分析系統,不僅研發動輒幾年,而且耗費大量人力物力且不具備復用性。因此,對部件的復用顯得至關重要。事實上,建筑領域中北宋李誡的《營造法式》就提出了“凡構屋之制,皆以材為祖”的理念,元件“材”為基礎的思想道出了中國古建筑的靈魂,即標準件、模數化和裝配式,實現了營造效率、成本和建筑美觀的內在平衡,這是古代匠人的永恒智慧。對科學大數據來說,是否存在一種“營造法式”,通過建設科學計算元件庫,以實現大型復雜的科學分析系統能夠像古建筑般高效構建且重復利用,“多快好省”地支持科學發現,這就是值得思考的重要方向之一。
參 考 文 獻
[1] 黎建輝, 沈志宏, 孟小峰. 科學大數據管理:概念、技術與系統. 計算機研究與發展, 2017, 54(2): 235—247.
[2] Ivezic Z, Kahn SM, Tyson JA, et al. LSST: from science drivers to reference design and anticipated data products. The Astrophysical Journal, 2019, 873(2): 44.
[3] Yang C, Meng XF, Du ZH. Cloud based Real-Time and low latency scientific event analysis. Big Data, 2018, 498—507.
[4] Yang C, Meng X, Du Z, et al. Data Management in time-domain astronomy: requirements and challenges. BigSDM, 2018, 32—43.
[5] 孟小峰, 慈祥. 大數據管理:概念、技術與挑戰. 計算機研究與發展, 2013, 50 (1): 146—169.
[6] 楊晨, 翁祖建, 孟小峰, 等. 天文大數據挑戰與實時處理技術. 計算機研究與發展, 2017, 54 (2): 248—257.
[7] 孟小峰, 杜治娟. 大數據融合研究:問題與挑戰. 計算機研究與發展, 2016, 53 (2): 231—246.
[8] Wan M, Wu C, Wang J, et al. Column store for GWAC: a high-cadence, high-density, large-scale astronomical light curve pipeline and distributed shared-nothing database. Publications of the Astronomical Society of the Pacific, 2016, 128(969): 15.
[9] Medvedev D, Lemson G, Rippin M. SciServer compute: bringing analysis close to the data. Proceedings of the 2016 ACM International Conference on Scientific and Statistical Database Management, 2016, 27: 1—4.
[10] Chandola V, Banerjee A, Kumar V. Anomaly detection: a survey. ACM Computing Surveys, 2009, 41(3): 1—58.
[11] Malhotra P, Vig L, Shroff G, et al. Long short term memory networks for anomaly detection in time series. // European Symposium on Artificial Neural Networks, 2015.
[12] Movahedinia R, Chaharmir MR, Sebak AR, et al. Realization of large dielectric resonator antenna ESPAR. Ieee Transactions on Antennas and Propagation, 2017, 65(7): 3744—3749.
[13] Ding D, Zhang M, Pan X, et al. Modeling extreme events in time series prediction.// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2019, 1114—1122.
[14] Feng TZ, Du ZH, Sun YK, et al. Real-time anomaly detection of short Time-Scale GWAC survey light curves.// IEEE 6th International Congress on Big Data, 2017, 224—231.
[15] Deelman E, Gannon D, Shields M, et al. Workflows and e-Science: an overview of workflow system features and capabilities, 2009, 25(5): 528—540.
[16] Zhang YF, Thorburn PJ, Xiang W, et al. SSIM-A deep learning approach for recovering missing time series sensor data. IEEE Internet of Things Journal, 2019, 6(4): 6618—6628.
[17] Arous I, Khayati M, Cudre-Mauroux P, et al. RecovDB: accurate and efficient missing blocks recovery for large time series.// 2019 IEEE 35th International Conference on Data Engineering, 2019, 1976—1979.
[18] Simmhan YL, Plale B, Gannon D. A survey of data provenance in e-science, 2005, 34(3): 31—36.
[19] Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion.// Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014, 601—610.
[20] Dong XL, Srivastava D, Acm S. Knowledge curation and knowledge fusion: challenges, models, and applications// Proceedings of the 2015 Acm Sigmod International Conference on Management of Data, 2015, 2063—2066.
[21] 王雪鵬, 劉康, 何世柱, 等. 基于網絡語義標簽的多源知識庫實體對齊算法. 計算機學報, 2017, 40(3): 701—711.
[22] Kong C, Gao M, Xu C, et al. EnAli: entity alignment across multiple heterogeneous data sources. Frontiers of Computer Science, 2019, 13(1): 157—169.
[23] 王碩, 杜志娟, 孟小峰. 大規模知識圖譜補全技術的研究進展. 中國科學:信息科學, 2020, 50(4): 551—575.
[24] Ren X, Wu ZQ, He WQ, et al. CoType: joint extraction of typed entities and relations with knowledge bases// Proceedings of the 26th International Conference on World Wide Web, 2017, 1015—1024.
[25] Doan A, Ardalan A, Ballard JR, et al. Human-in-the-Loop challenges for entity matching: a midterm report. ACM HILDA, 2017, 12:11—16.
[26] Wang CK, Meng XF, Guo Q, et al. Automating characterization deployment in distributed data stream management systems. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2669—2681.
特別聲明:本文轉載僅僅是出于傳播信息的需要,并不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站注明的“來源”,并自負版權等法律責任;作者如果不希望被轉載或者聯系轉載稿費等事宜,請與我們接洽。
上一信息:未來10年,樓市面臨的問題將不再是高房價,而是這3個“新問題”
下一信息:培育創新土壤 成就大國工匠