91狠狠综合_欧美自拍偷拍一区二区_欧美亚州综合_成人综合视频在线观看 - 国产免费小视频在线观看

當前位置:新聞資訊 > 行業(yè)資訊

“科學數(shù)據(jù)智能——人工智能在科學發(fā)現(xiàn)中的機遇與挑戰(zhàn)”

發(fā)布日期:2021-8-15 19:44:14 訪問次數(shù):1150

孟小峰 博士,中國人民大學教授,博士生導師,CCF會士。主要研究方向為數(shù)據(jù)庫理論與系統(tǒng)、大數(shù)據(jù)管理系統(tǒng)、大數(shù)據(jù)隱私保護、大數(shù)據(jù)融合與智能、大數(shù)據(jù)實時分析、社會計算等。

摘 要

隨著全球各科學領域大科學裝置的出現(xiàn),科學發(fā)現(xiàn)進入了大數(shù)據(jù)時代。科學發(fā)現(xiàn)無法完全依賴于專家經驗從海量數(shù)據(jù)中發(fā)現(xiàn)稀有科學事件,大量歷史數(shù)據(jù)無法有效利用,同時愈發(fā)突出實時性和高精度,科學事件的模式具有稀有性,通用的算法并不適用于科學領域,由此科學數(shù)據(jù)智能發(fā)現(xiàn)問題應運而生。科學數(shù)據(jù)智能發(fā)現(xiàn)旨在使用數(shù)據(jù)智能的方法加速科學事件的發(fā)現(xiàn)。然而,科學數(shù)據(jù)智能發(fā)現(xiàn)缺少整體框架設計,具體表現(xiàn)為缺乏科學數(shù)據(jù)的一體化分析體系和異構科學數(shù)據(jù)高效知識融合機制,并且海量歷史數(shù)據(jù)長期存儲及挖掘低效。本文從數(shù)據(jù)管理的角度提出科學數(shù)據(jù)智能發(fā)現(xiàn)與管理框架和相關挑戰(zhàn),以期推動科學發(fā)現(xiàn)的進步。

關鍵詞: 科學數(shù)據(jù);數(shù)據(jù)智能;數(shù)據(jù)管理;智能發(fā)現(xiàn);知識融合;長期存儲

科學數(shù)據(jù)是指人類在科學活動中,經由科學裝置的不斷發(fā)展而產生,通過實驗、觀測、探測、調查、挖掘等途徑獲取的用于研究活動的原始數(shù)據(jù)及衍生數(shù)據(jù),這些積累的數(shù)據(jù)能夠反映客觀事物的本質、特征、變化規(guī)律。隨著科學觀測裝置、觀測技術的發(fā)展,科學數(shù)據(jù)已進入信息豐富的大數(shù)據(jù)時代[1]。天文學、遙感科學、高能物理學等領域都面臨著科學數(shù)據(jù)激增,需要探索更加高效、智能的方法從大規(guī)模科學數(shù)據(jù)中發(fā)現(xiàn)有價值的科學事件。

科學事件的探索和發(fā)現(xiàn)往往具有時效性,以時域天文學為例,大視場短時標巡天以其陣列式觀測覆蓋組合大視場和高時間分辨率的數(shù)據(jù)采集,具備了高效發(fā)現(xiàn)短時標科學事件(持續(xù)時間較短的科學事件)的能力,但也對數(shù)據(jù)管理帶來前所未有的挑戰(zhàn)。大視場短時標巡天每天都以TB量級的速度快速采集數(shù)據(jù),并形成大規(guī)模數(shù)據(jù)流,短時標科學事件就蘊含其中,但是短時標科學事件極其稀有且稍縱即逝,因此對分析的實時性要求很高,此外高噪聲和偽事件又導致其真?zhèn)闻袛嘤永щy[2-4]。不僅在于天文學領域,其他科學領域數(shù)據(jù)收集類似,都愈發(fā)強調實時性和高精度。

事實上,上述例子的挑戰(zhàn)主要表現(xiàn)為“快、準、全”三方面。首先, 大科學裝置產生的大多為科學數(shù)據(jù)流,大規(guī)模流式處理和分析是必須的,其本質為“大”數(shù)據(jù)中發(fā)現(xiàn)“小”概率的科學事件,要求系統(tǒng)具備實時智能分析的能面[5]。其次,系統(tǒng)需要提供對科學事件快速驗證的能力,因此不同的數(shù)據(jù)源的高精度融合和多尺度實體畫像構建能夠助力科學家做出準確判斷,即整體發(fā)現(xiàn)不僅要“快”,更要“準”。最后,由于科學事件的稀有性,系統(tǒng)需要實現(xiàn)智能地自我更新,以不斷提高整個系統(tǒng)的發(fā)現(xiàn)能力,因此,必須借助歷史數(shù)據(jù)的高效分析以實現(xiàn)科學事件發(fā)現(xiàn)的“全”面[6]

基于此,針對科學事件的發(fā)現(xiàn)目標,要解決大規(guī)模科學數(shù)據(jù)的智能發(fā)現(xiàn)問題,本質上是實現(xiàn)大規(guī)模科學數(shù)據(jù)的智能管理,本文從數(shù)據(jù)管理的角度來解決智能發(fā)現(xiàn)問題。

具體而言,大規(guī)模科學數(shù)據(jù)智能發(fā)現(xiàn)與管理主要面臨著如下三方面的挑戰(zhàn):

(1) 實時智能的科學事件分析

實時智能的科學事件分析事實上主要面臨數(shù)據(jù)處理和智能發(fā)現(xiàn)兩方面問題。科學數(shù)據(jù)中的觀測目標極多,即數(shù)據(jù)基數(shù)大,就要求報警率極低(可達十萬分之一),才能保證科學家對報警的重視程度,因此不僅需要具備實時處理大規(guī)模科學數(shù)據(jù)的能力,同時需要具備高精度的智能發(fā)現(xiàn)能力。

(2) 快速高效的科學事件驗證

高效的科學事件驗證主要解決的問題是對于科學事件報警信號的實時驗證,以快速識別其價值。例如,在時域天文學中,天文學家的驗證工作繁瑣,雖然有集成的數(shù)據(jù)庫平臺可以使用,但這些數(shù)據(jù)庫都只停留在數(shù)據(jù)的集成階段,未能高效地從集成的數(shù)據(jù)庫中抽取數(shù)據(jù)間的關系和知識并加以融合,也不能充分利用歷史科學文獻中積累的科學事件知識,導致驗證工作困難[7]

(3) 大規(guī)模科學數(shù)據(jù)的長期存儲

當前科學數(shù)據(jù)的收集效率越來越高,然而長期歷史數(shù)據(jù)由于管理能力限制呈現(xiàn)出價值逐年遞減的態(tài)勢,如同礦業(yè)領域的煤矸石一樣,不能被高效利用,影響了長期數(shù)據(jù)服務于提高系統(tǒng)發(fā)現(xiàn)能力的效率,因此,對長期歷史數(shù)據(jù)的存儲和分析是必須解決的問題。如何有效組織并以低成本解決大量歷史數(shù)據(jù)的查詢分析問題,使得能夠從底層數(shù)據(jù)角度服務于智能分析和驗證任務是科學數(shù)據(jù)面臨的普遍問題。

1 科學數(shù)據(jù)智能發(fā)現(xiàn)與管理框架

前文所述的挑戰(zhàn)如果得以解決,將為科學發(fā)現(xiàn)打開一扇嶄新的窗口,極大地助力科學家對科學事件的發(fā)現(xiàn)工作。基于此,本文提出大規(guī)模科學數(shù)據(jù)智能發(fā)現(xiàn)與管理框架,如圖1所示,包含智能分析層、知識融合層和數(shù)據(jù)存儲層三個部分:

圖1 大規(guī)模科學數(shù)據(jù)智能發(fā)現(xiàn)與管理框架

(1) 科學事件的實時智能化分析:針對科學事件的實效性和特殊科學裝置數(shù)據(jù)采集特點設計新的流數(shù)據(jù)處理框架適應科學數(shù)據(jù)要求的實時性能約束和處理模式,此外計算任務從數(shù)據(jù)和模型兩個角度助力科學事件的高效智能分析。

(2) 多尺度科學數(shù)據(jù)的全景化融合:科學觀測不是單方面的觀測,存在多個觀測角度、觀測裝置、觀測地點等,針對科學數(shù)據(jù)特有的多尺度、多源觀測特性,采用知識融合及知識圖譜技術實現(xiàn)不同科學數(shù)據(jù)源的交叉融合,構建海量科學事件觀測目標知識圖譜,加速科學事件驗證。

(3) 大規(guī)模科學數(shù)據(jù)的協(xié)同化存儲:科學數(shù)據(jù)的長期存儲主要解決高效查詢問題。因此,首先從存儲優(yōu)化角度提高整體數(shù)據(jù)訪問性能,科學數(shù)據(jù)通常具有時間和空間特性,可以通過時空優(yōu)化的內外存協(xié)同存儲與索引機制保證數(shù)據(jù)存儲的合理性;其次從系統(tǒng)合理配置角度提高特定查詢的效率,通過科學數(shù)據(jù)工作負載運行時的特征收集和分析,動態(tài)設置系統(tǒng)的最優(yōu)化配置方案。

事實上,本文提出科學數(shù)據(jù)智能管理框架以科學事件智能分析、高效科學事件驗證和大規(guī)模科學數(shù)據(jù)長期存儲三大基礎性關鍵技術作為支撐,三個關鍵技術作為一個有機整體共同助力科學事件的快速發(fā)現(xiàn)。

2 科學事件的實時智能化分析

本節(jié)主要聚焦于從處理框架和分析方法兩個角度介紹科學數(shù)據(jù)流的智能化分析。

2.1 科學數(shù)據(jù)的分布式處理框架

科學數(shù)據(jù)流的形式是多樣的,最終都可以歸結為觀測值的時間序列,但采集方式會有不同。對于元組采集方式而言,每個采集終端負責對一個目標或極小區(qū)域采集樣本值,如海洋中的觀測浮標收集溫度濕度等,每次數(shù)據(jù)采集都是一個極小的數(shù)據(jù)元組。對于批量采集方式而言,觀測單元對海量目標同時進行數(shù)據(jù)采集,如時域天文學中觀測陣列對天體光度采集,每次都會形成海量目標的觀測值的數(shù)據(jù)塊,且這類數(shù)據(jù)塊又不適宜拆分成元組處理,因為會損失塊內鄰域元組之間的關聯(lián)特性。

針對以上特性,科學數(shù)據(jù)的分布式處理框架需要能夠結合不同的領域知識動態(tài)適應不同采集方式。對于元組采集模式而言,處理框架需要使用非阻塞式元組處理模式或阻塞式微批處理模式[8-9],即Apache Storm和Apache Spark streaming采用的方式處理。對于批量采集方式而言,處理框架需要使用非阻塞式實時塊數(shù)據(jù)處理模式,該處理不同于上述兩種處理模式。由于塊數(shù)據(jù)不能拆分元組處理又要保證塊數(shù)據(jù)處理的實時性,因此處理框架必須兼顧塊鄰域關聯(lián)特點的基礎上動態(tài)對塊數(shù)據(jù)分區(qū)進行分布式處理,且分區(qū)數(shù)據(jù)的處理要進一步有實時性保證。這就要求處理框架底層支持基于塊數(shù)據(jù)分布式處理的實時約束技術。此外,還需要通過資源隔離的方式隔離不同的處理模式并保證它們有機地協(xié)同工作。

2.2 交互反饋的科學發(fā)現(xiàn)機制

科學發(fā)現(xiàn)中常用的方法是時間序列異常檢測[10-13],主要方法可分為:基于分類、基于聚類、基于統(tǒng)計學、基于信息論以及基于人工智能的異常檢測等技術等。而當下科學數(shù)據(jù)通常是以時序流形式呈現(xiàn)[14],且異常發(fā)現(xiàn)模式不能夠完全窮盡,導致傳統(tǒng)的時間序列異常檢測算法不能夠勝任。

科學數(shù)據(jù)具有連續(xù)采集特性,因此科學發(fā)現(xiàn)可分為離線挖掘與在線分析兩部分,從模型角度提高科學數(shù)據(jù)分析精度。離線層數(shù)據(jù)量大,使得離線數(shù)據(jù)訓練的模型精度高,更能夠涵蓋數(shù)據(jù)的全局特征,但離線訓練模型耗費時間長;實時層數(shù)據(jù)量少,實時層的模型訓練要求快,但訓練的模型精度低,只能夠涵蓋數(shù)據(jù)的最新特征(局部)。因此需要研究在線與離線交互分析反饋機制,用離線精度高的模型,支持實時的異常檢測,從系統(tǒng)和算法兩方面實現(xiàn)實時序列異常發(fā)現(xiàn)算法體系的演化,并實現(xiàn)離線分類模型自適應更新,圖2為本文提出的實時—離線閉環(huán)反饋策略。

圖2 實時—離線閉環(huán)反饋機制

基于反饋機制的科學發(fā)現(xiàn)使得系統(tǒng)的離線層和實時層形成閉環(huán),從而持續(xù)提高科學發(fā)現(xiàn)的精度,形成科學數(shù)據(jù)處理的工作流[15]

2.3 數(shù)據(jù)質量控制與序列補全

科學數(shù)據(jù)作為一系列觀測值容易受到外界環(huán)境干擾,會導致數(shù)據(jù)的畸變或缺失,因此考慮從數(shù)據(jù)角度提高分析精度。

對于典型的元組采集方式而言,目前有很多抗噪聲的方法用于數(shù)據(jù)的質量控制,如小波變換等。但是對于批量采集方式而言,這類方式是不適用的。因為每次干擾都是局部空間相關的,如時域天文學中云霧對天體光度的遮擋都是范圍性的。因此,分析這種局部空間的相關性干擾是數(shù)據(jù)質量控制的核心。這要求質量控制技術需要區(qū)分不同數(shù)據(jù)采集方式,以動態(tài)適配。

無論是哪種數(shù)據(jù)采集方式,最終都是以時間序列形式呈現(xiàn)的,由于觀測計劃改變、設備故障等,常常導致時間序列殘缺不全,缺失的數(shù)據(jù)比例之大導致已有的方法無法解決,嚴重影響了后續(xù)對觀測數(shù)據(jù)的分析以及科學事件發(fā)現(xiàn)。針對時間序列的補全,主要有基于統(tǒng)計量的統(tǒng)計學、基于相關時間序列以及基于深度學習的方法[16-17]。這些方法通常只能在離線層使用,要求相關序列非完全缺失,而且無法處理連續(xù)大量的缺失數(shù)據(jù)。

在科學發(fā)現(xiàn)的真實場景下,序列的缺失情況千差萬別,不僅需要科學數(shù)據(jù)的實時補全方法,同時需要保證在缺失數(shù)據(jù)無法補全時的發(fā)現(xiàn)精度,結合反饋機制來不斷完善補全算法,具有重要意義。

3 多尺度科學數(shù)據(jù)的全景化融合

在科學發(fā)現(xiàn)場景下,科學事件的驗證往往需要借助多個數(shù)據(jù)源的數(shù)據(jù)對觀測到的科學事件候選體進行統(tǒng)一化的多維度描述形成觀測目標的多尺度畫像,以輔助科學家更為清楚地驗證候選體的真?zhèn)危瑫r能夠對數(shù)據(jù)進行溯源[18]。為了對觀測目標的知識進行可粒度縮放、可跨界關聯(lián)、可全局視圖的融合與管理[19-20],本節(jié)提出基于知識表示學習的全景式科學數(shù)據(jù)知識融合機制(圖3),幫助科學家實現(xiàn)智能驗證,突破目前驗證的高延遲瓶頸。

圖3 大數(shù)據(jù)驅動的“全景式”科學數(shù)據(jù)融合機制

3.1 多尺度觀測目標之間的數(shù)據(jù)融合

科學數(shù)據(jù)可以來源于不同的觀測設備、觀測地點、觀測方式、觀測順序等,其數(shù)據(jù)形式可以是數(shù)據(jù)集、數(shù)據(jù)庫、文本或文檔等,數(shù)據(jù)格式可以是圖像、文字等,因此其數(shù)據(jù)的多源異構特性非常明顯。傳統(tǒng)方法主要結合語義信息和多輔助信息來計算相似度,需要設計不同的學習模型來適應不同數(shù)據(jù)的特征,十分不便[21]

針對科學數(shù)據(jù)的多源異構特性,需要實現(xiàn)多模態(tài)數(shù)據(jù)之間的表示轉換,以便將不同的特征映射到統(tǒng)一的知識表示空間中[22]。該實體融合方法將來自于不同觀測設備的、以不同格式存儲的觀測目標信息轉化為統(tǒng)一的資源描述框架,并據(jù)此進行知識的對齊和消歧,具體使用基于知識圖譜技術的有監(jiān)督數(shù)據(jù)轉化方法,通過參數(shù)共享、正則項添加等方式完成觀測實體的融合。

3.2 觀測目標及其描述間的知識獲取

科學領域有著大量的科學數(shù)據(jù)庫和本體庫,與此同時還有海量的科學研究文獻數(shù)據(jù),關于科學發(fā)現(xiàn)和科學事件分析等科學論文可以從相關網站或數(shù)據(jù)庫中自由獲取,這使得抽取大量以文本形式存在的科學知識變?yōu)榭赡埽疫@也為知識的更新和質量控制提供了保證。

因此在科學發(fā)現(xiàn)中,可以通過基于知識表示學習的科學知識獲取方法,將科學文獻中存在的科學知識進行挖掘和抽取,具體研究基于初始知識庫和本體庫的雙向嵌入式學習,對實體和本體都進行嵌入式學習,以此增強從科學文獻中提取實體和關系的效率,同時研究在低資源情境下基于遷移學習方法來把開放領域中的研究模型引入到科學文獻中的知識發(fā)現(xiàn)過程中來。

3.3 大規(guī)模觀測目標知識的全景融合

針對大規(guī)模觀測目標的知識全景融合,旨在刻畫大數(shù)據(jù)驅動的“全景式”科學數(shù)據(jù)知識圖譜。這里提出將對齊的多源科學數(shù)據(jù)和獲取的科學知識從概念層和實例層對齊后再次融合到一個全局視圖的全景化知識圖譜中[23]

首先,需要在已有的科學數(shù)據(jù)上進行知識融合,需要對已有數(shù)據(jù)中的概念和實例進行對齊[24];其次,基于上述兩個研究基礎,對從開源數(shù)據(jù)中獲取的觀測目標科學知識與已知的觀測數(shù)據(jù)庫進行再一次知識的對齊驗證,同樣需要從概念和實例兩個層次來完成,由于需要較強的觀測領域背景知識,也為了方便服務于科學工作者,利用眾包技術或者交互設計技術將人工部分融入到集成過程中來[25],使得融合后的知識質量得到有效控制;最后,基于融合后的最終知識圖譜設計鏈接預測方法,比如利用圖嵌入式學習或表示學習方法進行標注缺失數(shù)據(jù)的標簽預測,以便補全觀測目標知識中的缺失或遺漏部分。

4 大規(guī)模科學數(shù)據(jù)的協(xié)同化存儲

在科學領域觀測產生的數(shù)據(jù)主要服務于實時智能的科學發(fā)現(xiàn),但是隨著數(shù)據(jù)源源不斷到來,系統(tǒng)依然需要將數(shù)據(jù)進行長期存儲,以提供智能分析層、數(shù)據(jù)融合層和上層科學家查詢。由于科學場景的查詢具有典型的時空局部性,因此,本節(jié)主要研究高效的科學數(shù)據(jù)存儲框架和查詢性能優(yōu)化。

4.1 時空優(yōu)化的多級存儲架構

實時性和快速性是智能管理場景下科學數(shù)據(jù)長期存儲的核心要求。而傳統(tǒng)的長期科學數(shù)據(jù)的管理,主要研究目標是批式大數(shù)據(jù)管理系統(tǒng),不能夠滿足智能管理的實時性和快速性。新的采樣數(shù)據(jù)不斷到來,系統(tǒng)不僅需要實時地處理和查詢這些數(shù)據(jù),而且需要持久化地保存歷史數(shù)據(jù),以便支持數(shù)據(jù)的全時態(tài)查詢與分析。

針對科學數(shù)據(jù)的時間和空間特性,可以通過使用內存或高速存儲設備實現(xiàn)內外存協(xié)同存儲,并結合科學數(shù)據(jù)的時空相關性進行優(yōu)化。通過時空優(yōu)化的多級內外存協(xié)同存儲與索引機制可以將不同時間段的數(shù)據(jù)合理存放以兼顧實時性和空間消耗,從而實現(xiàn)科學大數(shù)據(jù)快速持久化,圖4即為內外存協(xié)同多級存儲架構。

圖4 內外存協(xié)同多級存儲架構

通過事先存儲供聚集分析使用的粗粒度概要數(shù)據(jù),并使用精度感知存儲機制,在適當放寬查詢的精度要求下訪問近似或者部分概要數(shù)據(jù)來給出可以接受的結果,以提高查詢分析性能。

4.2 運行時系統(tǒng)自動化配置

面向智能管理的科學查詢需要實時性約束(特別是針對短期歷史數(shù)據(jù)),由于觀測周期的限制,每次發(fā)起的查詢最好能在一次觀測周期內完成,以確保查詢結果能夠用于下次數(shù)據(jù)處理,即查詢延遲要小于給定的時間限制[26]

由于科學查詢是復雜多變的,對滿足實時性的系統(tǒng)資源的要求也是不同的,若系統(tǒng)資源配置不合理,會嚴重影響系統(tǒng)查詢的整體延遲。可以構建增量性能模型的方式預測查詢延遲,運行時特征可以包括查詢規(guī)模、查詢算子、系統(tǒng)配置、資源使用等。最終通過預測的延遲選擇合適任務配置與調優(yōu)方法,保證在盡可能滿足實時性的條件下資源消耗最小,最后快速實現(xiàn)新配置方案的部署。

5 總結與展望

科學數(shù)據(jù)進入信息豐富的大數(shù)據(jù)時代,其具有多樣性和復雜性特點,目前的大數(shù)據(jù)分析方法主要依賴于常規(guī)的標準數(shù)據(jù)類型,缺乏科學數(shù)據(jù)一體化分析體系。此外,科學數(shù)據(jù)的統(tǒng)一表達、建模、操作計算方法明顯欠缺,難以實現(xiàn)多維度、多尺度的科學數(shù)據(jù)知識融合與分析,使得科學家在科學事件驗證時面臨效率低、耗時久的瓶頸。科學大數(shù)據(jù)的長期存儲和高效查詢也是目前科學發(fā)現(xiàn)工作面臨的重要問題。

要實現(xiàn)科學數(shù)據(jù)智能發(fā)現(xiàn)與管理由挑戰(zhàn)到機遇的華麗轉身,就需要提出新的發(fā)現(xiàn)與管理框架。本文從數(shù)據(jù)管理的角度提出科學數(shù)據(jù)發(fā)現(xiàn)與管理框架,將科學數(shù)據(jù)智能管理分解為智能分析、知識融合、數(shù)據(jù)存儲三個層面,為大規(guī)模科學數(shù)據(jù)智能發(fā)現(xiàn)打開了新窗口,為科學領域的觀測和科學事件的發(fā)現(xiàn)提供了新思路。

可預見的未來,大科學裝置蓬勃發(fā)展,面向不同的科學目標產生的科學數(shù)據(jù)形態(tài)各異,需要的分析技術也是不盡相同的,如果都從零開始構造科學大數(shù)據(jù)分析系統(tǒng),不僅研發(fā)動輒幾年,而且耗費大量人力物力且不具備復用性。因此,對部件的復用顯得至關重要。事實上,建筑領域中北宋李誡的《營造法式》就提出了“凡構屋之制,皆以材為祖”的理念,元件“材”為基礎的思想道出了中國古建筑的靈魂,即標準件、模數(shù)化和裝配式,實現(xiàn)了營造效率、成本和建筑美觀的內在平衡,這是古代匠人的永恒智慧。對科學大數(shù)據(jù)來說,是否存在一種“營造法式”,通過建設科學計算元件庫,以實現(xiàn)大型復雜的科學分析系統(tǒng)能夠像古建筑般高效構建且重復利用,“多快好省”地支持科學發(fā)現(xiàn),這就是值得思考的重要方向之一。

參 考 文 獻

[1] 黎建輝, 沈志宏, 孟小峰. 科學大數(shù)據(jù)管理:概念、技術與系統(tǒng). 計算機研究與發(fā)展, 2017, 54(2): 235—247.

[2] Ivezic Z, Kahn SM, Tyson JA, et al. LSST: from science drivers to reference design and anticipated data products. The Astrophysical Journal, 2019, 873(2): 44.

[3] Yang C, Meng XF, Du ZH. Cloud based Real-Time and low latency scientific event analysis. Big Data, 2018, 498—507.

[4] Yang C, Meng X, Du Z, et al. Data Management in time-domain astronomy: requirements and challenges. BigSDM, 2018, 32—43.

[5] 孟小峰, 慈祥. 大數(shù)據(jù)管理:概念、技術與挑戰(zhàn). 計算機研究與發(fā)展, 2013, 50 (1): 146—169.

[6] 楊晨, 翁祖建, 孟小峰, 等. 天文大數(shù)據(jù)挑戰(zhàn)與實時處理技術. 計算機研究與發(fā)展, 2017, 54 (2): 248—257.

[7] 孟小峰, 杜治娟. 大數(shù)據(jù)融合研究:問題與挑戰(zhàn). 計算機研究與發(fā)展, 2016, 53 (2): 231—246.

[8] Wan M, Wu C, Wang J, et al. Column store for GWAC: a high-cadence, high-density, large-scale astronomical light curve pipeline and distributed shared-nothing database. Publications of the Astronomical Society of the Pacific, 2016, 128(969): 15.

[9] Medvedev D, Lemson G, Rippin M. SciServer compute: bringing analysis close to the data. Proceedings of the 2016 ACM International Conference on Scientific and Statistical Database Management, 2016, 27: 1—4.

[10] Chandola V, Banerjee A, Kumar V. Anomaly detection: a survey. ACM Computing Surveys, 2009, 41(3): 1—58.

[11] Malhotra P, Vig L, Shroff G, et al. Long short term memory networks for anomaly detection in time series. // European Symposium on Artificial Neural Networks, 2015.

[12] Movahedinia R, Chaharmir MR, Sebak AR, et al. Realization of large dielectric resonator antenna ESPAR. Ieee Transactions on Antennas and Propagation, 2017, 65(7): 3744—3749.

[13] Ding D, Zhang M, Pan X, et al. Modeling extreme events in time series prediction.// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2019, 1114—1122.

[14] Feng TZ, Du ZH, Sun YK, et al. Real-time anomaly detection of short Time-Scale GWAC survey light curves.// IEEE 6th International Congress on Big Data, 2017, 224—231.

[15] Deelman E, Gannon D, Shields M, et al. Workflows and e-Science: an overview of workflow system features and capabilities, 2009, 25(5): 528—540.

[16] Zhang YF, Thorburn PJ, Xiang W, et al. SSIM-A deep learning approach for recovering missing time series sensor data. IEEE Internet of Things Journal, 2019, 6(4): 6618—6628.

[17] Arous I, Khayati M, Cudre-Mauroux P, et al. RecovDB: accurate and efficient missing blocks recovery for large time series.// 2019 IEEE 35th International Conference on Data Engineering, 2019, 1976—1979.

[18] Simmhan YL, Plale B, Gannon D. A survey of data provenance in e-science, 2005, 34(3): 31—36.

[19] Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion.// Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014, 601—610.

[20] Dong XL, Srivastava D, Acm S. Knowledge curation and knowledge fusion: challenges, models, and applications// Proceedings of the 2015 Acm Sigmod International Conference on Management of Data, 2015, 2063—2066.

[21] 王雪鵬, 劉康, 何世柱, 等. 基于網絡語義標簽的多源知識庫實體對齊算法. 計算機學報, 2017, 40(3): 701—711.

[22] Kong C, Gao M, Xu C, et al. EnAli: entity alignment across multiple heterogeneous data sources. Frontiers of Computer Science, 2019, 13(1): 157—169.

[23] 王碩, 杜志娟, 孟小峰. 大規(guī)模知識圖譜補全技術的研究進展. 中國科學:信息科學, 2020, 50(4): 551—575.

[24] Ren X, Wu ZQ, He WQ, et al. CoType: joint extraction of typed entities and relations with knowledge bases// Proceedings of the 26th International Conference on World Wide Web, 2017, 1015—1024.

[25] Doan A, Ardalan A, Ballard JR, et al. Human-in-the-Loop challenges for entity matching: a midterm report. ACM HILDA, 2017, 12:11—16.

[26] Wang CK, Meng XF, Guo Q, et al. Automating characterization deployment in distributed data stream management systems. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2669—2681.

 

特別聲明:本文轉載僅僅是出于傳播信息的需要,并不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站注明的“來源”,并自負版權等法律責任;作者如果不希望被轉載或者聯(lián)系轉載稿費等事宜,請與我們接洽。

二維碼
微信

微信號:fdl867201610

QQ
電話
400 106 2866
郵件
867201610@qq.com
地址
河北省廊坊市香河縣
頂部