2024年以來,中國電科旗下大數(shù)據(jù)產(chǎn)業(yè)企業(yè)易華錄有了一系列動作,。其大力推進(jìn)數(shù)據(jù)資產(chǎn)入表應(yīng)用轉(zhuǎn)化工作,,完成了政務(wù)數(shù)據(jù)、交通數(shù)據(jù),、醫(yī)療數(shù)據(jù)等一大批政府部門和公益部門的數(shù)據(jù)資產(chǎn)入表,,引領(lǐng)和推動了數(shù)據(jù)要素化戰(zhàn)略向縱深發(fā)展。
這些進(jìn)展的背后,,發(fā)揮支撐作用的正是于今年獲得國家科學(xué)技術(shù)進(jìn)步獎二等獎的一項(xiàng)成果——“多源異構(gòu)數(shù)據(jù)湖的聚存算關(guān)鍵技術(shù)及應(yīng)用”,。
北京理工大學(xué)計(jì)算機(jī)學(xué)院院長王國仁為該成果第一完成人。近日,,他在接受科技日報(bào)記者專訪時(shí)表示,,這項(xiàng)已經(jīng)落地實(shí)踐的科研成果,解決了多源異構(gòu)大數(shù)據(jù)面臨的無法兼顧全模態(tài)與高質(zhì)效,,以及難以突破全周期存儲效能的極大化和全任務(wù)協(xié)同計(jì)算瓶頸等難題,。
曾有專家預(yù)測,到2025年,,我國將成為全球第一數(shù)據(jù)大國,。但簡單的數(shù)據(jù)累加并不能產(chǎn)生效益,還需進(jìn)行存儲,、交易和治理,,才能發(fā)揮數(shù)據(jù)的真正效用。王國仁表示,,他們的研究,,正是要讓數(shù)據(jù)聚得好、存得起,、用得活,。
在采訪過程中,王國仁最常說的話,,就是“思路很簡單,,我一說你就懂了”,。仿佛武林高手,一招一式看似平實(shí),,又大有乾坤,。
用人工智能“預(yù)判”
數(shù)據(jù)湖的概念于2010年左右被提出。它是一個(gè)集中式存儲庫,,能以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);還可以按原樣存儲數(shù)據(jù),,并運(yùn)行不同類型的分析?!皵?shù)據(jù)湖其實(shí)就是一個(gè)大數(shù)據(jù)場景下的數(shù)據(jù)管理平臺,,可以支撐數(shù)據(jù)價(jià)值化、計(jì)算高效化和運(yùn)行綠色化,。我們的成果在這三方面都能發(fā)揮作用,。”王國仁說,。
光存儲的最顯著特性就是綠色節(jié)能,,但要真正實(shí)現(xiàn)綠色,還需解決一個(gè)問題——數(shù)據(jù)抖動,。
一般來說,,經(jīng)常被訪問的數(shù)據(jù)被稱為熱數(shù)據(jù),而較少被訪問的數(shù)據(jù)被稱為冷數(shù)據(jù),。熱數(shù)據(jù)適合磁,、電介質(zhì)進(jìn)行存儲,實(shí)現(xiàn)高性能訪問;而冷數(shù)據(jù),,則適合使用綠色節(jié)能,、單位存儲成本低的光存儲介質(zhì)。
訪問數(shù)據(jù),,其實(shí)就是把它從光介質(zhì)中拿出,,暫存到電磁介質(zhì)之中;當(dāng)數(shù)據(jù)完成了使命,再把它放回光介質(zhì),。一來一回,,就會出現(xiàn)數(shù)據(jù)的冷熱切換,也就是“抖動”,。數(shù)據(jù)總在不同介質(zhì)之間來回“折騰”,,能耗就會增加,使得光存儲的節(jié)能效果打了折扣,。
對此,,王國仁想到了一個(gè)“思路很簡單的方法”,使光存儲的節(jié)能效果相較于磁盤存儲提高了90%以上。
王國仁說,,這個(gè)方法就是在移動數(shù)據(jù)前,,用人工智能進(jìn)行“預(yù)判”,預(yù)測整個(gè)數(shù)據(jù)場將來的行為,?!氨热纾抑肋@把椅子從倉庫拿出來后,,還有很多場合需要它,,就先把它放在辦公室,,隨時(shí)能用,。”王國仁指了指自己身旁的椅子,,“如果我知道,,這把椅子以后很長時(shí)間都用不到了,那就把它放回倉庫,,免得占地方,。”
光電分級存儲,,實(shí)現(xiàn)了真正的節(jié)能,,也為高密度光數(shù)據(jù)存儲的產(chǎn)業(yè)化掃除了重大障礙。
應(yīng)對所有數(shù)據(jù)類型
還要解決的問題是“算”,。
數(shù)據(jù)湖中的數(shù)據(jù)來源多樣,,形態(tài)多樣,可謂五花八門,。不同的數(shù)據(jù),,不同的任務(wù),需要不同的處理方式,。能不能找到一種方法“一統(tǒng)天下”,,高效應(yīng)對所有數(shù)據(jù)類型?
王國仁說,這個(gè)方法就是“抽象”,。
王國仁解釋,,不管是執(zhí)行什么任務(wù),歸根結(jié)底,,就是計(jì)算,。大道至簡,核心無非加減乘除,,所以,,要找到底層邏輯,讓所有任務(wù)在算術(shù)上都變成同質(zhì)的。這樣一來,,處理不同任務(wù),,就變成了一個(gè)優(yōu)化計(jì)算順序的問題?!袄眠@種思路,,結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)都能應(yīng)對,,圖像,,視頻,文字都可以處理,。這也就是全任務(wù)協(xié)同優(yōu)化計(jì)算新系統(tǒng),。”王國仁說,。
要高效處理數(shù)據(jù),,還得保障數(shù)據(jù)的質(zhì)量?!捌鋵?shí)思路也很簡單,。”王國仁說,。
傳統(tǒng)保障數(shù)據(jù)質(zhì)量的方法是“基于規(guī)則”的,。比如,看到一頭三條腿的大象,,在具備“大象應(yīng)該有四條腿”的領(lǐng)域知識下,,數(shù)據(jù)湖能將這一有缺陷的大象相關(guān)數(shù)據(jù)進(jìn)行修復(fù)。但是,,我們很難對所有類型的數(shù)據(jù)都事先定義規(guī)則,。那么,能不能在沒有相關(guān)領(lǐng)域知識的情況下修復(fù)數(shù)據(jù)?王國仁介紹,,可以通過語義驅(qū)動來補(bǔ)足規(guī)則定義的不足:先通過模型學(xué)習(xí)何為常識,,再在大語言模型的幫助下判斷數(shù)據(jù)的準(zhǔn)確性,然后進(jìn)行修復(fù),。
王國仁團(tuán)隊(duì)從2008年起就開始研究數(shù)據(jù)的聚合,、存儲和計(jì)算,已經(jīng)有了長時(shí)間的積累,。如今,,圍繞多源異構(gòu)數(shù)據(jù)湖的聚合—存儲—計(jì)算,其團(tuán)隊(duì)取得了跨模修復(fù)與多模融合,、藍(lán)光存儲與智能調(diào)度,、批流融合計(jì)算與混合查詢優(yōu)化等技術(shù)創(chuàng)新。
近年來,王國仁主動找到數(shù)據(jù)庫龍頭企業(yè)建立合作,。團(tuán)隊(duì)和企業(yè)合作研制出的數(shù)據(jù)湖系統(tǒng),,推動了我國大數(shù)據(jù)管理領(lǐng)域的發(fā)展。成果已經(jīng)服務(wù)于智慧城市,、智能公安,、智慧醫(yī)療等領(lǐng)域,并支撐全國首個(gè)數(shù)據(jù)銀行建設(shè),。(記者 張蓋倫)
編輯:周大為