對(duì)語(yǔ)言文字,我們“日學(xué)而不察、日用而不覺(jué)”。其實(shí),,語(yǔ)言文字是國(guó)家重要的教育,、科技,、文化,、經(jīng)濟(jì),、安全和戰(zhàn)略資源。近日,,為搶抓大語(yǔ)言模型迭代升級(jí)新機(jī)遇,,教育部、國(guó)家語(yǔ)委,、中央網(wǎng)信辦印發(fā)《關(guān)于加強(qiáng)數(shù)字中文建設(shè) 推進(jìn)語(yǔ)言文字信息化發(fā)展的意見(jiàn)》(以下簡(jiǎn)稱《意見(jiàn)》),。3月31日,教育部舉行新聞發(fā)布會(huì),,專門(mén)對(duì)《意見(jiàn)》進(jìn)行全面解讀,。
教育部語(yǔ)言文字信息管理司司長(zhǎng)劉培俊介紹,《意見(jiàn)》明確提出,,將數(shù)字中文建設(shè)作為服務(wù)數(shù)字中國(guó)建設(shè)的重要任務(wù)和全面推進(jìn)語(yǔ)言文字信息化發(fā)展的突出重點(diǎn),,全方位釋放語(yǔ)言文字在經(jīng)濟(jì)社會(huì)發(fā)展中的數(shù)據(jù)要素價(jià)值。在實(shí)踐中,,既要規(guī)范,、有效、批量地將中文資源信息轉(zhuǎn)化為智能數(shù)據(jù),,也要促進(jìn)中文數(shù)據(jù)的規(guī)模生產(chǎn),、優(yōu)質(zhì)集成、規(guī)范治理和復(fù)用增效,,實(shí)現(xiàn)以數(shù)字化手段構(gòu)建新型中文服務(wù)體系,,引領(lǐng)帶動(dòng)語(yǔ)言文字信息化全面發(fā)展。
為何強(qiáng)調(diào)數(shù)字中文,?劉培俊表示,,中文使命重大,數(shù)字中國(guó)建設(shè),,加大國(guó)家通用語(yǔ)言文字推廣力度,、深化中華優(yōu)秀語(yǔ)言文化傳承、增進(jìn)語(yǔ)言文明國(guó)際交流互鑒等多項(xiàng)重大任務(wù)都更加需要中文數(shù)字化賦能,。中文文化內(nèi)涵豐富,,是中國(guó)貢獻(xiàn)給世界的重要公共文化產(chǎn)品,更加需要中文數(shù)字化傳播,。中文使用范圍廣泛,,更加需要中文數(shù)字化學(xué)習(xí)。而且,,中文數(shù)據(jù)價(jià)值突出,,大規(guī)模,、高質(zhì)量的中文數(shù)據(jù)有利于推動(dòng)中國(guó)特色大語(yǔ)言模型創(chuàng)新發(fā)展,更加需要中文數(shù)字化支撐,。
劉培俊介紹,,未來(lái)在技術(shù)創(chuàng)新應(yīng)用上,要發(fā)揮自然語(yǔ)言處理技術(shù)支撐人工智能發(fā)展的基礎(chǔ)作用,,加快領(lǐng)域大語(yǔ)言模型應(yīng)用試點(diǎn),,確保規(guī)范安全,示范應(yīng)用,;研制面向人工智能的語(yǔ)言資源建設(shè),、管理、應(yīng)用標(biāo)準(zhǔn),,特別是語(yǔ)料和數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)等,。在數(shù)據(jù)資源建設(shè)上,發(fā)揮語(yǔ)言文字服務(wù)國(guó)家語(yǔ)言能力建設(shè)的戰(zhàn)略作用,,實(shí)施國(guó)家關(guān)鍵語(yǔ)料庫(kù)建設(shè)計(jì)劃,,建設(shè)大規(guī)模中文語(yǔ)料庫(kù)等。在關(guān)鍵領(lǐng)域賦能上,,發(fā)揮信息技術(shù)賦能?chē)?guó)家語(yǔ)言服務(wù)體系構(gòu)建的全局優(yōu)勢(shì),,研制大語(yǔ)言模型能力素養(yǎng)框架(師生版),推進(jìn)甲骨文數(shù)字化共享,,實(shí)施中華文化優(yōu)秀課程多語(yǔ)種數(shù)字化傳播計(jì)劃等,。
北京大學(xué)王選計(jì)算機(jī)研究所所長(zhǎng)湯幟指出,上世紀(jì)80年代,,激光照排技術(shù)的發(fā)明,,讓承載中華文化的中文在全球互聯(lián)網(wǎng)空間獲得新生。當(dāng)前,,大語(yǔ)言模型技術(shù)對(duì)大規(guī)模高質(zhì)量語(yǔ)料提出前所未有的需求,,中文信息處理技術(shù)的發(fā)展從以往解決漢字輸入輸出的基礎(chǔ)性問(wèn)題,進(jìn)階到當(dāng)前釋放語(yǔ)言文字?jǐn)?shù)據(jù)要素價(jià)值的全方位突破,。
湯幟表示,,加強(qiáng)數(shù)字中文建設(shè)將重塑發(fā)展格局,推動(dòng)中文信息處理技術(shù)發(fā)展進(jìn)入新階段,。語(yǔ)言文字將實(shí)現(xiàn)從“靜態(tài)符號(hào)”向“動(dòng)態(tài)數(shù)字資產(chǎn)”,、從“信息載體”向“生產(chǎn)要素”的轉(zhuǎn)型,要重點(diǎn)推動(dòng)語(yǔ)料庫(kù),、數(shù)據(jù)標(biāo)注與評(píng)價(jià)等標(biāo)準(zhǔn)的研制,,支持文本生成與理解、語(yǔ)言翻譯,、情感分析等各種任務(wù),。語(yǔ)言文字還將實(shí)現(xiàn)從符號(hào)存儲(chǔ)到智能建模的質(zhì)變,,因此,要聚焦關(guān)鍵垂直領(lǐng)域建設(shè)語(yǔ)料基礎(chǔ)設(shè)施,,構(gòu)建支持大模型訓(xùn)練的高質(zhì)量中文數(shù)據(jù)集,。
湯幟強(qiáng)調(diào),語(yǔ)言文字還會(huì)起到賦能全局發(fā)展的作用,。新形勢(shì)下,,語(yǔ)言文字信息處理技術(shù)創(chuàng)新應(yīng)用正經(jīng)歷從“GB2312字符集”到“萬(wàn)億參數(shù)大語(yǔ)言模型”的范式變革,,語(yǔ)言文字將實(shí)現(xiàn)與信息技術(shù)的深度融合,,形成“技術(shù)突破—場(chǎng)景落地—生態(tài)繁榮”的良性循環(huán),服務(wù)教育發(fā)展,,助力科技創(chuàng)新,,賦能文化傳承,推動(dòng)產(chǎn)業(yè)升級(jí),,促進(jìn)社會(huì)進(jìn)步,。(本報(bào)記者 張蓋倫)
責(zé)任編輯:張鈺