數(shù)據(jù)標注是對數(shù)據(jù)進行添加標記,、說明,、解釋、分類和編碼的過程,。這一過程是提升人工智能算法與模型核心能力的關鍵環(huán)節(jié),。近日,我國首個數(shù)據(jù)標注產(chǎn)業(yè)專項規(guī)劃——《合肥數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展規(guī)劃(2025—2027年)》(以下簡稱《規(guī)劃》)發(fā)布,。
“《規(guī)劃》立足安徽合肥產(chǎn)業(yè)基礎,,以打造國際領先的數(shù)據(jù)標注創(chuàng)新基地為目標,為推進城市數(shù)字化轉型提供核心支撐,?!焙戏适袛?shù)據(jù)資源管理局黨組成員、總工程師彭輝在接受科技日報記者采訪時表示,,預計到2027年底,,合肥標注數(shù)據(jù)規(guī)模將達到3000TB,產(chǎn)業(yè)規(guī)模突破30億元,,支撐相關產(chǎn)業(yè)規(guī)模邁上千億元臺階,。
產(chǎn)業(yè)優(yōu)勢與多元需求融合
位于合肥高新區(qū)的飛友科技有限公司,是一家深耕民航大數(shù)據(jù)的科技企業(yè),。3月30日,,該公司首席技術官朱睿向記者介紹:“以安全事件監(jiān)管為例,傳統(tǒng)的人工巡檢和視頻回放方式效率低下,,實時性欠佳,。然而,通過對航空器保障視頻畫面進行采集標注,,我們可實現(xiàn)運行節(jié)點的自動提取和安全事件的實時監(jiān)測,工作效率大大提高,?!?/p>
“在合肥,還有許多類似的大數(shù)據(jù)企業(yè),,為相關行業(yè)政策的制定提供了‘源頭活水’,。”彭輝說,,早在2017年,,合肥就在全國率先啟動大數(shù)據(jù)企業(yè)認定工作,。目前,合肥市大數(shù)據(jù)企業(yè)存量達2246家,,涌現(xiàn)出一大批行業(yè)領先者,。
“合肥數(shù)據(jù)標注產(chǎn)業(yè)優(yōu)勢明顯,相關企業(yè)也有迫切發(fā)展需求,?!迸磔x介紹,合肥依托人工智能,、智能網(wǎng)聯(lián)汽車等戰(zhàn)略性新興產(chǎn)業(yè)集聚優(yōu)勢,,數(shù)據(jù)標注應用場景豐富。如科大訊飛等企業(yè)在人工智能數(shù)據(jù)標注方面,,比亞迪,、蔚來等智能網(wǎng)聯(lián)汽車企業(yè)在自動駕駛數(shù)據(jù)標注等方面,為數(shù)據(jù)標注產(chǎn)業(yè)提供了多樣化的業(yè)務場景,。
此外,,合肥地處人工智能產(chǎn)業(yè)集中的長三角區(qū)域,如上海,、杭州等地的自動駕駛,、金融科技產(chǎn)業(yè)對高質(zhì)量標注數(shù)據(jù)需求旺盛。
截至目前,,合肥的數(shù)據(jù)標注總規(guī)模已達933.3TB,,相關企業(yè)總數(shù)突破35家,數(shù)據(jù)標注總產(chǎn)值累計達8.63億元,,初步形成了覆蓋數(shù)據(jù)采集,、清洗、標注,、應用的全鏈條產(chǎn)業(yè)生態(tài),。
為人工智能行業(yè)提供支撐
“如果把人工智能模型比作學生,那么數(shù)據(jù)標注員就是老師,?!卑不诊w數(shù)信息科技有限公司常務副總經(jīng)理、合肥市數(shù)據(jù)產(chǎn)業(yè)協(xié)會秘書長譚昶形象地比喻道,,標注員通過詳細地標注數(shù)據(jù),,為模型提供準確的指導和示范,幫助模型認識不同的模式和特征,。
“比如,,我們?yōu)橛嶏w星火大模型標注了大量科普知識問答和評價數(shù)據(jù)。在這些‘老師’的指引下,模型逐漸學會了如何準確回答不同問題,?!弊T昶舉例說。
去年4月,,全國數(shù)據(jù)工作會議提出,,探索建設國家級數(shù)據(jù)標注基地,充分發(fā)揮地方配套支撐作用,,在數(shù)據(jù)標注產(chǎn)業(yè)的生態(tài)構建,、能力提升和場景應用等方面先行先試,集聚龍頭企業(yè),,促進區(qū)域人工智能產(chǎn)業(yè)生態(tài)發(fā)展,。次月,國家數(shù)據(jù)局發(fā)布承擔數(shù)據(jù)標注基地建設任務的首批城市名單,,合肥位列其中,。
“合肥的數(shù)據(jù)標注產(chǎn)業(yè),已為人工智能產(chǎn)業(yè)發(fā)展提供了有力支撐,?!迸磔x介紹。2024年5月,,合肥啟動建設“人機協(xié)同多模態(tài)眾智標注平臺”,。目前,該平臺開發(fā)進度達90%,,功能完備性實現(xiàn)100%,,技術指標處于行業(yè)前列。
另外,,合肥圍繞工業(yè)制造,、醫(yī)療、教育,、城市治理,、地理信息等八大重點領域,構建了多模態(tài)數(shù)據(jù)標注服務體系,,已為安徽省政務服務大模型,、豆包大模型等18個大模型提供數(shù)據(jù)支撐。
“下一步,,合肥將充分發(fā)揮區(qū)域優(yōu)勢,,實現(xiàn)以合肥為總部基地,覆蓋全省,、服務長三角,推動形成數(shù)據(jù)標注產(chǎn)業(yè)與國家人工智能重大生產(chǎn)力協(xié)同發(fā)展的格局?!迸磔x表示,。(本報記者 洪敬譜)
責任編輯:張鈺