爱爱网站免费影院自慰女人自慰喷水高清AV毛片_丰满年轻岳欲乱中文字幕奇优影院一级无码啪啪片_婷婷色五月天久久无码专区_久久久久久精品免费不卡下载亚洲小说图片_中文字幕av无码一区二区国产三级黄片免费看_黄色福利网站国产成人,亚洲综合无码_亚洲综合图区自拍人牲A级牲交_亚洲成AV人在线观看网站一区二区三区AV波多野结衣_欧美高清天天狠狠五月天欧美A黄片_小12萝用铅笔自慰喷水欧美极品少妇裸交,中文久久少妇三级,欧美亚洲中文字幕的影片 ,a毛片在线看免费观看日本在线看片免费人成视频1000

山西科技新聞網(wǎng) > 要聞 > 正文

“換個角度”往往是顛覆性創(chuàng)新的起點

2025-03-31 科技日報

  3月29日,2025中關(guān)村論壇年會——第十四屆吳文俊人工智能科學(xué)技術(shù)獎頒獎典禮將科技進步獎特等獎授予京東科技信息技術(shù)有限公司,、中國科學(xué)技術(shù)大學(xué)等共同完成的“多模態(tài)交互式數(shù)字人關(guān)鍵技術(shù)及產(chǎn)業(yè)應(yīng)用”項目,。中國工程院院士,、清華大學(xué)信息學(xué)院院長戴瓊海在頒獎典禮上評價,獲獎團隊通過產(chǎn)學(xué)研合作推動數(shù)字人技術(shù)應(yīng)用,,為數(shù)字經(jīng)濟的發(fā)展樹立了標桿,。

  “能打動評委的,,或許不是形容數(shù)字人逼真度的一系列量化指標,而是真真切切呈現(xiàn)在他們面前的,、讓人一時真假難辨的數(shù)字人本身,。”特等獎團隊負責人,、京東探索研究院院長何曉冬告訴科技日報記者,,特等獎不是每年都有,要在一等獎的基礎(chǔ)上再評審,,只有得到絕大多數(shù)評委的認可才會被授予,。

  3年前,普通人要擁有一個和自己長得像,、說話像的數(shù)字人幾乎是不可能的,,寥寥幾位名主持人的數(shù)字分身表現(xiàn)也有些僵硬,。如今,,只需一張照片或很短的視頻,人人都能借助京東言犀擁有“以假亂真”的數(shù)字分身,。

  換個角度攀登“珠峰”

  在虛擬世界“克隆”一個自己,,這曾經(jīng)被認為是行業(yè)的一座“珠峰”。2020年,,英偉達創(chuàng)始人黃仁勛帶著自己的數(shù)字分身召開發(fā)布會,,不到一分鐘的“再現(xiàn)”背后,是幾百個攝像頭采集數(shù)據(jù),、最新的顯卡處理數(shù)據(jù)以及各類計算資源的支撐,。

  “那時不到一分鐘的數(shù)字分身‘仿真’可能需花費百萬美元?!焙螘远忉?,為了復(fù)刻得像,那時的技術(shù)邏輯是構(gòu)建物理模型,,把真實的三維世界的每個表面分割成大量很小的三角形,,通過物理模型進行模擬,然后渲染面部表情,,這樣需要極大量的計算,,且難以滿足實時輸出的要求。

  現(xiàn)實世界的逼真再現(xiàn)要處理的數(shù)據(jù)量太大了,,這似乎是一個邁不過去的“大山”,。

  研究團隊沒有選擇“死磕”,而是逆向思維研究起信息的接收方——視網(wǎng)膜,。

  “人體的視網(wǎng)膜是二維的,,我們之所以能感知這個世界,,是因為二維的信息在大腦中重構(gòu)出了三維?!焙螘远f,,與其先復(fù)現(xiàn)一個刻板的三維世界,被視網(wǎng)膜“降維”再由大腦重構(gòu),,不如直接把“降維”后的影像給視網(wǎng)膜,。這樣既解決了重構(gòu)的數(shù)據(jù)量,又沒有影響大腦的感知,。

  “換個角度解決問題”讓團隊找到了顛覆性創(chuàng)新的“更優(yōu)解”,。團隊進一步打磨端到端(無需高顆粒度拆解)的再現(xiàn)技術(shù),提升了二維的精度,,做到讓大腦“滿意”,。

  在動作的再現(xiàn)上,團隊利用“常識”進一步壓縮計算量,?!斑^去每個動作都要采集,然后再重現(xiàn),,事實上,,人類動作大多是常規(guī)的,很少有人像蜘蛛俠一樣行動,?!焙螘远f,通過預(yù)建模將“先驗知識”告知給AI,,AI在進行動作創(chuàng)造時就會有“依據(jù)”,,共同的動作有選擇,個別的動作再采集,,降低了處理量,,也讓動作更符合常理。

  給多模態(tài)數(shù)據(jù)任命“領(lǐng)隊”

  “我們瞄準的不是做一個‘展示品’,,而是要落地直播應(yīng)用,。”何曉冬說,,直播要和觀眾互動幾個小時,,就要解決人工智能幻覺,聲音,、手勢,、表情等協(xié)調(diào)的問題,而人對人是最敏感的,,哪怕眼珠轉(zhuǎn)動與聲音,、儀態(tài)出現(xiàn)一點偏差也會被視為異常,。

  文生視頻大模型Sora的產(chǎn)品是無聲的,但想應(yīng)用于直播就必須配上聲音,。一旦需要配音,,虛擬人的聲調(diào)、特有口音,、是否與動作匹配等細節(jié)都可能露餡,,這些使得多模態(tài)數(shù)據(jù)的聯(lián)動成為必須解決的問題。

  如何才能讓數(shù)字人知道說話的時候什么時候該亢奮,,什么時候該溫柔呢,?

  “團隊經(jīng)過討論決定用語音來驅(qū)動‘統(tǒng)領(lǐng)’表情、微動作等其他模態(tài)的信息,?!焙螘远f,通過生成一個基礎(chǔ)數(shù)字人,,用視覺特征對其進行訓(xùn)練,,讓它學(xué)會什么時候該輕聲細語、什么時候該聲音激昂,,聲音跟它要播報的文字內(nèi)容相匹配,,然后再驅(qū)動多模態(tài)的協(xié)同配合,,最終生成一個合乎常理的形象,。

  由于需要長時間播報,團隊還對人工智能的幻覺問題進行了專門攻關(guān),,將人工智能的幻覺率降低到可接受范圍內(nèi),,讓它在相當長的時間里保持逼真的擬人度和情緒。

  在計算量降低,、降本增效的基礎(chǔ)上,,京東言犀數(shù)字人實現(xiàn)了大規(guī)模商業(yè)化,已經(jīng)服務(wù)9000多戶商家,、累計創(chuàng)造140億元的經(jīng)濟價值,,未來將在文旅、教育,、政務(wù)等其他場景落地應(yīng)用,。

  “我們還將推出來‘千人千面’的數(shù)字人?!焙螘远f,,現(xiàn)在大家一場直播中看的內(nèi)容是一樣的,未來每個人根據(jù)喜好可以定制不同的數(shù)字人服務(wù),,在文旅表演等方面都能落地,。(本報記者 張佳星)

責任編輯:張鈺

熱點新聞
  • 1 史上最新最全的五臺山旅游攻略
  • 2 2021年中國五臺山國際旅游文化節(jié)隆...
  • 3 忻州五臺山機場 帶您走近“世界的五...
  • 4 五臺山景區(qū)舉行“光榮在黨50年”紀...
  • 5 五臺山精品景點寺廟
  • 6 康熙皇帝逸事
  • 7 五臺山開展建筑消防設(shè)施規(guī)范現(xiàn)場教...
  • 8 元宵節(jié)的由來與傳說
  • 9 中國的傳統(tǒng)節(jié)日“除夕夜”
  • 10 五臺山10大遺產(chǎn)寺廟自助旅游攻略