視覺中國供圖
一個來自中國的開源模型,在開年之際聚焦了人工智能(AI)行業(yè)的目光,。
日前,杭州深度求索人工智能基礎技術(shù)研究有限公司(以下簡稱“深度求索”)上線并同步開源DeepSeek-V3模型,,同時公布長達53頁的技術(shù)報告,,介紹關鍵技術(shù)和訓練細節(jié)。
和很多語焉不詳?shù)膱蟾嫦啾?,這份報告真正做到了開源,。其中最抓人眼球的部分是,V3模型能力大幅升級,,但訓練僅僅花費557.6萬美元,,僅用2048塊H800顯卡,耗時不到兩個月,。
美國人工智能初創(chuàng)公司Anthropic首席執(zhí)行官達里奧·阿莫迪曾透露,,GPT-4o的模型訓練成本約為1億美元。美國開放人工智能研究中心(OpenAI)創(chuàng)始成員之一安德烈·卡帕西點評,,DeepSeek-V3讓在有限算力預算內(nèi)進行模型預訓練這件事變得容易,。
深度求索如何實現(xiàn)“花小錢辦大事”?它是否走出了大模型發(fā)展的一條新路?
降低模型推理成本
深度求索一直是國內(nèi)AI版圖上位置相對獨特的一家——它是唯一沒有做2C(面向個人消費者)應用的公司,選擇開源路線,,至今沒有融過資,。
去年5月,深度求索發(fā)布DeepSeek-V2,,以其創(chuàng)新的模型架構(gòu)和史無前例的性價比爆火,。模型推理成本被降至每百萬Tokens(大模型用來表示自然語言文本的單位)僅1元錢,約等于開源大模型Llama3 70B的七分之一,,GPT-4 Turbo的七十分之一,,引發(fā)字節(jié)、阿里,、百度等企業(yè)的模型降價潮,。
個中關節(jié)在于,DeepSeek提出的MLA(多頭潛在注意力機制)架構(gòu)和DeepSeekMoESparse(采用稀疏結(jié)構(gòu)的混合專家模型)結(jié)構(gòu),,大幅降低了模型的計算量和顯存占用,,實現(xiàn)了高效推理和經(jīng)濟高效的訓練。
簡單來說,,模型壓縮,、專家并行訓練、FP8混合精度訓練,、數(shù)據(jù)蒸餾與算法優(yōu)化等一系列創(chuàng)新技術(shù)大幅降低了V3模型成本,。作為新興的低精度訓練方法,F(xiàn)P8技術(shù)通過減少數(shù)據(jù)表示所需的位數(shù),,顯著降低了內(nèi)存占用和計算需求,。據(jù)報道,,目前,谷歌等已將這項技術(shù)引入模型訓練與推理中,。
深度科技研究院院長張孝榮在接受媒體采訪時說,,DeepSeek的“出圈”是對其在大模型技術(shù)上的突破和創(chuàng)新的認可,其通過優(yōu)化算法和工程實踐,,實現(xiàn)高性能與低成本的平衡,。DeepSeek為整個行業(yè)的發(fā)展注入活力,也對大模型的技術(shù)路徑和工程實踐產(chǎn)生積極影響,,推動高效訓練,、模型輕量化和工程優(yōu)化。
有業(yè)內(nèi)人士分析,,V3在架構(gòu)創(chuàng)新,、訓練效率和推理性能方面展現(xiàn)巨大潛力,尤其在成本和性能的平衡方面作出重要貢獻,。不過,,與此同時,也仍有許多挑戰(zhàn)需要解決,,如需進一步擴展上下文長度,、優(yōu)化多模態(tài)數(shù)據(jù)處理等。未來的研究方向包括提升模型的推理速度,、完善更高效的硬件架構(gòu)設計,,以及增強多模態(tài)學習和生成能力。
不堆算力創(chuàng)新算法
大參數(shù),、大算力,、大投入,這條已經(jīng)被驗證行之有效的ChatGPT路徑,,實則是絕大部分創(chuàng)業(yè)公司難以承受之重,。
據(jù)報道,仍處于研發(fā)過程中的GPT-5,,已進行過至少兩輪訓練,,每輪訓練耗時數(shù)月,一輪計算成本接近5億美元,。一年半過去,,GPT-5仍未問世。這意味著,,新一代通用大模型的訓練成本已達到十多億美元甚至更高,。未來這一數(shù)字可能持續(xù)攀升。
規(guī)模定律(Scaling law)是指在訓練大模型時,,數(shù)據(jù)量,、參數(shù)量和計算資源越多,訓練出的模型能力和效果越好,。然而,,一段時間以來,行業(yè)對規(guī)模定律可持續(xù)性的疑問不絕于耳,。
V3的出現(xiàn)提供了新的解法,。“Scaling Law不只停留在預訓練階段,,而是往后訓練,,尤其是注重推理領域的后訓練集、強化學習等領域擴展,?!敝窃囱芯吭焊痹洪L兼總工程師林詠華接受科技日報記者采訪時說,這一點在國外以OpenAI o1發(fā)布為標志,,國內(nèi)則有DeepSeek使用強化學習訓練發(fā)布DeepSeek R1這個具有很強挖掘和激活能力的模型,。
在林詠華看來,V3的發(fā)布,,也印證了利用R1可以很好進行能力提升,。
行業(yè)相關探索還有很多,如Kimi將強化學習用到更多搜索場景,,發(fā)布以邏輯思考和深度思考為核心功能的數(shù)學模型K0-math;螞蟻技術(shù)研究院建立強化學習實驗室,,圍繞如何在后訓練及強化學習上進行更多模型能力的探索。林詠華期待,,未來不僅是靠堆砌更多算力,、參數(shù)和數(shù)據(jù),而是靠真正的算法創(chuàng)新,,持續(xù)在后訓練階段幫助模型提升基礎能力,。
值得注意的是,“省錢模式開啟”并不意味著算力式微,。
V3發(fā)布后,,360集團創(chuàng)始人周鴻祎發(fā)文稱贊“DeepSeek的進步對推動中國AI產(chǎn)業(yè)發(fā)展是極大利好”,但他也認為,,這并非說中國AI發(fā)展不需要高端算力芯片,。囤顯卡建算力集群依舊必要,因為目前預訓練算力需求或許沒那么大,,但像慢思考這類復雜推理模型對推理算力需求大,,文生圖、文生視頻的應用也需消耗大量算力資源,。巨頭們提供AI云服務,,構(gòu)建龐大算力基礎必不可少,,這與 DeepSeek 降低訓練算力需求是兩回事,兩者并不矛盾,。
一位行業(yè)專家在接受記者采訪時認為,,2025年,大模型行業(yè)會進一步收斂,,這種收斂既包括技術(shù)層面,,也包括廠商層面。進入“百模大戰(zhàn)”后期,,要進一步提高模型計算效率,,降低推理成本,對計算的架構(gòu)分布,、利用效率等都提出更為精細化的要求,。
“燒錢”不是唯一邏輯
深度求索創(chuàng)始人梁文鋒在金融行業(yè)征戰(zhàn)已久。他成立的幻方量化早在2019年就開始大手筆投入深度學習訓練平臺,。2023年7月,,梁文鋒創(chuàng)立深度求索,專注AI大模型的研究和開發(fā),。
據(jù)報道,,包括梁文鋒在內(nèi),深度求索僅有139名工程師和研究人員,。在外界看來,,這是一支“神秘的東方力量”。
但在一次采訪中,,梁文鋒曾透露,,深度求索并沒有什么高深莫測的奇才,團隊都是國內(nèi)頂尖高校的應屆畢業(yè)生,,沒畢業(yè)的博四,、博五實習生,還有一些畢業(yè)才幾年的年輕人,。他特別提及,,“V2模型沒有海外回來的人,都是本土的”,。
他也曾在訪談中說,,過去30多年的IT浪潮,中國基本上扮演的是追隨者角色,,“隨著經(jīng)濟的發(fā)展,,中國也應該逐步成為技術(shù)創(chuàng)新的主要貢獻者”。如今,V3的橫空出世貢獻了一個更高效率,、更低成本的大模型發(fā)展樣本,,也讓AI行業(yè)看到一種可能:雖然訓練大模型依然需要大規(guī)模顯卡集群,但“燒錢”不是行業(yè)唯一的邏輯,,也并不是誰燒錢多,,誰就注定贏得一切。
對此,,周鴻祎評論道,V3用2000塊卡做到了萬卡集群才能做到的事,。用這種極致訓練方法訓練專業(yè)大模型,,算力成本會進一步降低,促使中國AI在專業(yè),、垂直,、場景、行業(yè)大模型上更快普及,。(記者 崔 爽)
編輯:周大為