低成本推理與超長(zhǎng)文本理解的創(chuàng)新之門(mén),近日被我國(guó)一家AI企業(yè)敲開(kāi)。
6月17日凌晨,,總部位于上海的AI獨(dú)角獸企業(yè)MiniMax(上海稀宇科技有限公司),,發(fā)布了自主研發(fā)的“全球首個(gè)開(kāi)源的大規(guī)?;旌霞軜?gòu)推理模型”MiniMax-M1(以下簡(jiǎn)稱(chēng)“M1”),。M1支持100萬(wàn)token(語(yǔ)言中具有獨(dú)立意義的最小單位)上下文窗口,,訓(xùn)練成本僅為53.74萬(wàn)美元,,約合380萬(wàn)元人民幣,其長(zhǎng)文本處理,、代碼生成等核心性能填補(bǔ)了開(kāi)源領(lǐng)域長(zhǎng)上下文技術(shù)的空白,,展現(xiàn)出比肩甚至超越業(yè)界頂尖模型的實(shí)力。
開(kāi)源“新王”:較低成本訓(xùn)練出頂尖模型
記者登錄MiniMax自有的App和Web端看到,,M1模型保持不限量免費(fèi)使用,。“M1如同用經(jīng)濟(jì)型轎車(chē)的成本造出了豪華超跑”“M1是我們眼中的性?xún)r(jià)比‘新王’”……互聯(lián)網(wǎng)上,,一些AI行業(yè)觀(guān)察者給出這樣的評(píng)價(jià),。
作為國(guó)內(nèi)“AI六小虎”之一的MiniMax,此次發(fā)布的M1大模型何以擁有巨大的成本優(yōu)勢(shì),?資深人工智能專(zhuān)家,、高級(jí)工程師丁成剛認(rèn)為,這主要源于企業(yè)的兩大技術(shù)創(chuàng)新,。一是采用閃電注意力機(jī)制為主的混合架構(gòu),,使得模型在計(jì)算長(zhǎng)上下文輸入以及深度推理時(shí)更加高效;二是運(yùn)用CISPO強(qiáng)化學(xué)習(xí)算法,,優(yōu)化重要性采樣權(quán)重,,訓(xùn)練效率超越其他大模型。得益于CISPO的高效,,M1模型的整個(gè)強(qiáng)化學(xué)習(xí)階段僅使用了512塊英偉達(dá)H800 GPU,,耗時(shí)3周,成本僅為53.74萬(wàn)美元,。這一成本顯著低于企業(yè)最初的預(yù)期,。
在進(jìn)行8萬(wàn)token的深度推理時(shí),M1所需的算力僅為國(guó)內(nèi)另一款大模型的約30%,;生成10萬(wàn)token時(shí),,推理算力只需要另一款大模型的25%。當(dāng)較低成本訓(xùn)練出頂尖模型,,實(shí)現(xiàn)“性能躍升,、成本腰斬”的雙重突破,用戶(hù)再也不用擔(dān)心百萬(wàn)token上下文成為高昂服務(wù),,這將為市場(chǎng)提供了一個(gè)高性能,、低門(mén)檻的新選擇??梢灶A(yù)見(jiàn),,M1或?qū)?huì)成為智能體時(shí)代的首選開(kāi)源基座模型。
技術(shù)“大考”:架構(gòu)創(chuàng)新實(shí)現(xiàn)性能超越
行業(yè)觀(guān)察人士認(rèn)為,,面對(duì)多個(gè)核心生產(chǎn)力場(chǎng)景,,M1于同類(lèi)模型中率先實(shí)現(xiàn)了技術(shù)突破與架構(gòu)創(chuàng)新,它的核心競(jìng)爭(zhēng)力在于將線(xiàn)性注意力與標(biāo)準(zhǔn)Softmax注意力有機(jī)融合,,形成獨(dú)特的“閃電注意力”機(jī)制,。這一設(shè)計(jì)讓M1在保持長(zhǎng)序列處理效率的同時(shí),解決了純線(xiàn)性注意力在信息檢索上的固有缺陷,。
記者了解到,,MiniMax在業(yè)內(nèi)公認(rèn)的17個(gè)主流評(píng)測(cè)集上對(duì)M1進(jìn)行了技術(shù)“檢閱”。結(jié)果顯示,,在軟件工程,、長(zhǎng)上下文理解以及工具使用等復(fù)雜且對(duì)生產(chǎn)力要求較高的場(chǎng)景中,M1展現(xiàn)出絕對(duì)實(shí)力,。在SWE-bench基準(zhǔn)測(cè)試?yán)?,M1-40k和M1-80k分別取得55.6%和56.0%的高分。憑借其百萬(wàn)級(jí)的上下文窗口,,M1在長(zhǎng)上下文理解任務(wù)中具有壓倒性?xún)?yōu)勢(shì),,不僅超越所有開(kāi)源模型,還在部分指標(biāo)上接近OpenAI o3和Claude4Opus,,在全球范圍內(nèi)位居第二,。
在代理工具使用場(chǎng)景TAU-bench的評(píng)測(cè)中,M1不僅在所有開(kāi)源模型中脫穎而出,,還戰(zhàn)勝了Gemini-2.5Pro,。此外,M1-80k在多數(shù)基準(zhǔn)測(cè)試中的表現(xiàn)都優(yōu)于M1-40k,,表明增加計(jì)算資源對(duì)提升模型性能有顯著作用,。在處理400頁(yè)技術(shù)文檔或10萬(wàn)行代碼庫(kù)時(shí),傳統(tǒng)模型需反復(fù)切分上下文,,而M1可以做到整體消化,、連貫推理,為智能體發(fā)展提供了開(kāi)創(chuàng)性范例,。
“M1打破了‘算力+資本’的競(jìng)爭(zhēng)模式,,將對(duì)全球AI大模型市場(chǎng)產(chǎn)生深遠(yuǎn)影響。不過(guò),,對(duì)于更多AI領(lǐng)域企業(yè)來(lái)說(shuō),,要從技術(shù)流派轉(zhuǎn)向市場(chǎng)應(yīng)用,以解決問(wèn)題,、實(shí)現(xiàn)任務(wù)為出發(fā)點(diǎn),,開(kāi)拓醫(yī)療,、健康、旅游,、傳媒等領(lǐng)域垂直類(lèi)應(yīng)用場(chǎng)景,,才能在A(yíng)I的規(guī)模化應(yīng)用方面擁有更多想象空間和發(fā)展機(jī)遇,?!辟Y深創(chuàng)投專(zhuān)家、江蘇投資人中心秘書(shū)長(zhǎng)吳峰認(rèn)為,。(記者 李 均)
責(zé)任編輯:張鈺