當(dāng)前,我國(guó)人工智能大模型正進(jìn)入快速發(fā)展階段,。模型參數(shù)動(dòng)輒超萬(wàn)億,,訓(xùn)練數(shù)據(jù)更是超十萬(wàn)億級(jí)別,,如此龐大的規(guī)模給模型訓(xùn)練和推理帶來(lái)了通信、效率等多方面挑戰(zhàn),。為應(yīng)對(duì)這些挑戰(zhàn),,騰訊自主研發(fā)了Angel機(jī)器學(xué)習(xí)平臺(tái)。
“Angel機(jī)器學(xué)習(xí)平臺(tái)能幫助提供更好的‘基建體系’,,助力大模型高速運(yùn)行,。”1月15日,,騰訊機(jī)器學(xué)習(xí)平臺(tái)部總監(jiān)陶陽(yáng)宇接受科技日?qǐng)?bào)記者采訪時(shí)介紹,,Angel機(jī)器學(xué)習(xí)平臺(tái)針對(duì)眾多核心底層硬件和關(guān)鍵軟件技術(shù)實(shí)現(xiàn)自主研發(fā),通過(guò)工程能力創(chuàng)新,,可支持萬(wàn)億參數(shù)規(guī)模大模型的訓(xùn)練和推理,,以及涉及大規(guī)模計(jì)算量的應(yīng)用部署,助力實(shí)體產(chǎn)業(yè)升級(jí)和數(shù)字經(jīng)濟(jì)發(fā)展,。
確保訓(xùn)練“不卡殼”
“訓(xùn)練大模型,,其實(shí)就像工廠里的‘流水線’,數(shù)據(jù)喂進(jìn)去,,產(chǎn)出大模型,,網(wǎng)絡(luò)、算力和訓(xùn)練推理平臺(tái)是‘流水線’上三個(gè)關(guān)鍵要素,,缺一不可,。”陶陽(yáng)宇打了一個(gè)生動(dòng)的比方,。
“Angel機(jī)器學(xué)習(xí)平臺(tái)就是要為大模型訓(xùn)練打造一條‘超級(jí)流水線’,,投入數(shù)據(jù)‘原料’,就能訓(xùn)練出可直接部署的大模型,,高效又穩(wěn)定,。”陶陽(yáng)宇說(shuō),。
如何提升算力資源利用率,,成為大模型發(fā)展的關(guān)鍵。這對(duì)Angel機(jī)器學(xué)習(xí)平臺(tái)的研發(fā)提出了技術(shù)挑戰(zhàn),?!坝?xùn)練大模型所需的海量算力,單臺(tái)服務(wù)器無(wú)法支持,,需要由大量服務(wù)器作為節(jié)點(diǎn),,通過(guò)高速網(wǎng)絡(luò)互聯(lián)組成集群,。”陶陽(yáng)宇說(shuō),,團(tuán)隊(duì)自研了星脈RDMA網(wǎng)絡(luò),,給Angel機(jī)器學(xué)習(xí)平臺(tái)裝配上全新“傳送帶”,,實(shí)現(xiàn)集群高速互聯(lián),。相比于同類領(lǐng)先產(chǎn)品,RDMA網(wǎng)絡(luò)單節(jié)點(diǎn)帶寬達(dá)到3.2T,,通信性能提升30%,,成本降低70%。
憑借深厚的技術(shù)積累,、創(chuàng)新的關(guān)鍵技術(shù)和廣泛的應(yīng)用場(chǎng)景,,“Angel大規(guī)模機(jī)器學(xué)習(xí)平臺(tái)關(guān)鍵技術(shù)與應(yīng)用”獲2024年世界互聯(lián)網(wǎng)大會(huì)領(lǐng)先科技獎(jiǎng)。
建起“智能調(diào)度中心”
過(guò)去的大模型訓(xùn)練框架,,就像“流水線”上老舊的機(jī)器,,效率不高,導(dǎo)致很多算力空轉(zhuǎn)浪費(fèi),。
為解決這個(gè)問(wèn)題,,Angel機(jī)器學(xué)習(xí)平臺(tái)自研了訓(xùn)練/推理框架,提出顯存加主存的一體化機(jī)制,,實(shí)現(xiàn)多維并行和算子優(yōu)化,。這猶如給“流水線”換了一臺(tái)“渦輪增壓發(fā)動(dòng)機(jī)”,每一點(diǎn)資源都被充分利用起來(lái),,使訓(xùn)練性能提升2.6倍,,推理速度提升2.3倍,又快又省錢,。
訓(xùn)練萬(wàn)億參數(shù)規(guī)模的大模型,,圖形處理器(GPU)間的協(xié)同十分重要。傳統(tǒng)GPU集群的架構(gòu)就像“手工作坊”,,生產(chǎn)效率較低,。而Angel機(jī)器學(xué)習(xí)平臺(tái)采用了一種GPU拓?fù)涓兄{(diào)度,優(yōu)化了任務(wù)分配機(jī)制,,如同在“流水線”上建起“智能調(diào)度中心”,,讓“流水線”的GPU節(jié)點(diǎn)各司其職、默契配合,,變得高效有序,,GPU集群加速比從50%提升到99%。
基于Angel機(jī)器學(xué)習(xí)平臺(tái),,騰訊自主研發(fā)了參數(shù)量達(dá)到萬(wàn)億級(jí)別的混元大模型,。該大模型已應(yīng)用于騰訊內(nèi)部的700多個(gè)業(yè)務(wù)場(chǎng)景,,并通過(guò)騰訊云服務(wù)30萬(wàn)行業(yè)客戶,覆蓋廣告,、金融,、社交等多個(gè)領(lǐng)域,助力各行各業(yè)數(shù)智化升級(jí),。
加大底層技術(shù)研發(fā)
2024中國(guó)算力大會(huì)發(fā)布的《中國(guó)綜合算力指數(shù)報(bào)告(2024)》顯示,,過(guò)去20年間,中國(guó)的智能算力需求增長(zhǎng)超過(guò)百億倍,。這使算力中心朝著萬(wàn)卡規(guī)模邁進(jìn),。近年來(lái),全球各大運(yùn)營(yíng)商均在加速布局超大規(guī)模的智算中心,,以適應(yīng)這一需求,。
“Angel機(jī)器學(xué)習(xí)平臺(tái)已達(dá)到萬(wàn)卡規(guī)模,現(xiàn)在我們正針對(duì)更大規(guī)模的場(chǎng)景進(jìn)行優(yōu)化,,以提高平臺(tái)的效率和穩(wěn)定性,。”陶陽(yáng)宇透露,。
值得一提的是,,Angel機(jī)器學(xué)習(xí)平臺(tái)支持國(guó)產(chǎn)芯片的應(yīng)用,并初步解決了異構(gòu)芯片混合計(jì)算問(wèn)題,。未來(lái),,平臺(tái)將在此基礎(chǔ)上探索更靈活有效的國(guó)產(chǎn)化芯片技術(shù)支持?!拔覀儗⑦M(jìn)一步推廣異構(gòu)芯片混合計(jì)算的應(yīng)用,,靈活調(diào)度不同芯片,充分發(fā)揮每一款芯片的算力,?!碧贞?yáng)宇表示。
此外,,由于單一數(shù)據(jù)中心的算力集群在電力供應(yīng)上可能會(huì)受限,,因此需要多個(gè)大的算力集群聯(lián)合起來(lái)工作。為滿足這一需求,,研究團(tuán)隊(duì)還在研究跨數(shù)據(jù)中心的大規(guī)模訓(xùn)練技術(shù),。目前,研究團(tuán)隊(duì)已在兩座距離約120公里的數(shù)據(jù)中心之間完成千卡規(guī)模的訓(xùn)練任務(wù),,其效率能達(dá)到單集群的98%左右,。
騰訊公司副總裁蔣杰表示,公司未來(lái)將繼續(xù)投入底層技術(shù)自主研發(fā),,并通過(guò)開源共享推動(dòng)技術(shù)創(chuàng)新升級(jí),,助力智能技術(shù)走入千行百業(yè),。(記者 葉 青)
編輯:周大為