綜合報道,在當前人工智能(AI)領(lǐng)域,算力資源的高效利用已成為各大科技公司爭相追逐的目標。近日,阿里云提出的創(chuàng)新計算池化解決方案“Aegaeon”成功入選頂級學術(shù)會議SOSP2025。
SOSP(操作系統(tǒng)原理研討會)是由ACM SIGOPS主辦的計算機系統(tǒng)領(lǐng)域頂級學術(shù)會議,每年僅收錄數(shù)十篇論文,被譽為計算機操作系統(tǒng)領(lǐng)域的“奧斯卡”。
在過去的幾個月里,阿里云對Aegaeon系統(tǒng)進行了為期超過三個月的Beta測試,結(jié)果顯示,該系統(tǒng)在服務參數(shù)量高達720億的大型AI模型時,所需的英偉達H20 GPU數(shù)量從1192個減少至213個,削減比例高達82%。
這一顯著的減少不僅意味著阿里云可以大幅降低硬件采購成本,更是為那些依賴成千上萬張GPU進行模型服務的大型企業(yè)提供了寶貴的經(jīng)驗與借鑒。以服務數(shù)十個720億參數(shù)大模型為例,原本需要1192張GPU才能完成的任務,現(xiàn)在僅需213張即可勝任,硬件成本銳減超80%。
通過數(shù)據(jù)分析,阿里云發(fā)現(xiàn),現(xiàn)有模型市場中,少數(shù)熱門模型(例如阿里的Qwen)承載了絕大多數(shù)用戶請求,而大量不常被調(diào)用的“長尾”模型卻各自占用大量GPU資源。數(shù)據(jù)顯示,曾有17.7%的GPU算力僅用于處理1.35%的請求,資源閑置現(xiàn)象相當嚴重。
Aegaeon系統(tǒng)通過GPU資源池化的方式,打破了傳統(tǒng)“一個模型綁定一個GPU”的低效模式,實現(xiàn)了更高效的資源配置。具體而言,Aegaeon將多個GPU的計算、內(nèi)存等抽象成一個資源池,按需分配給不同的任務,避免了單個任務獨占資源導致的閑置。
Aegaeon系統(tǒng)的核心創(chuàng)新點在于Token級調(diào)度。該系統(tǒng)的多模型混合服務功能能夠在每次生成下一個token時動態(tài)決定是否切換模型,從而實現(xiàn)精細化管理。通過組件復用、顯存精細化管理以及KV緩存同步優(yōu)化等全棧技術(shù),Aegaeon將模型切換的開銷降低了97%。
這一技術(shù)確保了token級調(diào)度的實時性,使得模型切換響應時間可支持亞秒級的快速反應。據(jù)介紹,Aegaeon系統(tǒng)支持單個GPU同時服務多達7個不同模型,相比于現(xiàn)有主流方案,其有效吞吐量提升了1.5至9倍,處理能力提高了2至2.5倍。
Aegaeon的落地將推動算力租賃行業(yè)從“按卡計費”轉(zhuǎn)向“按實際使用量計費”,企業(yè)可通過彈性調(diào)度降低閑置成本。據(jù)測算,采用該技術(shù)的云服務商可將算力租賃價格降低40%-60%,加速AI普惠化。
隨著AI技術(shù)的不斷進步,對算力的需求將持續(xù)增長。GPU資源的高效利用,是實現(xiàn)AI規(guī)模化應用的關(guān)鍵。阿里云的Aegaeon方案,為AI算力效率提升提供了新的思路和解決方案,未來有望在更多云計算平臺和AI應用場景中得到推廣和應用。
新時代鞋服物流與供應鏈面臨的變革和挑戰(zhàn)03月07日 20:38
點贊:這個雙11,物流大佬一起做了這件事11月22日 21:43
物流管理機構(gòu)及政策分布概覽12月04日 14:10
盤點:2017中國零售業(yè)十大事件12月12日 13:57
2017年中國零售電商十大熱點事件點評12月28日 09:58