亚洲AV无码国产丝袜在|亚洲一区欧美一区|女人高潮叫床免费视频国产特级毛|亚洲午夜视频在线学习|黑桃视频官网入口|91喷水小视频亚洲激情无码专区|国产裸体美女视频官网|国产综合探花久久久|亚州黄色大片不卡|一级久久黄色电影

阿里云計算池化方案:英偉達H20 GPU用量削減82%

來源:電子發(fā)燒友網(wǎng) | 2025-10-23 16:39

  640 (4).jpg

      綜合報道,在當前人工智能(AI)領(lǐng)域,算力資源的高效利用已成為各大科技公司爭相追逐的目標。近日,阿里云提出的創(chuàng)新計算池化解決方案“Aegaeon”成功入選頂級學術(shù)會議SOSP2025。

  SOSP(操作系統(tǒng)原理研討會)是由ACM SIGOPS主辦的計算機系統(tǒng)領(lǐng)域頂級學術(shù)會議,每年僅收錄數(shù)十篇論文,被譽為計算機操作系統(tǒng)領(lǐng)域的“奧斯卡”。

  在過去的幾個月里,阿里云對Aegaeon系統(tǒng)進行了為期超過三個月的Beta測試,結(jié)果顯示,該系統(tǒng)在服務參數(shù)量高達720億的大型AI模型時,所需的英偉達H20 GPU數(shù)量從1192個減少至213個,削減比例高達82%。

  這一顯著的減少不僅意味著阿里云可以大幅降低硬件采購成本,更是為那些依賴成千上萬張GPU進行模型服務的大型企業(yè)提供了寶貴的經(jīng)驗與借鑒。以服務數(shù)十個720億參數(shù)大模型為例,原本需要1192張GPU才能完成的任務,現(xiàn)在僅需213張即可勝任,硬件成本銳減超80%。

  通過數(shù)據(jù)分析,阿里云發(fā)現(xiàn),現(xiàn)有模型市場中,少數(shù)熱門模型(例如阿里的Qwen)承載了絕大多數(shù)用戶請求,而大量不常被調(diào)用的“長尾”模型卻各自占用大量GPU資源。數(shù)據(jù)顯示,曾有17.7%的GPU算力僅用于處理1.35%的請求,資源閑置現(xiàn)象相當嚴重。

  Aegaeon系統(tǒng)通過GPU資源池化的方式,打破了傳統(tǒng)“一個模型綁定一個GPU”的低效模式,實現(xiàn)了更高效的資源配置。具體而言,Aegaeon將多個GPU的計算、內(nèi)存等抽象成一個資源池,按需分配給不同的任務,避免了單個任務獨占資源導致的閑置。

  Aegaeon系統(tǒng)的核心創(chuàng)新點在于Token級調(diào)度。該系統(tǒng)的多模型混合服務功能能夠在每次生成下一個token時動態(tài)決定是否切換模型,從而實現(xiàn)精細化管理。通過組件復用、顯存精細化管理以及KV緩存同步優(yōu)化等全棧技術(shù),Aegaeon將模型切換的開銷降低了97%。

  這一技術(shù)確保了token級調(diào)度的實時性,使得模型切換響應時間可支持亞秒級的快速反應。據(jù)介紹,Aegaeon系統(tǒng)支持單個GPU同時服務多達7個不同模型,相比于現(xiàn)有主流方案,其有效吞吐量提升了1.5至9倍,處理能力提高了2至2.5倍。

  Aegaeon的落地將推動算力租賃行業(yè)從“按卡計費”轉(zhuǎn)向“按實際使用量計費”,企業(yè)可通過彈性調(diào)度降低閑置成本。據(jù)測算,采用該技術(shù)的云服務商可將算力租賃價格降低40%-60%,加速AI普惠化。

  隨著AI技術(shù)的不斷進步,對算力的需求將持續(xù)增長。GPU資源的高效利用,是實現(xiàn)AI規(guī)模化應用的關(guān)鍵。阿里云的Aegaeon方案,為AI算力效率提升提供了新的思路和解決方案,未來有望在更多云計算平臺和AI應用場景中得到推廣和應用。


【聲明】物流產(chǎn)品網(wǎng)轉(zhuǎn)載本文目的在于傳遞信息,并不代表贊同其觀點或?qū)φ鎸嵭载撠?,物流產(chǎn)品網(wǎng)倡導尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)文章存在版權(quán)問題,煩請聯(lián)系小編電話:010-82387008,我們將及時進行處理。

10秒快速發(fā)布需求

讓物流專家來找您