你的位置:开云·kaiyun(中国)体育官方网站 登录入口 > 新闻动态 >

开yun体育网在 Model Studio(百真金不怕火平台)上-开云·kaiyun(中国)体育官方网站 登录入口


发布日期:2025-11-11 08:45    点击次数:113

开yun体育网在 Model Studio(百真金不怕火平台)上-开云·kaiyun(中国)体育官方网站 登录入口

阿里云深邃刀兵亮相顶会 SOSP:用新本事砍掉 82% 的英伟达 GPU 需求。

一时引起不小关爱与盘问。

这项有计划由阿里巴巴与北大互助,阿里云 CTO 周靖东谈主带队。

有计划淡薄最新 GPU 池化系统 Aegaeon,用 token 级别的自动扩缩容本事,硬是把 GPU 使用量从 1192 个"瘦身"到 213 个。

这项有计划起点在对阿里云本身业务一项不雅察。

在 Model Studio(百真金不怕火平台)上,他们发现了一个让东谈主头疼的景观:17.7% 的 GPU 被分拨去作事那些着实没东谈主用的冷门模子,而这些模子只处理了总央求量的 1.35%。

之前要同期运行这些模子时,要么给每个模子单独分拨 GP,许多冷门模子的 GPU 经常空着铺张,要么用旧身手让一个 GPU 跑 2-3 个模子(因为 GPU 内存不够,跑不了更多),总之资源哄骗率额外低。

Aegaeon 对准这一痛点,通过细巧化的资源颐养,透顶变嫌了 GPU 资源分拨的游戏规章。

冷门模子占用长尾资源

具体来说,在他们统计的 779 个模子中,有 94.1% 的模子属于长尾模子,平均每秒央求量不到 0.2 个。

与此同期,那些热点模子比如 DeepSeek 和通义千问天然央求量大,但也经常出现突发流量,导致预留的 GPU 资源时而过载、时而闲置。

如若按照理思情况盘算推算,单个 GPU 每秒应该能处理好几个央求,这意味着现时的资源哄骗率还有进步 10 倍的优化空间。

传统的作念法是给每个模子分拨专用 GPU,但这种"一双一"的作事模式在濒临无边偶发性央求时,着实即是在烧钱。

Token 级别颐养,让 GPU "捱风缉缝"

Aegaeon 的中枢翻新在于摄取了 token 级别的自动扩缩容本事,而不是像现存系统那样在央求级别进行颐养。

具体来说,系统会在生成每个 token 时动态决定是否需要切换模子,而不是比及扫数这个词央求处理完才沟通切换。

如斯一来,不错让让 GPU 纯真处理多个模子的央求,大大减少了模子之间的恭候时刻。论文清楚,通过这种样式,单个 GPU 不错同期作事多达 7 个不同的模子。

为了兑现这个计议,有计划团队还进行了一系列底层优化:

通过组件复用减少了 80% 的运滚动支出;

摄取显式内存处罚幸免了内存碎屑;

兑现了细粒度的 KV 缓存同步机制,让模子切换时刻从几十秒镌汰到 1 秒以内。

全体来看,这些优化将自动扩缩容的支出诽谤了 97%。

实战遵守:模糊量进步 9 倍

Aegaeon 展现出最高可达 9 倍的性能进步,最低也有 1.5 倍,盘算推算资源得回了极大的优化。

阐发论文数据,与现存的 ServerlessLLM 和 MuxServe 等系统比较,Aegaeon 或者接济 2-2.5 倍的央求到达率,有用模糊量(goodput)进步了 1.5 到 9 倍。在测试环境中,使用 16 块 H800 GPU 的集群,系统告成作事了从 6B 到 72B 参数范围的多个模子。

更热切的是,这套系统也曾在阿里云百真金不怕火平台进行了进步 3 个月的分娩环境测试。

在骨子部署中,它作事了 47 个不同范围的模子,包括 28 个 1.8B-7B 的小模子和 19 个 32B-72B 的大模子。GPU 哄骗率从之前的 13.3%-33.9% 进步到了 48.1%,期间莫得出现任何 SLO 违法或作事中断。

论文地址:https://dl.acm.org/doi/10.1145/3731569.3764815

一键三连「点赞」「转发」「防备心」

接待在批驳区留住你的思法!

—  完  —

� �  年度科技风向标「2025 东谈主工智能年度榜单」评比报名火热进行中!咱们正在寻找 AI+ 时间领航者  点击了解确定

❤️‍� �   企业、产物、东谈主物 3 大维度,共确立了 5 类奖项,接待企业报名参与   � �  

一键关爱 � � 点亮星标

科技前沿发扬逐日见开yun体育网



友情链接: