
大多数AI GPU在生产系统中运行利用率惊人地低,公司支付的GPU容量是所需容量的二十倍,过度配置正在急剧上升,而不是像往年那样逐年改善。
科技行业的各家公司都在竞相购买大量的AI基础设施,但其中大部分几乎没有任何实际工作可做。
Cast AI的一份报告,基于AWS、Azure和GCP上成千上万的Kubernetes集群,发现平均GPU利用率仅为5%。
许多团队部署了复杂的AI工具来管理他们的应用程序,但那些工具并没有被用来优化底层基础设施。文章继续如下
组织支付的GPU容量是它们在任何给定时刻实际使用容量的约20倍。
这些数字来自对生产集群和数百万计算资源在应用任何优化之前的直接测量。
"这是我们发布此报告的第三年。数字变得更糟了,”Cast AI的联合创始人兼总裁Laurent Gil说。“CPU利用率下降到8%,从10%下降。内存从23%下降到20%。”
报告还衡量了所谓的过度配置,这是实际工作负载所需与团队分配给它们的差距。
CPU过度配置率从40%上升到69%,而内存过度配置率现在达到79%。
这意味着组织保留的CPU资源几乎是其实际消耗量的两倍,内存则是其实际消耗量的四倍。
简而言之,组织为他们的工作负载甚至未请求的基础设施付费,而且这种趋势正在加速而不是改善。
当直接比较CPU和GPU的成本时,情况变得更加昂贵。一个闲置的CPU核心每小时仅花费几美分,但一个闲置的GPU每小时却要花费美元。
自从2006年EC2推出以来,GPU的价格首次上涨而不是下降。
2026年1月,亚马逊网络服务(AWS)将H200容量块的价格提高了15%,以供需为由,打破了长达二十年的先例。
“在5%的利用率下,数学计算不成立,”报告指出。囤积本能是有道理的,因为交货期长,但同样的囤积又加剧了供应短缺的循环,从而推高了价格。
并非每个集群的表现都这么差,有一家机构在H200上达到了49%的利用率,在H100上达到了30%,远高于5%的平均水平。
差异在于自动化,而不是运气或更好的硬件。解决这一问题的工具已经存在,包括自动调整大小、GPU共享或时间切片,以及Spot管理。
然而,大多数团队从未达到这一目标,因为过度配置感觉比耗尽容量更安全,但这种安全是以高昂的代价为代价的。
缩小差距的团队不再将资源效率视为一次性的手动任务,而是将其视为自动化的持续过程。
但Cast AI数据显示,大多数公司似乎更愿意继续支付大额费用,而不是改变他们的习惯。
关注TechRadar在谷歌新闻上的动态,并将我们添加为首选来源,以获取我们的专家新闻、评论和观点。