产品试用
公司名称
联系人姓名
联系人电话
联系人邮箱
试用KB一体机的用途是?
想要通过试用达成的效果?

立即提交

科普解密 | RTX5090掉卡掉功耗之谜

作者:STONE GROUP

编者按:本期科普文章中所提及的RTX5090显卡均指原厂原装的正品卡,市场中魔改的涡轮卡不在讨论范围之内 (魔改是通过把原厂原装风扇卡上的GPU芯片和显存芯片拆解下来再焊接在涡轮卡电路板上,对原件的伤害不可逆),同时对于使用廉价PCIE5.0信号线的掉卡掉带宽也不再讨论范围之内。


RTX 5090是一款基于Blackwell架构的兼具游戏和AI应用的高性能GPU卡,其拥有21760个CUDA核和680个Tensor核,32GB GDDR7大显存、1792GB/s显存带宽,支持FP4/FP8/FP16/FP32/FP64多种计算精度......


众多特征参数均表明RTX5090是一款非常适合应用于AI推理智算场景的算力卡。



然而,随着国内新建的AI推理智算资源池开始逐步采用RTX5090算力,我们陆续收到部分规模部署的客户反馈,RTX5090显卡在高负载运算中出现“掉卡”和“掉功耗”现象


STONETEK QTR LAB工程师通过走访使用现场收集大量数据,同时对市场上几乎所有品牌RTX5090进行了拆解分析,成功破解RTX5090掉卡掉功耗之谜。


根源:RTX5090默认TIM(导热界面材料)的选用完全基于游戏等非长周期高负载场景,而AI智算应用属于7x24连续长周期高负载类场景,会导致原装的规格TIM失效,导热效果就会直线下降,从而导致显卡的温度升高,继而引发掉卡掉功耗现象


1、TIM知识:


导热界面材料(TIM)作为GPU与散热器界面间的导热介质,其性能表现高度依赖应用场景的热负载特性:


· 游戏等场景:负载间歇性强、温度波动大,TIM需具备良好的弹性与短期导热表现;

· AI计算场景:长期高温、热负荷持续稳定,TIM需更高的热稳定性、抗老化性和持续导热可靠性。


若TIM与运行环境的热特性不匹配,可能出现如下情况:


热阻升高:当TIM材料导热系数不达标或涂布时存在漏涂、气泡、厚度不均,会导致热量在GPU芯片表面形成“热堆积层”,热传导效率下降60%以上;


结温飙升:热量在GPU内部积聚,结温(Junction Temperature)迅速升至阈值(通常≥90℃)触发硬件保护机制,通常RTX5090显卡是95℃;



默认TIM,智算用例跑测中,每张卡出现不同程度掉功耗


默认TIM,智算用例跑测中,GPU0出现掉卡


内置保护机制启动:


降频(Throttling):降低运行频率以减少产热,表现为计算性能下降("掉功耗")

设备重置(Reset):在极端情况下驱动保护性重置,导致计算进程中断("掉卡")


2、RTX5090 TIM真相:


为准确验证问题根源,我们逐一对故障显卡行“逐层拆解+量化检测”,重点关注TIM在真实AI计算环境下的表现。通过企业级检测标准验证问题本质:以下是基于企业级标准的验证结果:


在此过程中,四通QTR LAB采用“分步记录+可视化留存”方式,已拆解并完成几乎所有品牌RTX 5090显卡的TIM Rework与系统性分析。每台节点拆解过程拍摄高清照片,重点记录TIM的涂布状态、物理特性,从而实现对散热装配工艺与材料一致性的量化评估,以下是基于企业级标准的验证结果:



3、RTX5090 TIM Rework:


关键发现:


· 原厂TIM在长期高温下可能出现性能衰减;

· 随着显卡反复地加热和冷却,导热材料和散热器之间的贴合会变差,导热效果也就会逐渐打折扣。


测试报告结论:


1.未更换TIM前:原厂配置下,持续高负载AI任务可复现“掉功耗”现象;所有样本卡均可稳定复现“掉功耗”现象;

2. 更换为针对企业场景持续高温环境设计的高性能TIM后:同一设备在同等负载下运行稳定,未出现性能异常。


经过TIM Rework后,智算用例跑测中,每张卡满功耗高性能稳定运行


可见显卡能够持续稳定地在标称TDP附近运行,算力输出充分且平稳,彻底避免了因过热导致的降频和中断。


场景差异:经多台故障设备分析,当前RTX 5090显卡在高负载AI环境中出现的问题,本质上源于“场景错配”,而非“产品故障”。这并非设计缺陷,而是原厂TIM材料与客户实际应用场景存在的适用性差异。

四通集团致力于从实际场景出发,通过材料优化与工艺调整,提升显卡在企业级AI计算环境中的散热适应性——无论是哪种散热类型,均可通过场景化调优满足持续高负载运行需求。


我们建议客户结合自身业务特性、机房环境与长期运维计划进行选型与优化。我们也愿意提供实测数据与技术咨询,协助客户做出更贴合场景的科学决策。


关于STONETEK QTR LAB

STONETEK QTR LAB隶属四通集团技术中心,超200平米的空间,拥有各种实验设备及工具。该实验室主要聚焦STONETEK产品及选件的可靠性验证,承担着STONETEK品牌产品在生命周期内的可靠性追踪与优化。该实验室也承担联合各选件原厂的设备兼容性认证工作,对原厂新品选件进行AVL认证,在国产AI算力卡方面积极投入资源,探索国产产品应用,已完成了几乎所有国产AI算力卡合作认证;同时实验室对客户开放,接受客户指定选件及软件环境的测试验证,并提供测试报告。