摘要
本文记录了2024年9月末用最新的AMD中央处理器组装的计算机,在发现系统稳定性测试报错时,通过①检查不稳定报错时的测试条目②猜想引起系统不稳定的原因并动手排查,找出最有可能提升系统稳定性的方案③根据方案调试计算机后成功通过系统稳定性测试的过程,希望能够给遇到类似问题的朋友们一些排查问题的思路。
1. 装机背景和硬件配置信息
随着今年AMD公司9000系列中央处理器(CPU)的大火,我按奈不住对其新特性的渴望,准备装一台新计算机体验一下。就在这个时期,一位在韩国留学的好兄弟FLeX同学联系我,请我帮他组装一台台式机,主要为了满足在韩国学习和娱乐的需求。由于他在韩国学习的是电影学科,需要使用计算机完成后期处理相关工作,因此对性能和稳定性有较高要求。而性能和稳定性,恰恰又是这一代AMD CPU的强项(这两年Intel家的11~14代处理器频繁出现问题)。所以我跟他一拍即合,由我负责挑选配置和组装这台计算机,并作相关测试,等他今年回国后把他带走。我们友好协商,并询问了钱包的意见,最后确定新组装计算机的配置如表 1。
表 1 新装计算机配置
序号 | 类别 | 型号 |
1 | 主板(MB) | 微星B650M Mortar WIFI |
2 | 中央处理器(CPU) | AMD 9700X |
3 | 内存(MEM) | 金百达白刃DDR5 6400MHz 64G套装(32G×2) |
4 | 显卡(GC) | 七彩虹RTX 3080 |
5 | 硬盘(NVME) | 京造3系 1TB NVME |
6 | 电源(Power Supply) | 长城 X8 850W WHITE |
7 | 中央处理器散热器 | 利民PA120 SE WHITE |
硬件组装完成后一次点亮(第一次加电就成功启动进入UEFI设置界面),说明硬件基本没问题。根据使用需求,调整UEFI设置如表 2。
序号 | 选项 | 改动情况 |
1 | GAME BOOST(CPU) | 禁用—>打开 |
2 | GAME BOOST(MEM) | 禁用—>打开(EXPO 1) |
3 | TDP to 105W | 禁用—>允许 |
4 | HybridGraphics | 禁用—>允许 |
5 | 安全启动 | 允许—>禁用 |
在硬件安装完成并成功点亮之后,使用微软官方的Windows 11专业中文版ISO镜像(241001发布)安装系统。安装完系统之后,我第一时间升级了主板的UEFI固件,并安装好了所有的硬件驱动。系统安装及后续调整过程省略,如果大家想学习,我可以考虑出教程。想看的朋友请给我留言。
2. 系统稳定性测试中报错
完成操作系统的基本安装后,我开始使用AIDA64 7.35软件的系统稳定性测试模块进行整机稳定性测试。个人习惯先做分项测试,全部通过之后再做整机测试。首先对CPU的计算单元(整数+浮点)进行稳定性测试,勾选Stress CPU和Stress FPU的复选框,运行10分钟无报错且通过Windows资源管理器未发现CPU使用率和CPU速度(主频)的异常波动,同时通过AIDA64的传感器页面监控整机温度、风扇、功耗均未发现异常(如图 1)。
在完成CPU计算单元的测试后,准备对缓存开展测试。勾选Stress cache(缓存压力测试)复选框后,只运行了几秒钟,软件就提示出现了硬件错误。醒目的红色提醒一时间令我不知所措,装机十余年还从未遇到过新装的机器无法通过AIDA64软件的稳定性测试(如图 2)。
注1:系统稳定性测试的原理是让系统各个部件运行在最高负载下,通过检测运行速度(频率)、硬件温度、功耗等数据的变化情况,判断系统整体的稳定性。一般来说,当所有测试项目都勾选,并且连续运行20~30分钟,各方面硬件指标都在合理范围内稳定时,即可判断系统稳定。
注2:缓存和内存都属于计算机内部存储器,主要用于存放高频使用的软件指令和数据。缓存物理上存在于CPU内部,一般分为一级、二级和三级。CPU在执行指令时,会先到缓存中寻找相关指令和数据,如果找不到,才会去内存中找。若还找不到,最后才会去外部存储(例如NVME硬盘)中找。缓存和内存的稳定性,会对计算机的正常运行产生明显影响,包括但不限于频繁出现蓝屏、软件报错、软件闪退、硬盘中存储的资料无故损坏,甚至可能会导致系统出现无法修复的损害,最严重的情况下,可能会造成硬件设备的损坏。
虽然缓存的测试未通过,但毕竟整台计算机运行没有出现蓝屏报错,所以我暂时按计划继续推进测试,准备对内存开展测试。勾选Stress system memory复选框后,同样只运行了几秒钟,软件就提示出现了硬件错误(如图 3)。
缓存和内存的测试都报错,让我有点摸不到头脑,到底是CPU出了问题,还是内存出了问题?又或者是主板、电源、高温等因素引起的整机不稳定,恰好通过缓存和内存错误体现?
3. 问题排查思路和过程
3.1. 总体思路
首先梳理可能导致稳定性下降的可能性并排序,同时梳理排错方法
表 3 可能引起不稳定的因素和排错方法
排序 | 可能引起不稳定的因素 | 排错方法 |
1 | 主板UEFI固件设置过于激进(CPU、MEM自动超频功能的预设过于激进) | 先恢复主板UEFI固件的默认设置,根据稳定性测试情况,逐步开启内存EXPO,GAME BOOST CPU,TDP to 105W选项,没开一个选项进行一次稳定性测试 |
2 | CPU过热导致CPU内部的内存控制器故障 | 不开启UEFI设置中的TDP to 105W设置,降低CPU功耗,降低发热 |
3 | 内存过热导致高频率时工作不稳定 | 监控内存温度变化情况 |
4 | 内存质量问题造成高频率时工作不稳定 | 更换新的内存 |
5 | 主板UEFI固件存在瑕疵 | 更新新的UEFI固件 |
6 | CPU安装不到位,造成内存控制电路与主板接触不良 | 重新安装CPU |
7 | CPU本身存在瑕疵内存控制器故障 | 更换CPU |
8 | 电源供电不稳定导致整机不稳定 | 更换电源 |
9 | 主板的CPU、内存插槽和连接线路有瑕疵 | 更换主板 |
3.2. 排查过程
整个排查过程主要按照可能引起不稳定因素,同时结合排错方法的难易程度,以UEFI和软件设置调整优先,硬件调整靠后,不到万不得已不做硬件替换的思路执行。
3.2.1. 恢复默认的UEFI设置
我首先采取的措施是恢复主板UEFI配置的默认值(开机按DEL按钮进入UEFI设置页面后找到恢复默认配置选项,选择并应用)。计算机自动执行了断电重启,此次重启用了差不多5分钟才进入系统桌面。用同样的方法进行稳定性检测,果然一切正常,说明整机所有设备在最基本的工作状态下运行正常,如图 4。
按理说,在主板默认的UEFI配置下,计算机整体的稳定性是最高的,如果追求最大化可靠性,应该运行在此配置下。但是此配置会限制整机硬件性能的释放,特别是这一代AMD 9000系列CPU的默认TDP功耗设计的过于保守(65W),对于桌面中高端CPU来说属于低到离谱。可以从图 4左下方的功耗数据中看到,CPU Package的功耗只有54.64W,而此时的RTX 3080显卡(GPU1)在半负载的情况下(此时用录屏软件录制操作过程,消耗了显卡的编码资源)功耗都来到了150W,属于严重的“马拉火车”。从右下方的系统稳定性测试窗口中间黑底绿线的CPU温控曲线可以看到,此时的CPU在满载的情况下,温度稳定在80℃左右,属于非常凉爽的温度范围,说明CPU有充足的性能提升空间。
功耗虽然不能直接反映性能,但是就好像吃得多力气才能变大一样,同时期的芯片,功耗越高,能够释放的性能越多,性能也就越强。这也就是同时代的台式计算机永远比笔记本计算机性能强劲的直接原因。因此需要调整UEFI设置提升CPU的性能释放。
3.2.2. 解锁CPU热设计功耗限制
AMD官方在9月底发布了“鸡血”补丁,通过更新主板UEFI固件的方式,给用户解锁TDP功耗到105W的选项。在UEFI设置中将此设置打开后,就可以解锁CPU的功耗到105W,相较于默认功耗提升了62.5%,能够极大地提升CPU的性能,基本属于“买一赠一”的水平。所以在默认UEFI配置运行稳定之后,我首先打开了UEFI设置中的TDP to 105W选项。配置完成再次进行测试,依旧稳定运行,测试截图如图 5。
可以看到,此时的CPU功耗正常提升到了105W附近,满载温度到了90℃左右,属于炎热的状态。虽然此时温度不低,但是对比图 4和图 5右上角任务管理器显示的CPU运行速度均在4.95GHz附近,说明此时CPU没有因为温度过高而触发保护(降低运行速度)。同时,内存的温度也稳定在60℃左右,与刚开机时几乎没有变化。
到此为止,可以排除表 3中列出的1、2、3、7、8号因素。个人觉得整个测试进行到现在,5号因素的可能性也不大,并且当前已经升级了最新的UEFI固件,如果真因为这个原因,那也只能等待主板厂商发布固件更新然后碰碰运气。所以接下来我准备根据“先软后硬”的思想,先试试排查4号因素,最后再69。
3.2.3. 自动内存超频(XMP和EXPO)
DDR5基础运行频率才4800MHz,而这一代CPU的内存控制器支持6400MHz的内存频率,相较于默认频率提升了33%,理论上来说就能获得33%的性能提升。将内存的运行频率从默认的4800MHz提升至6400MHz的过程,叫做内存超频。说到超频,很多朋友就望而却步。大家可能在不同场合听到过关于超频的描述,一般描述是超频能够带来性能提升,但是代价是更高的散热需求、可能会降低整机稳定性、还可能会缩短硬件寿命。同时手动超频的过程较为复杂,若是操作不当,轻则无法开机,重则烧毁硬件。但是本文提到的是自动内存超频(XMP和EXPO技术),简单来说是内存厂家为了使内存支持更高的频率,特别挑选了“体质”特别好的内存芯片,制造了能够运行在6400MHz的内存条。并且联合主板厂商,在经过大规模的测试验证下,得出了一套针对于这一特定型号内存条的超频配置方案,写入到内存条的硬件信息中,主板厂商通过读取这一信息,就知道应该给内存提供怎样的配置,使其运行在更高的频率。这一切都是官方给出的超频方案,相关信息固化在硬件中,使用这个配置理应不会出问题。
开启这个功能的操作方也特别简单,只需要在主板UEFI设置中打开自动内存超频设置就能一键完成内存超频。图 6和图 7为我打开主板UEFI设置中自动内存超频(EXPO)选项前后的差异,可以看到开启自动内存超频并重启后,内存条的运行频率成功变成了6400MHz。
开机进入系统之后,迫不及待地开始稳定性测试。此时,我看到了久违的醒目的红色报错,如图 8。
此时我非常有理由怀疑是内存本身的问题。当然,由于内存控制器集成在CPU中,也有可能是CPU出现问题(Intel的11、12代CPU就存在这个问题)。
既然怀疑内存出现问题,就要想办法检查内存信息和运行情况。由于我安装了2条内存,所以还要特别注意2条内存的信息和运行情况是否一致。我打开CPU-Z软件,着重检查Memory和SPD页面,终于被我发现了端倪。
从图 9中可以发现,2条内存条的生产时间(Week/Year)不一致,并且序列号也有较大差异,说明这两条内存条不是同一批次。而不是同一批次的内存,其硬件特性就可能并不完全一致。虽然他们都能够各自工作在6400MHz频率下,但是一条快半拍另一条慢半拍,最终导致他们在高频下,无法“步调一致”而出错。
至此,我强烈怀疑这台计算机硬件系统不稳定的原因就在内存条本身了。所以果断下单了一套品牌、型号、频率、内存大小完全一致的内存套装,准备替换现有的内存。后续若是系统工作正常,则直接排除表 3中的6、9号猜想。
4. 解决问题
明确了解决方案后,实施的过程就非常容易了。
①收到内存条并确认完好;
②整机断电并静置一段时间(释放机内元器件残存的电,以免操作过程中因为短路损坏硬件);
③打开机箱侧盖,拔下旧内存,插上新内存,装回机箱侧盖;
④开机恢复默认的UEFI配置进行稳定性测试,通过后按照章节3的过程,逐步调整UEFI设置并进行稳定性测试,直至符合预期。
最终,所有UEFI配置符合预期(硬件性能释放符合预期)时,系统稳定性测试稳定运行了20分钟。结果如图 10所示,可以看到此时CPU功耗为120.29W,运行速度为4.90GHz,内存运行在6400MHz频率下,缓存、内存和显卡运行均正常无报错,所有零部件的温度都在正常范围内。同时可以看到各零部件的功耗总和约为510W,是所配电源标称额定功率的60%,正好处在电源转换效率较高的范围,如图 11。此时电源能够高效地为整机硬件提供充沛的电力,也排除了表 3中的8号猜想。
至此,可以确定此次新装计算机不稳定是由内存质量问题引起,并已经通过更换新的内存套装解决。本次新装计算机的硬件安装部分就此完成。后续将会根据FLeX同学的实际使用需求进行软件稳定性测试。
5. 结语
对我而言,组装一台计算机不仅仅是“搭积木”,更像是赋予这些硬件生命。硬件安装的步骤就像是生命的成长路线,不同的成长路线可能走向不同的结局(错误的安装方式会给未来长时间使用的稳定性埋下隐患)。希望朋友们通过本文记录的发现问题—>排查原因—>解决问题的过程中有所收获。如果有一天不幸遇到了计算机不稳定的情况,可以试着按照本文的思路排查出原因。
祝大家万事顺意!
鸣谢与版权申明
本文列出的所有硬件均有FLeX同学出资赞助,非常感谢。
未经作者授权,不得以任何形式转摘编,如需转载,务必全文转载且保留作者信息。