记一次新装计算机（内存）不稳定的排错过程

On 2024年10月8日 By HanyuanIn Incredible留下评论

摘要

本文记录了2024年9月末用最新的AMD中央处理器组装的计算机，在发现系统稳定性测试报错时，通过①检查不稳定报错时的测试条目②猜想引起系统不稳定的原因并动手排查，找出最有可能提升系统稳定性的方案③根据方案调试计算机后成功通过系统稳定性测试的过程，希望能够给遇到类似问题的朋友们一些排查问题的思路。

1. 装机背景和硬件配置信息

随着今年AMD公司9000系列中央处理器（CPU）的大火，我按奈不住对其新特性的渴望，准备装一台新计算机体验一下。就在这个时期，一位在韩国留学的好兄弟FLeX同学联系我，请我帮他组装一台台式机，主要为了满足在韩国学习和娱乐的需求。由于他在韩国学习的是电影学科，需要使用计算机完成后期处理相关工作，因此对性能和稳定性有较高要求。而性能和稳定性，恰恰又是这一代AMD CPU的强项（这两年Intel家的11~14代处理器频繁出现问题）。所以我跟他一拍即合，由我负责挑选配置和组装这台计算机，并作相关测试，等他今年回国后把他带走。我们友好协商，并询问了钱包的意见，最后确定新组装计算机的配置如表 1。

表 1 新装计算机配置

序号	类别	型号
1	主板（MB）	微星B650M Mortar WIFI
2	中央处理器（CPU）	AMD 9700X
3	内存（MEM）	金百达白刃DDR5 6400MHz 64G套装（32G×2）
4	显卡（GC）	七彩虹RTX 3080
5	硬盘（NVME）	京造3系 1TB NVME
6	电源（Power Supply）	长城 X8 850W WHITE
7	中央处理器散热器	利民PA120 SE WHITE

硬件组装完成后一次点亮（第一次加电就成功启动进入UEFI设置界面），说明硬件基本没问题。根据使用需求，调整UEFI设置如表 2。

表 2 在默认配置基础上的个性化UEFI设置

序号	选项	改动情况
1	GAME BOOST（CPU）	禁用—>打开
2	GAME BOOST（MEM）	禁用—>打开（EXPO 1）
3	TDP to 105W	禁用—>允许
4	HybridGraphics	禁用—>允许
5	安全启动	允许—>禁用

在硬件安装完成并成功点亮之后，使用微软官方的Windows 11专业中文版ISO镜像（241001发布）安装系统。安装完系统之后，我第一时间升级了主板的UEFI固件，并安装好了所有的硬件驱动。系统安装及后续调整过程省略，如果大家想学习，我可以考虑出教程。想看的朋友请给我留言。

2. 系统稳定性测试中报错

完成操作系统的基本安装后，我开始使用AIDA64 7.35软件的系统稳定性测试模块进行整机稳定性测试。个人习惯先做分项测试，全部通过之后再做整机测试。首先对CPU的计算单元（整数+浮点）进行稳定性测试，勾选Stress CPU和Stress FPU的复选框，运行10分钟无报错且通过Windows资源管理器未发现CPU使用率和CPU速度（主频）的异常波动，同时通过AIDA64的传感器页面监控整机温度、风扇、功耗均未发现异常（如图 1）。

图 1 稳定性测试示意图

在完成CPU计算单元的测试后，准备对缓存开展测试。勾选Stress cache（缓存压力测试）复选框后，只运行了几秒钟，软件就提示出现了硬件错误。醒目的红色提醒一时间令我不知所措，装机十余年还从未遇到过新装的机器无法通过AIDA64软件的稳定性测试（如图 2）。

注1：系统稳定性测试的原理是让系统各个部件运行在最高负载下，通过检测运行速度（频率）、硬件温度、功耗等数据的变化情况，判断系统整体的稳定性。一般来说，当所有测试项目都勾选，并且连续运行20~30分钟，各方面硬件指标都在合理范围内稳定时，即可判断系统稳定。

注2：缓存和内存都属于计算机内部存储器，主要用于存放高频使用的软件指令和数据。缓存物理上存在于CPU内部，一般分为一级、二级和三级。CPU在执行指令时，会先到缓存中寻找相关指令和数据，如果找不到，才会去内存中找。若还找不到，最后才会去外部存储（例如NVME硬盘）中找。缓存和内存的稳定性，会对计算机的正常运行产生明显影响，包括但不限于频繁出现蓝屏、软件报错、软件闪退、硬盘中存储的资料无故损坏，甚至可能会导致系统出现无法修复的损害，最严重的情况下，可能会造成硬件设备的损坏。

图 2 缓存稳定性测试报错

虽然缓存的测试未通过，但毕竟整台计算机运行没有出现蓝屏报错，所以我暂时按计划继续推进测试，准备对内存开展测试。勾选Stress system memory复选框后，同样只运行了几秒钟，软件就提示出现了硬件错误（如图 3）。

图 3 内存稳定性测试报错

缓存和内存的测试都报错，让我有点摸不到头脑，到底是CPU出了问题，还是内存出了问题？又或者是主板、电源、高温等因素引起的整机不稳定，恰好通过缓存和内存错误体现？

3. 问题排查思路和过程

3.1. 总体思路

首先梳理可能导致稳定性下降的可能性并排序，同时梳理排错方法

表 3 可能引起不稳定的因素和排错方法

排序	可能引起不稳定的因素	排错方法
1	主板UEFI固件设置过于激进（CPU、MEM自动超频功能的预设过于激进）	先恢复主板UEFI固件的默认设置，根据稳定性测试情况，逐步开启内存EXPO，GAME BOOST CPU，TDP to 105W选项，没开一个选项进行一次稳定性测试
2	CPU过热导致CPU内部的内存控制器故障	不开启UEFI设置中的TDP to 105W设置，降低CPU功耗，降低发热
3	内存过热导致高频率时工作不稳定	监控内存温度变化情况
4	内存质量问题造成高频率时工作不稳定	更换新的内存
5	主板UEFI固件存在瑕疵	更新新的UEFI固件
6	CPU安装不到位，造成内存控制电路与主板接触不良	重新安装CPU
7	CPU本身存在瑕疵内存控制器故障	更换CPU
8	电源供电不稳定导致整机不稳定	更换电源
9	主板的CPU、内存插槽和连接线路有瑕疵	更换主板

3.2. 排查过程

整个排查过程主要按照可能引起不稳定因素，同时结合排错方法的难易程度，以UEFI和软件设置调整优先，硬件调整靠后，不到万不得已不做硬件替换的思路执行。

3.2.1. 恢复默认的UEFI设置

我首先采取的措施是恢复主板UEFI配置的默认值（开机按DEL按钮进入UEFI设置页面后找到恢复默认配置选项，选择并应用）。计算机自动执行了断电重启，此次重启用了差不多5分钟才进入系统桌面。用同样的方法进行稳定性检测，果然一切正常，说明整机所有设备在最基本的工作状态下运行正常，如图 4。

图 4 默认UEFI配置下的稳定性测试情况

按理说，在主板默认的UEFI配置下，计算机整体的稳定性是最高的，如果追求最大化可靠性，应该运行在此配置下。但是此配置会限制整机硬件性能的释放，特别是这一代AMD 9000系列CPU的默认TDP功耗设计的过于保守（65W），对于桌面中高端CPU来说属于低到离谱。可以从图 4左下方的功耗数据中看到，CPU Package的功耗只有54.64W，而此时的RTX 3080显卡（GPU1）在半负载的情况下（此时用录屏软件录制操作过程，消耗了显卡的编码资源）功耗都来到了150W，属于严重的“马拉火车”。从右下方的系统稳定性测试窗口中间黑底绿线的CPU温控曲线可以看到，此时的CPU在满载的情况下，温度稳定在80℃左右，属于非常凉爽的温度范围，说明CPU有充足的性能提升空间。

功耗虽然不能直接反映性能，但是就好像吃得多力气才能变大一样，同时期的芯片，功耗越高，能够释放的性能越多，性能也就越强。这也就是同时代的台式计算机永远比笔记本计算机性能强劲的直接原因。因此需要调整UEFI设置提升CPU的性能释放。

3.2.2. 解锁CPU热设计功耗限制

AMD官方在9月底发布了“鸡血”补丁，通过更新主板UEFI固件的方式，给用户解锁TDP功耗到105W的选项。在UEFI设置中将此设置打开后，就可以解锁CPU的功耗到105W，相较于默认功耗提升了62.5%，能够极大地提升CPU的性能，基本属于“买一赠一”的水平。所以在默认UEFI配置运行稳定之后，我首先打开了UEFI设置中的TDP to 105W选项。配置完成再次进行测试，依旧稳定运行，测试截图如图 5。

图 5 解锁CPU TDP功耗到105W后仍然正常

可以看到，此时的CPU功耗正常提升到了105W附近，满载温度到了90℃左右，属于炎热的状态。虽然此时温度不低，但是对比图 4和图 5右上角任务管理器显示的CPU运行速度均在4.95GHz附近，说明此时CPU没有因为温度过高而触发保护（降低运行速度）。同时，内存的温度也稳定在60℃左右，与刚开机时几乎没有变化。

到此为止，可以排除表 3中列出的1、2、3、7、8号因素。个人觉得整个测试进行到现在，5号因素的可能性也不大，并且当前已经升级了最新的UEFI固件，如果真因为这个原因，那也只能等待主板厂商发布固件更新然后碰碰运气。所以接下来我准备根据“先软后硬”的思想，先试试排查4号因素，最后再69。

3.2.3. 自动内存超频（XMP和EXPO）

DDR5基础运行频率才4800MHz，而这一代CPU的内存控制器支持6400MHz的内存频率，相较于默认频率提升了33%，理论上来说就能获得33%的性能提升。将内存的运行频率从默认的4800MHz提升至6400MHz的过程，叫做内存超频。说到超频，很多朋友就望而却步。大家可能在不同场合听到过关于超频的描述，一般描述是超频能够带来性能提升，但是代价是更高的散热需求、可能会降低整机稳定性、还可能会缩短硬件寿命。同时手动超频的过程较为复杂，若是操作不当，轻则无法开机，重则烧毁硬件。但是本文提到的是自动内存超频（XMP和EXPO技术），简单来说是内存厂家为了使内存支持更高的频率，特别挑选了“体质”特别好的内存芯片，制造了能够运行在6400MHz的内存条。并且联合主板厂商，在经过大规模的测试验证下，得出了一套针对于这一特定型号内存条的超频配置方案，写入到内存条的硬件信息中，主板厂商通过读取这一信息，就知道应该给内存提供怎样的配置，使其运行在更高的频率。这一切都是官方给出的超频方案，相关信息固化在硬件中，使用这个配置理应不会出问题。

开启这个功能的操作方也特别简单，只需要在主板UEFI设置中打开自动内存超频设置就能一键完成内存超频。图 6和图 7为我打开主板UEFI设置中自动内存超频（EXPO）选项前后的差异，可以看到开启自动内存超频并重启后，内存条的运行频率成功变成了6400MHz。

图 6 未开启自动内存超频

图 7 开启自动内存超频

开机进入系统之后，迫不及待地开始稳定性测试。此时，我看到了久违的醒目的红色报错，如图 8。

图 8 开启自动内存超频后无法通过稳定性测试

此时我非常有理由怀疑是内存本身的问题。当然，由于内存控制器集成在CPU中，也有可能是CPU出现问题（Intel的11、12代CPU就存在这个问题）。

既然怀疑内存出现问题，就要想办法检查内存信息和运行情况。由于我安装了2条内存，所以还要特别注意2条内存的信息和运行情况是否一致。我打开CPU-Z软件，着重检查Memory和SPD页面，终于被我发现了端倪。

图 9 内存信息

从图 9中可以发现，2条内存条的生产时间（Week/Year）不一致，并且序列号也有较大差异，说明这两条内存条不是同一批次。而不是同一批次的内存，其硬件特性就可能并不完全一致。虽然他们都能够各自工作在6400MHz频率下，但是一条快半拍另一条慢半拍，最终导致他们在高频下，无法“步调一致”而出错。

至此，我强烈怀疑这台计算机硬件系统不稳定的原因就在内存条本身了。所以果断下单了一套品牌、型号、频率、内存大小完全一致的内存套装，准备替换现有的内存。后续若是系统工作正常，则直接排除表 3中的6、9号猜想。

4. 解决问题

明确了解决方案后，实施的过程就非常容易了。

①收到内存条并确认完好；

②整机断电并静置一段时间（释放机内元器件残存的电，以免操作过程中因为短路损坏硬件）；

③打开机箱侧盖，拔下旧内存，插上新内存，装回机箱侧盖；

④开机恢复默认的UEFI配置进行稳定性测试，通过后按照章节3的过程，逐步调整UEFI设置并进行稳定性测试，直至符合预期。

图 10 整机调试完成后的稳定性测试结果

最终，所有UEFI配置符合预期（硬件性能释放符合预期）时，系统稳定性测试稳定运行了20分钟。结果如图 10所示，可以看到此时CPU功耗为120.29W，运行速度为4.90GHz，内存运行在6400MHz频率下，缓存、内存和显卡运行均正常无报错，所有零部件的温度都在正常范围内。同时可以看到各零部件的功耗总和约为510W，是所配电源标称额定功率的60%，正好处在电源转换效率较高的范围，如图 11。此时电源能够高效地为整机硬件提供充沛的电力，也排除了表 3中的8号猜想。

图 11 满载整机功耗和电源转换效率

至此，可以确定此次新装计算机不稳定是由内存质量问题引起，并已经通过更换新的内存套装解决。本次新装计算机的硬件安装部分就此完成。后续将会根据FLeX同学的实际使用需求进行软件稳定性测试。

5. 结语

对我而言，组装一台计算机不仅仅是“搭积木”，更像是赋予这些硬件生命。硬件安装的步骤就像是生命的成长路线，不同的成长路线可能走向不同的结局（错误的安装方式会给未来长时间使用的稳定性埋下隐患）。希望朋友们通过本文记录的发现问题—>排查原因—>解决问题的过程中有所收获。如果有一天不幸遇到了计算机不稳定的情况，可以试着按照本文的思路排查出原因。

祝大家万事顺意！

鸣谢与版权申明

本文列出的所有硬件均有FLeX同学出资赞助，非常感谢。

未经作者授权，不得以任何形式转摘编，如需转载，务必全文转载且保留作者信息。

初探Intel NUC迷你主机（NUC11TNHv5）

On 2021年6月27日2021年6月27日 By HanyuanIn Incredible留下评论

朋友们大家好，我许久没有发文章了，不过大家不用担心。我身体健康，也没有被请去喝茶，纯粹是因为工作比较丰富，生活绚丽多彩应接不暇而已。最近的工作内容我很想说，但是很可惜不能告诉大家，而且在7·1之前我不能离开北京。想我的朋友们，可以随时找我，聊天约饭卡丁车我都喜欢😍。

进入正题！2021年6月24日，我收到了人生中第一台NUC迷你主机↓

Intel NUC这个产品线已经存在8年，初代发布于2013年。那一年我刚刚考上大学，第一次在网上看到这台迷你主机的时候，就被它小巧的机身吸引。在那个年代，市场上的电脑大多是体积巨大的台式（塔式）机和昂贵的笔记本电脑。像这样一台高度集成化的电脑主机对我来说就好像是魔术一样令人印象深刻。自那之后，Intel公司每发布一代CPU，就会同步发布一款NUC迷你主机。每一代主机的售价在2000~8000不等，相比于同等配置的笔记本电脑便宜一半左右，可谓是具有超高性价比。

然而对于在京上学的我来说，这几千块钱是很难一下子凑齐的巨款（那时候花呗、京东金融都还没开通，也没信用卡，出门还要研究地铁换乘甚至换乘公交车，只能说是挣扎在温饱线上下）。时间过得很快，一眨眼8年过去，我也从学生变成了“在职人员”，期盼了许久的NUC，终于在今年被我拿下。
我手上这台NUC是第11代产品，型号为NUC11TNHv5。
其中NUC11是代号，11代表使用英特尔的第11代处理器。v5意味使用支持vPro功能的i5处理器（普通版代号为i5），另外还有至强V、凌动A、赛扬C、奔腾P、i3、i5、i7、i9等；
K为套件类型，另有B意味着仅含主板（无机箱、电源、组件或附件），K是“薄款”（无 2.5″ 驱动器托架）、H是“厚款”（包含 2.5 英寸驱动器托架）。

所以我这次买的是NUC11装载支持vPro功能的i5 1145G7处理器的DIY套件，需要自己配齐内存和硬盘才能使用。对我这样的硬件“垃圾佬”来说，这些配件翻一翻旧抽屉就能给他找齐了。给大家看看这台NUC里面的样子：

图中是只装上了一块M.2 NVME硬盘的样子。可以看到这台NUC支持2块M.2接口的固态硬盘，分别支持PCIe 4.0 NVME协议和SATA协议；顶盖上还能插入一块2.5”硬盘；支持2条DDR4内存，最大容量支持64G，频率最高支持3200M。具体硬件参数见下图

这一代NUC可谓是“集大成者”，Xe显卡、Wi-Fi 6、2.5G有线网口、2个雷电4/USB Type-C接口、2个支持HDMI接口（最高支持8K 60P），上述这些都被集成在一个手掌那么大的小盒子里！所以我决定入手一台把玩一下。我不能泄露购买渠道和购买价格，我只能告诉大家商用版i5型号的售价比普通版i5型号高大概600左右。大家可能对vPro技术不太了解。“简单来讲，Intel vPro技术就是英特尔根据商务人士需求推出的一套基于硬件的平台解决方案，它是以英特尔硬件核心技术为基础所打造的，多应用于企业级安全、管理和应用方面，通过Intel vPro，基于硬件的虚拟化技术将被带入到企业的单位计算机中，从而保证计算机的信息安全，并且简化了单位计算机的更新程序，提高了企业整体的办公效率。”——摘自《为什么要有vPro？告诉你非vPro与vPro的区别》

我个人更加偏好使用商用电脑或是服务器/工作站，而不是游戏/家用电脑。家用电脑和服务器/工作站最主要的区别在于服务器/工作站一般支持7×24（也就是长时间不关机不重启还能稳定）工作。这一点在硬件参数图片中也是被明确提到的。

对于专业影视后期工作来说，计算机的计算/图形性能只能排在第二，排在第一的是整个系统（硬件+软件）的稳定性和兼容性。长时间使用电脑工作的朋友们大多有过辛辛苦苦做完的工作，随着系统的一声报警或是冻结的窗口，突然离你而去。你凝视着它，它凝视着你，一起微笑面对过去……这就是稳定运行的意义。而这背后的代价是极为昂贵的——我的图形工作站相较于同时代相同性能的游戏主机，价格为其3倍有余。

在这要重点感谢我本科时期的同学——杨士明，是他教会了我在某鱼“捡垃圾”，只花了1500就买到了正价4500的主板、花了800就淘到了正价8000的CPU……自那之后我正式成为了一名“垃圾佬”，开始“浑水摸鱼”。我现在手上这台NUC货源也来源于某鱼平台，当然这次买的是全新未开封的机器。

机器到手3天，我简单使用了几个小时，简单测试了几款软件，简单给大家做个评价。首先，这个体积的电脑不可能有台式机的性能，但是要略强于目前的商用笔记本，原因在于供电和散热。笔记本电脑的性能低下不是其硬件本身缩水，主要是它吃不饱和冷静不下来。吃不饱就没动力干活。同一个人，吃一碗粉永远比不过吃两碗粉的时候有干劲。再者，心不静，工作自然就容易出错，想要稳定运行，就必须“仔仔细细慢慢干”才能稳定。这台NUC配备了120W的电源，虽然它的风扇体积并不大，转速也不高，但是比追求极致纤薄的笔记本强的太多。所以毫无疑问，这台i5的小主机可以轻松秒杀大多数i7轻薄笔记本电脑。这一点我用自己写的“图像质量对比软件”在DELL XPS（i7）办公本和NUC（i5）之间对比运行，得到了上述结果。

Intel新一代iRIS Xe核显相较于上一代UHD核显性能有了大幅提升，i5 1135G7配备的核显大约是NVIDIA 1050的水平，对于日常办公、轻度游戏是完全够用，甚至做一些轻度的图形图像工作也能胜任。这一点我使用Affinity Photo编辑图像、使用达芬奇调色软件剪辑手机视频得到了验证。调色它是不太行了，不要为难小六子了，多吃一碗粉也是干不过吃红烧肉的黄大哥的。并且这一代（Gen 12）核显支持AV1、HEVC等先进视频编码的硬件加速（如图），用它来播放高质量的电影或者做简单的编码转换就有极高的能效比。

网络方面Wi-Fi 6、2.5G有线网口我没做测试，一来没有配套的环境，二来相关技术和使用的硬件我比较熟悉，三来我手上的NUC版本只有一个网口，不适合做软路由，就不测试网络方面的性能了。Intel官方有扩展配件，可以另外扩展出2个有线网口，也有民间科学家魔改，在小机身里塞入4网口扩展卡甚至双口10G光端卡。改装完后自然是非常适合用来做ALL-IN-ONE主机（虚拟机下的软路由+影音服务器+下载机+办公机等）

驱动方面Intel准备的非常齐全，芯片组、核显、USB、雷电、有线网卡、无线网卡、TPM、vPro管理引擎等都能在官网找到。

它的BIOS设置令我非常吃惊，首先是支持电源LED灯和音频LED灯控制，我可以把它们全部关闭，这样晚上就不会打扰我睡眠。除了调节亮度以外，还能调节LED的闪烁频率，甚至还能切换LED显示的信息来源，比如可以用电源LED来显示硬盘的读写状态，对于商业用户来说，还是很有意义。再者，他可以选择显示设备的方向。比如我现在的使用的是一块纵向的显示器，它可以从开机LOGO就“正常”显示，BIOS自然也可以在纵向显示器里正常显示，不用歪着脑袋调试。甚至官方提供了开机LOGO修改程序，可以很方便地定制自己的开机LOGO，下图是我自己定制完开机LOGO的结果：

对于有强迫症的我来说，这一波非常舒适。NUC的产品经理绝对非常有经验，NUC也不愧是专业的商用电脑。
这台主机2021年春季发布，近两个月才正式有货，并且使用了新的核显，所以暂时没有黑苹果安装方案。如有黑苹果需求的朋友，可以购买上一代（NUC10）。根据网友的分享，第10代NUC已经可以接近完美运行Mac OS 10.5、11等系统。Linux系统我没有亲自验证，但是根据网友分享，Ubuntu系统是可以正常使用的。

如果你在寻找一款可以摆放在桌面上，小巧精致且“性能强劲”的办公/影音娱乐主机，可以考虑它。

好了，今天的新机初探分享就告一段落啦。感谢朋友们的关注。如果大家有什么好玩的却不敢买、没钱买、买不到的设备可以@我，没准我能搞到第一手资料分享给大家。

Dante认证考试回顾

On 2020年2月21日 By HanyuanIn Incredible一条评论

各位朋友新年好

我已经很久没更新了。临近毕业琐碎事情比较多，跟组也比较多，19年下半年忙忙碌碌一直没有空写文章。这次疫情让我在家待了一个月之久。这一个月好好跟爸妈在一起，没怎么学习和工作。这个星期各单位相继复工，我也开始重启原来的学习进程，首当其冲的就是完成Dante L3认证考试。

我印象中是去年考的L1、L2，结果前天回顾的时候发现那已经是2018年3月的事情了。前两天还有朋友来问我L2考试中的小细节，我这才知道原来现在Dante认证考试已经有中文版了。打开官网发现不光考试有中文，现在课程也有中文了，中文课件+中文语音真是幸福啊。

我相信对于希望学习Dante的盆友们来说L1和L2级都不算难，不过有一点要注意，在L2模拟操作考试中必须每一步一次性做对，比如说要求查看网络状态，但是你打开了设备信息页面，发现不对之后什么都没做返回再打开网络状态页面，这就会判定操作错误。多做几次熟练就好了。

在2018年初，官网还不能在线学习L3级内容，只能线下学习之后回到官网进行考试。现在不仅开通了网上学习通道，而且还有全中文的学习资料，甚至可以全中文环境考试。我就试着使用中文环境考试，考试题目和英语没什么出入，而且因为是母语的关系，我做题的时间大大缩短。原来在英语环境下考试可能需要30分钟，现在大概20分钟就能完成（还是在网络状况不佳的情况下）。

Dante的L3级认证考试内容对于普通的音频工作者来说是有一定难度的。L3与L1、L2有很大的不同，相较而言L3的相关内容包含大量的计算机网络知识，比如QoS、OSI网络模型、VLAN、DHCP、mDNS等等，单凭死记硬背是不太可能在短时间内通过考试的。这也是我拖延了那么久都没有最终完成L3的原因。

下面我给大家分享一下我在L3考试中做错的2个题目：

①