AMD锐龙第三代处理器+ROG C8H首测:寻根Zen 2性能本源

来源:爱活网 作者: 时间:2019-07-30 10:01

AMD 锐龙 处理器

M`_)HE77EWMP0W}AIF51]HK

Intel近日在内部发表一篇告员工的内参文章,全文在Reddit上泄露了出来,表示历经50余年的Intel与AMD的竞争进入了新的阶段。AMD和Intel创立时间都在68-69年,两个公司的位置也十分接近,两个公司的业务重叠领域也很多,可以说是历经50年的对手。但在2018年,AMD的销售额为64.8亿美元,员工数10100人,而Intel却有超过了700亿美元的销售额和超过10万员工,这两者之间有着超过10倍的差距。

XENRHOI7C@})S`I4E1ZI1OQ

Lisa Su在担任AMD CEO的五年就是AMD股价飞升的五年,在这段时间里,AMD股价上升了681%,远远跑过Intel和标准普尔的水平。AMD在最近两个财年增长速度都超过20%,Intel认为AMD作为个强大的竞争对手在重新崛起。之前Intel的Roadmap是一个季度更新一次,但最近一次更新已经过去了快半年,很明显Intel正在准备从内部重新调整自己的产品策略来应对Zen 2的挑战。

而作为消费者,我们更为乐于见到AMD的强大,旗鼓相当的相互竞争才能触动行业的发展。在Zen发布之后,Intel就很明显的加快了产品规格提升的速度,仅仅两三年的时间,处理器规模就从7700K的4核心,提升到了9900K的8核心,这在几年之前是很难想象的。要知道4核心8线程作为非HEDT的旗舰,从2600K到7700K都未曾动摇过,但Zen却改变了这一切。短短两年Intel桌面平台核心数就实现了翻番,现在千元已下的i5就已经有之前i7级别才有的性能和规格。

price2.fw

而在7月7日发售的全新一代Zen 2,也被给予很高的期望。在京东平台预售3700X的预定量高达4465件,而相同价格定位同期预定的i7 9700F预定量只有36件(截至2019年7月7日8点),其之间有124倍的差距,这作为一颗高端处理器而言实属不易,看来Zen 2大成功。TIM图片20190703212137

Zen的成功是有目共睹,Zen 2的期待情绪也是尤其高涨,但伴随高涨的情绪奇怪的氛围也滋长起来,就是对于Zen 2的各种抬高。AFAN群体似乎认为3700X就可以拳打9900K一样。这样情况是多种原因导致的,既有错误信息引导,也有人蓄意带节奏。

810e-hymscpr0250365

早些时候晚上有个不明出处的图,上面写着3800X频率可以有4.7GHz,GPU-Z单线程得分可以有635分(但实际上3800X超频只能有4.3GHz,得分也就520分水平)。

IA8$2VW4ZP(W%E@~8H%)HGQ

稍后有个Passmark得分上传泄露,媒体就编撰出《三代锐龙最弱的一颗U:单核灭门9代酷睿》这样的标题。

CW11@ZF72S]ZTK@M)D$)X8S

到7月7日发布前夕,又有了3600游戏全灭8700K的测试,真是喜闻乐见。

社交媒体和传统媒体都不自觉的,或者蓄意的抬高对Zen 2的评价,这样的结果就是导致大众对于Zen 2存在过高的期待。但这样的过高的期待,在Zen 2 NDA解除之后同真实性能对比就会形成巨大的落差,期望越大失望也就越大,大众对Zen 2的认知也会由彻底肯定转换成对立的彻底否定。这样的抬高心理预期的信息传播大多人虽然仅仅是出于娱乐精神,但也不能排除少数人有着不可告知的目的。

而本篇评测的主要目的,就是去伪存真,在本源、应用和市场层次上告诉你Zen 2到底怎么样,到底值不值得买。

AMD Zen 2 微架构概述

在当年 Ryzen 发布会的时候,AMD 已经向媒体公布了 Zen 的接替者 Zen+、Zen2 等后续微架构,和初代的 Zen 或者说 Zen 1 相比,Zen+ 在微架构上的改动非常小。

目前所知的,Zen + 的改进主要是 CPU 的二级高速缓存时延从 17 个周期缩短为 12 个周期以及提升了预拾取,其他的就是靠制程提升频率以及在内存控制器上改进实现更快内存的支持,IPC(每周期指令性能)的提升只有大约 3%。

相当于 Zen+ 而言,Zen 2 是 Zen 的真正微架构改版,在流水线的前后端都有大幅度的修改,涵盖了高速缓存、分支预测、新指令支持、执行端口和内部总线的扩充以及外部总线的升级。

按照 AMD 的说法,相对第一代的 Zen 而言,Zen 2 IPC 提升可以达到 15%,作为一个改进型的微架构,这样的幅度在摩尔定律日益失效的今天而言,是非常可观的。

接下来的内容可能会有些枯燥、晦涩,但是如果你能静下心来看的话,还是会比较有趣的,因为我们将探究 Zen 2 这个微架构到底在哪些地方做了改进,而它们又将对哪方面产生影响。

说到这,我觉得需要说明一下,所谓的微架构,是指指令集的逻辑实现,例如功能组织、逻辑设计,一般由架构师来进行这个工作,架构师将研发人员提供各种功能模块摆在面前,然后考虑到各种(成本、功耗、可用性)妥协的情况下,将它们依据合理的规格组织在一起。

对于我们这些局外人来说,微架构就是一张张的微架构图,而 Zen1 和 Zen 2 的微架构是长这样的:

我们都知道,Zen 采用了 CCX 内核复合体的多层次多核技术,每个 CCX 内有 4 个上图中的 Zen 内核,四个 Zen 内核之间透过一块 CCX 内的三级高速缓冲实现数据同步、共享,而 CCX 之间的数据同步和共享必须透过名为 IF 的系统总线跑到主内存上进行。

因此,程序和操作系统必须确保相尽可能都在一个 CCX 内进行数据交换才能达到性能最佳化,当然,这个问题其实在 Intel 的一些 Xeno MP 上也是存在的。

我们下面讨论的主要集中在 CCX 内部或者说 Zen 2 内核的微架构情况,因为这才是 Zen 2 真正实现更高 IPC 的所在。

Zen 2 微架构改进概览

Zen 2 微内核和 Zen/Zen+ 都同属一个家族,但是在细节上有很多不一样的地方:

1、制程:Zen 2 采用了 CPU 内核和北桥片上分离的设计,CPU 内核采用台积电 7 纳米制程(Zen+ 是 12 纳米),服务器版(EPYC Rome)的北桥采用格罗方德 14 纳米,桌面版(Ryzen 3000)的北桥是台积电 12 纳米。

2、内核:

前端:

改进了分支预测器;

改进了预取器;

改进了微操作标签;

改进了微操作高速缓冲;

更大的微操作高速缓存(从 2K ops 到 4K ops);

增大了派发带宽;

后端:

更大的回退(retire)带宽;

浮点单元:

数据通道提升至两倍宽(从 128 位增加到 256位);

两倍执行单元(FMA 指令宽度从之前 128 位增加到 256 位);

位宽加倍的 Load/Store(加载/存储)单元(从之前的两个 128 位 L/S 两个 256 位);

整数单元:

寄存器堆从 168 个增加到 180 个;

增加了一个 AGU(地址生成单元),使 AGU 数量增加到 3 个;

更大的调度器(从 4 个 14 ALU 条目 + 两个 14 AGU 条目增加到 4 个16 ALU 条目 + 1 个28 AGU 条目);

更大的指令重排序缓存(I-ROB,从 192 个提升到 224 个);

内存子系统:

一级高速指令缓存从 64KiB 缩小到 32 KiB;

一级高速指令缓存从 4 路组关联提升到 8 路组关联;

二级数据地址转译缓存(DTLB)容量提升到 1.33 倍,达到 2048 个条目(Zen/Zen+ 是 1536 个条目);

存储队列从 44 个增加到 48 个;

3、CCX:

三级高速缓存从 8MiB 提升到 16MiB;

三级高速缓存时延性能下降,从 35 周期增加到 40 个周期;

4、安全性:

硬件级抵御幽灵攻击;

密钥/虚拟机的支持数量增加;

5、I/O:

PCIE 4.0;

Infinity Fabric 二代:

每通道传输率提升到 2.3 倍(10.6 GT/s -> 25.6 GT/s);

内存时钟 MCLK 与 IF 时钟 FCLK脱耦,可以实现 2:1 和 1:1 的倍频率;

支持 DDR4-3200(之前是 DDR4-2933)。

7、指令集:

CLWB:对修改过的高速缓存块(Cache Block 或者说 Cache Line)进行回写操作,同时可以将该高速缓存块保留在高速缓存层次结构中。

WBNOINVD:将内部高速缓存所有修改过的存储块写回到主内存中,但是不将高速缓存标记为无效(也就是不刷新)。

RDPID:读取处理器 ID。

从列表来看,Zen 2 的变化是几乎全方位的,前后端、内存子系统、总线系统以及指令集,都为这个微架构注入了新的魔法,其中的三条新增指令对性能的影响不会很大,FMA4 指令也未被重启,所以我们更多的是关注 Zen 2 微架构的前后端部分。

Zen 2 前端——高速缓存以及分支预测器

微操作高速缓存

Zen 的微架构在很多方面都和 Intel 的 Core 系列 CPU 非常类似,例如微操作高速缓冲(μops-Cache,Intel 也称之为 Decoed Stream Buffer 或者 DSB,AMD 对微操作的简称是 OC,而 Intel 对其简称是 UC)。

Zen1/Zen+ 的微操作高速缓存大小都是最高 2K 指令,如果按照 AMD 的软件指南,提到微操作高速缓存的大小是 2KiB(第 2.1 节,p18)。

这个 2KiB 的说法似乎是有点让人感到疑惑的,因为解码后的指令或者说微操作都是固定长度的,而微操作的长度不可能只有 1 个字节(8 位)。

相比之下,Intel 的 Coffee Lake(CFL,2017 年第三季发布,就是现在的 9000/8000 系列)微操作高速缓存大小是最高 1.5K 指令,一般认为 Intel 的微操作长度大约是 3 个字节左右。

微操作高速缓存里放的都是循环程序中已经解码过的指令,这些已经解码过的指令称作微操作。

采用微操作高速缓存这样的好处是在可以简化解码器设计的同时维持尽可能高的指令并行度。

要知道 x86 作为一种复杂指令集,其指令长度不是固定的(1 到 17 个字节),所以像 Intel 的多路 x86 解码器都是采取一个复杂解码器搭配几个简单解码器的方式。

在微操作高速缓存发挥作用的时候,标准的指令拾取和解码处理会被绕过。按照当年 Intel 提供的数字,微操作高速缓存的平均命中率可以达到 80%,这意味着在 80% 的时间里,x86 解码器的耗电都可以节省掉。

Zen 的微操作高速缓存带宽最高可以做到每个周期 8 条指令,相比之下,Zen 的传统取指和解码器只能做到每周期 4 指令。

Zen 2 的微操作高速缓存大小增加到了 4K 指令,两倍于上一代,这意味着可以提高微操作高速缓存的命中率,改善循环的性能。

不过作为代价,Zen 2 的一级指令高速缓存被减半位 32KiB,作为补偿,一级指令高速缓存的组相联从之前的 4 路或者说 4 组提升到了 8 路,作用是提高一级指令高速缓存的命中率。

TAGE 分支预测器

相对于微操作高速缓存,Zen 2 在分支预测上的改进带来的性能提升可能更大。

现在的处理器都采用了超流水线和超标量设计,流水线上有多个工位负责不同的工作,例如取指、解码、执行、写回以及为了提升频率而加进去的驱动工位,每个内核内都有多条这样的流水线。

以 Zen 1 为例,它的整数流水线长度大约是 17~19 级工位(17 是微操作高速缓存命中后的情况),如果放在以前的话,这算是很深的流水线了(当年被诟病流水线深度太长的 Pentium 4 大约是 22 级或者 31 级工位)。

更长的流水线好处是缩短每个指令的处理时间,便于实现更高的频率,但是为了让流水线保持满载,必须找出可以在流水线中重叠的不相依指令流,只有这样才能实现指令并行。

例如流水线中存在条件跳转指令的时候,由于相依性不确定的缘故,处理器必须等待其通过执行工位后,才能让下一条指令进入取指工位。

下图所示的,就是经典的四级工位流水线(取指、解码、执行、写回)在遇到分支时遭遇到的流水线工位停摆动画示例(垂直方向是流水线工位状态,水平方向是时间周期):

如上图所示,这是一条可以每个周期执行一条指令(1 IPC)的四级工位流水线,当出现条件分支指令的时候,第一条指令和第二条指令之间的流水线停摆周期会达到两个周期,相当于损耗了 50% 的性能,流水线中出现停摆工位的情况,有时候被称作“气泡”,这里就是有两个气泡。

为了降低分支导致的性能损失问题,人们提出了预测分支行为的技术,而在处理器中实现这个功能的单元就是分支预测器(Branch Predictor)。

依然以上面的四级工位流水线为例,看看有了分支预测器后,条件分支不被选中的情况:

可以看到,流水线保持着充盈运作状态,3 条指令用了七个周期来完成,而之前是需要 9 个周期,第一条指令和后续指令是紧挨着运行的。

不过分支预测也不是每次都准的,像静态分支预测也就是 80% 的命中率,即使如此 20% 的预测失败率对性能也是有巨大影响的,因此人们又提供了动态分支预测,例如 2-bit 状态机,就是使用单个分支的最近行为来预测该分支的未来行为。

由于流水线工位越来越多(越来越长),分支预测失败造成的性能影响与日俱增,因此动态分支预测器的开发一直是微架构比较重大的研发课题,但是这方面进展其实比较慢。

时至今日,人们还在为最后的 3% 成功率拼尽全力,因为现在想要提高 1% 的命中率往往意味得在前人的基础上再减少 30% 的误预测率,这是一个巨大的挑战。

Intel 公司最近发表了一篇名为《Branch Prediction Is Not A Solved Problem: Measurements, Opportunities, and Future Directions》的论文,开篇就提到:

“For example, we show that correcting the mispredictions made by the state-ofthe-art TAGE-SC-L branch predictor on SPECint 2017 would improve IPC by margins similar to an advance in process technology node.”

大意就是,在 SPECint 2017 这个业界认可的基准测试中,采用最新式的 TAGE-SC-L 分支预测器达成的误预测纠正能力,可以达到的每周期性能提升幅度相当于提前使用了下一代节点制程。

Intel 就是这么认为的,并且很可能已经在其处理器中采用了类似于 TAGE 的概念,相关的论文也表明,Intel 在 TAGE 有一定的参与度。

TAGE 预测器的全称是 TAgged GEometric history length branch predictor,直译过来就是标记几何历史长度分支预测器,由两级分支预测器组成。一个是常见的基本预测器,用于提供默认的预测,另一个其实一组标记预测器,提供一个只符合一个标记的预测结果。

TAGE 分支预测器及其衍生的设计自从 2006 年的 CBP-2(第二届分支预测冠军赛)以来,一直都位居冠军榜单上,从未丢过桂冠,其优势就是成本效益比,在 06 年推出的时候,就凭借同样的芯片面积预算,以显著的优势击败了 04 年 CBP-1 里出现的所有分支预测器。

分支预测器很重要,而 TAGE 分支预测器是目前最好的分支预测器,如今 Zen 2 也引入了这个最好的分支预测器。

Zen 1 的分支预测器沿用自针对低功耗处理器 Jaguar 的分支预测器,AMD 对其命名为神经网络感知分支预测器,不过 Jaguar 的流水线深度只有 14 级,Zen 是 17-19 级流水线深度。按理说流水线越深,分支预测失败的惩罚就越高,因此对分支预测器的性能就越高,事实上除了流水线深度外,Zen 2 的超标量能力也是远高于 Jaguar 的,这会进一步增大分子惩罚的幅度,故此神经网络感知分支预测器对 Zen 来说是有点拖后腿的。

为此,AMD 在 Zen 2 上采用了两级分支预测机制,原来的神经网络感知预测器依然保留作为一级分支预测器,而 TAGE 则被引入作为二级分支预测器。

我们在上面啰嗦了一大堆东西,到底在实际应用中会有多少的性能变化呢?我们在这里使用 Fritz Chess benchmark 也就是大家众所熟知的国际象棋来做一个对比。

国际象棋是一个有密集分支指令的应用,当初我使用这个测试软件的,目的是为了对比流水线 31 级的 Pentium 4 和流水线 12 级的 AMD Athlon X2 5000+(K8 系列 Windsor 微架构,90 纳米制程)的,下面这个图表可以让大家回忆一下当初这两个产品的性能对比:

fritz_9

Pentium 4 家族使用的甚深流水线设计使其分支预测失败导致的性能损耗远高于 K8,在 Fritz Chess Benchmark 中,这个问题会被显著放大,上面的测试结果表明这是一个比较适合用于测试分支预测损失的测试。

为了确定流水线深度的影响,我觉得有必要看看 Zen 2 的流水线深度到底是多少级的。

AMD 和 Intel 没有公布过新近处理器的流水线深度,不过我们可以透过测试分支预测失败的惩罚来获知。

7_bench_pipeline_stage

上表中的左侧是以伪代码方式提供分支程序测试片段,以第 7 个测试(Test 6)为例:

Test 6, N= 1, 8 br, MOVZX XOR ; if (c & mask) { REP-N(c^=v[c-256]) } REP-2(c^=v[c-260])

这段内容包含了一个 MOVZX 内存载入操作指令,它需要额外的 5 到 6 个周期来执行,在支持乱序执行、乱序 L/S 的处理器中,这个动作通常会被掩盖掉。

从上图中可以看到,这个 Test 6 的 Zen 2/Zen 1 测试结果分别是 12.22/12.30 个周期,加上 MOVZX 的 5 个周期,那这个测试的 Zen 2/Zen 1 有效结果就是 17 个周期。

从测试结果来看,Zen 2 的分支预测惩罚都在 17-19 个周期左右,Zen 1 则是 17-21 个周期左右,Coffee Lake 和 Kaby Lake 都是 16-20 个周期左右。我们认为 Zen 2 在流水线长度上和 Zen 1 都是类似的,即 19 级工位(stage),由于微操作高速缓存的原因,有时候可以视作等效 17 级工位。

Zen 2 和 Coffee Lake 的流水线深度也非常接近,也就是一个工位的差别,因此,只要我们测试的时候,两者的频率尽量设置到一致(锁定 4GHz,减少频率波动干扰,内核数设定为一个,关闭硬件多线程),运行 Fritz Chess 的结果就可以高度反应两者的动态分支预测性能差别。

e7c010b533c12588d7feab12727049c高速缓存正如你所看到的,采用了 TAGE 分支预测器的 Zen 2 在同频下的 Fritz Chess 性能快了 20% 以上,和 Core i7 9900K 相比,也快了 5% 左右,回想上一次 AMD 在这个测试中领先 Intel,一晃已经过去了 12 年。

TAGE 分支预测器对 Zen 2 的性能提升毋容置疑,但是另一方面,所有的处理器都非常依赖高速缓存。

所有的处理器都采用了多层次内存子系统,而靠近内核的则是高速缓存,Zen 2 和 Zen 1 一样采用了三级高速缓存设计(微操作高速缓存如果算是零级的话,那可以算是有四级高速缓存),每个 Zen 内核都有自己独立的 L1/L2 高速缓存,CCX 内的四个内核透过 L3 高速缓存共享、交换数据。

首先让我们来看看带宽部分:

bandwidth_read

bandwidth_write

bandwidth_copy

我们的内核微架构测试,都是在 BIOS 内设置单内核、关闭多线程,关闭电源管理,强制 4GHz,内存设置为 DDR4-3200 的情况下测试,目的尽量直接探究每个内核的微架构细节。

说明一下的是,由于受到 Excel 的限制,横坐标的数字格式不支持二进制(如果你有办法实现的话不妨留言告知),你在图表看到的横坐标值都是十进制值,所以单位标注都是 KB、MB 这类十进制单位,而非二进制的 KiB、MiB,图中的 33KB 标注,相当于 32KiB,34MB 相当于 32MiB,如此类推不一而足。

从测试结果来看,Zen+/Zen 2 这边的 L1/L2/L3 高速缓存读取带宽可以一直保持在每周期 32 字节的水平,而 Coffee Lake 虽然纸面上说 L2 Cache 的 Load 带宽是每周期 64 字节,但是我们并未从测试中看到这样的情况出现。

数据高速缓存时延测试

latency_d_cache

Zen 2 和 Zen+ 数据高速缓存的时延曲线非常类似,不过 Zen 2 由于更大的三级高速高速缓存而在 8-16MiB 的位置有更好的表现。

Coffee Lake 在 32KiB 以内都能保持 4 周期的时延,但是在之后到时延表现都不如 Zen 2。

Zen 系列的 L2 Cache 的时延无法维持在一个稳定的平台,但是可以在 256 KiB 前都维持比对手更低的时延曲线。

指令解码/缓存/执行能力

众所周知,x86 是复杂指令集架构,但是和精简指令集相比,区别并非什么指令数量的多寡,而是其指令长度格式不一。

以最简单的 NOP 空指令为例,它的 x86 编码长度是一个字节,加法指令 ADD、乘法指令 MUL 等则是两个字节,最长的 x86 指令有 17 个字节。

我们采用了部分有代表性的 x86 指令进行指令解码测试,测算出解码带宽信息(结果受微操作高速缓存、指令高速缓存、解码器、执行单元、回退等工位影响):

正如你所看到的测试结果,Zen2/Zen + 都具备每周执行 5 个单字节指令的能力,而 Coffee 则是只有每周期 4 单字节指令的能力。

Prefixed CMP 其实是针对 x86-64 指令的测试,可以看到,在微操作高速缓存范围内的指令流能够为处理器维持每周期 4 条 8 字节指令的执行能力。

如果单纯从表格来看的话,Zen2 似乎和 Zen+ 一样,但是我们将收集的数据整理为图表后,看到了更多的细节:

decode_bandwidth_nop


decode_bandwidth_pre_cmp_8

我们选取了 NOP 指令(x86 指令长度 1 个字节)以及 Prefixed 的 CMP 4(x86 指令长度 8 个字节)的测试结果做了上面的两个图表。

可以看到 Zen 2 在 NOP 的时候,每周期 5 指令的峰值数据可以维持到 3KiB 以上,而Zen+ 只能维持到大约 0.2KiB 左右。

在长度为 8 字节的指令时,Zen2 每周期两指令的峰值数据可以维持到 16KiB,而 Zen + 只能维持到 8KiB。

从目前的测试结果来看,我们估计 Zen2 的微操作高速缓存容量按照字节衡量的话,应该不低于 16KiB。

微架构实现细节对比

compare_uarch

我们使用 AIDA64 v6.00.5122 Beta抓去了 Zen 和 Zen2 的指令时延、吞吐率,其中 Matisse 就是 Zen2 的桌面版内核微架构版本代号。

上表中的 MOV r32 到 VPCLMUL 等指令就是从其中 4000 多条指令测试项目中提取出来的有代表性的测试结果,竖线的两侧分别是时延和吞吐率,单位是周期,因此吞吐率其实是 CPI 值,即周期/指令,是 IPC 的逆向表示方式。

其中涉及到 ymm 寄存器的测试都是 AVX2 256-bit 指令。

从测试结果来看,Zen 2 的 AVX2 ADD/MUL/FMA 等指令的吞吐性能较 Zen 提升了一倍,证明 Zen 2 的确在 AVX2 实现上有做改进。

Zen 2 内核微架构总结

从微架构角度看,Zen 2 的最大改进是对前端单元的加强,包括引入了目前几乎最强大的动态分支预测器 TAGE 分支预测器作为第二级分支预测,使得 Zen2 可以在分支密集型的应用中比上一代的 Zen+ 快 20%。

即使和 Coffee Lake 相比,同频下的 Zen 2 在分支密集应用中也能快 5%,这是多年未曾出现过的现象,上一次在这类测试中出现 AMD 比 Intel 快的时候是因为比对手短 50% 流水线深实现的。

而这次是双方流水线深度相当的情况下,凭借动态分支预测器实现,对于未来数年 AMD 的竞争前景意义更大,现在的情况就好像两个枪手对决,拔枪速度相当,但是 Zen2 的枪法很可能更准。

Zen 2 的微操作高速缓存达到 4K(微操作),从上面的解码带宽测试来看,我们认为这个改进对于有大量循环的应用会有一定的改进。

由于两个向量单元引入了 256 位 AVX2 指令单周期执行能力,Zen2 在计算吞吐能力比上一代微架构提升了一倍,达到了和 Coffee Lake 相当的水平,x265 这类引入了 AVX2 优化的应用将会受益。

Zen 为 AMD 从颓势中重新找回与对手竞争的信心,Zen+ 为 AMD 取得了市场,而 Zen 2 则是 AMD 让我看到了真正翻身的希望。

这次应该可以至少坚持到 Intel 的 Comet Lake,嗯,时间窗口有半年,能爽半年还是不错的。

NB的回归

original-Used-Desktop-motherboard-For-ASUS-P5B-Deluxe-P965-Support-LGA-775-Maximum-DDR2-4GB-800.jpg_640x640

前面部分是微架构部分,后面就是相对宏观的平台架构部分。

NB是什么意思?就是North Bridge的回归,北桥的回归。年轻的朋友可能不知道北桥是什么?现在一般把PCH叫做南桥,是因为很久以前还有个芯片叫做北桥。上面的965芯片组的华硕P5B-Deluxe,和供电散热片由热管相联的芯片就是北桥。(为什么选这个主板?因为我十几年前我自己用的这个)

上面就是个典型的北桥芯片布局图,CPU通过FSB前端总线连接北桥,而内存和PCI控制器这些高速接口都在北桥里,而南桥主要负责串口,USB、SATA这样的低速设备。此外白桥还有个特征,就是北桥是通过Front Side Bus前端总线和CPU相连,并且之间的连接速率并不是全速,而是和外频成倍数关系。如我之前的Core 2 E6300外频是266,FSB是X4 1066MHz,倍频是7,那处理器频率是266×7=1.86GHz,而我超频可以将外频提升到500,达成500×7=3.5GHz。

Intel这边最后保持完整北桥的芯片组是Core 2的P45/X48这代,之后的X58虽然保持北桥,但其实主要是控制PCIE,而内存控制器已经集成到CPU内部了。而AMD这边则更早,Athlon 64就已经开始在CPU内部集成了内存控制器,北桥主要是连接高速PCIE。

D7]5{LUKA)C(6HGPZLN7{JE

而到Sandy bridge的P55这代,内存控制器和PCIE控制器都集成到了CPU内部,全集成相比独立的北桥速度更快,延迟更小,北桥和前端总线似乎就要彻底的离开历史舞台了。

Q4(GT`L6BACI3$C]BLV(WHM

但到了Zen 2,北桥似乎就回归了,内存控制器和PCI控制器和CPU虽然还是在一个基板上,但是分开封装,并且通过异步的总线进行连接。就是说Zen 2又回归到到K8以前传统的架构。

TIM图片20190623130332

Zen 2的设计将内存控制器,PCIE控制器等部分从核心中拿出,核心/缓存被集中在Chiplet芯片里,而互联部分的IF总线,内存控制器、PCIE/NVME/SATA、时钟生成器和其他IO部分则被放在名为cIOD的芯片里(北桥),其通过Infinty Fabric总线进行连接(FSB)。

WJ$V6Q_IVW0W8IQ{2AX_6CB

再来看看具体的设计。单个核心的封装名为CCD,每个CCD里面有2个CCX,每个CCX里面可以有4个核心,16MB L3缓存。每个CCD同cIOD的连接位宽为32B/周期。cIOD里的Data Fabric到内存控制器的位宽也是32B,这和到核心的位宽一样。

Fabric总线的速度和内存控制器可以同步和异步,在1200-1600MHz范围是同步,如果用户内存是2133MHz,那内存控制器速度就是1066MHz,但Fabric总线还是会保持1200MHz的最低速度,如果在内存在2400-3600MHz范围,Fabric总线的速度和内存控制器同步就是内存速率的一半。内存单通道是8B,双通道就是16B,但由于DDR Double后频率翻翻,但位宽只有Data Fabric到内存控制器的位宽一半,这样带宽刚好保持一致。

[GQ6BYQI_~5A6PK]9K}CQ8Q

如果内存速度高于3600MHz,那Fabric总线的速度和内存控制器就最高固定在1800MHz。默认设置Fabric总线最高可以运行在1866MHz,如果内存频率高于1866X2,那Fabric总线和内存控制器就是异步模式,内存控制器的速度减半,如4000或者4266,内存控制器频率就是半速的1000/1066,那Fabric总线就会是异步模式,保持1800的频率。

K)8MV5VNDK%~M33)SWM(50D

例如内存频率在4266 MHz,16B带宽就是68GB/S,内存控制器的频率是半速,才1066MHz,32B带宽是34GB/S,异步的IF总线是1800MHz,32B带宽是57.6GB/S,明显内存控制器会成为瓶颈。这个时候内存延迟就会反而增加,并进一步影响到带宽(后面会有具体测试)。内存的延迟增加,其实也减轻了内存颗粒的负载,反而使得Zen 2内存比较容易上高频。但这样的高频并没有什么意义,带宽和延迟反而会变差。对于Zen 2而言,3733MHz就是甜点频率,如果可以达到这个频率,就应该考虑的是缩小参降低延迟,综合考虑性价比,AMD官方推荐是3600C16的内存规格。

VRQ3KDPH3KZQCOREP%0Q020

但更为细致的手工调节,我们可以在同步模式将IF频率拉到1900,内存运行在3800,这个时候内存控制器依然是同步模式。其实更为准确的说,只要是内存频率/2等于IF频率的同步模式,内存控制器依然是全速,因此追求最佳效能,可以同步拉高IF和内存频率。但从现在的情况看,IF可以提高的余地大概只有33MHz,从1866到1900MHz。

EK(H]EJLN9`272_36V~M)LC

我们使用AIDA64 6.0测试不同内存频率的延迟,内存频率高于3733以后,内存延迟就会大幅升高。Zen 2的内存延迟要高于Zen/Zen+,不过这在预料之中,内存控制器在iCOD里,需要通过IF再到MC,路径更长,符合预期。

Z$B1{J4W9I]@)QPFMBPHHP0

内存读带宽在3733之前是逐步走高,但超过3733,内存带宽会断崖式下跌,在3733之前实际带宽是理论带宽的87%,而超过3733,带宽效率也大幅下降。

另外一点就是写带宽,对于只有一个CCD的型号,如3600/3600X/3700X/3800X,其写带宽大概只有读带宽一半多一点的水平,而2CCD的3900X/3950X内存写带宽则是正常平衡水平。AMD给出的解释是:

Zen2中执行的区域和性能优化之一是将写入带宽从CCD->IOD从32B/cyc降低到16B/cyc,而读取带宽保持在完全32B/cyc。由于客户机工作负载不需要做很多编写工作,所以不需要指定宽度为32B的链接。这节省了在其他地方进行有用的优化所需的面积和能量。

Clip

我们依然用Cache 2 Cache测试单CCD的3700X L3一致性耗时,IF频率还是和远端核心L3耗时相关,IF频率越高,远端耗时就越短,内存频率超过3733进入异步模式,耗时还是和IF频率相关,和MC无关。Zen 2的耗时相比Zen和Zen+还是有一定幅度的进步。

AMD-X570-Chipset-Details-and-Specs_5-1480x833

现在计算机的接口,本质都是PCIE的各种转接。USB 3.0是,SATA3是,M.2是,DisplayPort也是,TBT3同样是,差别就是占用的带宽和物理定义不一样,但底层都是PCIE。Zen 2的IF频率按1600MHz计算的话,到IO Hub的位宽是64B/周期,这样就是102GB/S的总带宽。PCI-E 3.0 1X的带宽是1GB/S,X570支持PCIE 4.0,那一个Lane就是2GB/S,102GB/S带宽就可以满足50个PCIE 4.0 Lanes的需要,这样就使得Zen 2+X570有人以往HEDT平台才有的扩展性能。

OK)S0S([M[O{2$[XCMB{0P8

这样大的带宽分配起来就更加自由,以ROG CROSSHAIR VIII HERO (WI-FI)为例,CPU有组直连的16X PCIE 4.0(可以分拆成2个8X),一组直连的4X NVME和4组USB 3.2 Gen2。4X PCIE带宽从ICOD连到南桥,再对各种USB、SATA,WiFi,PCIE 1X 4X的扩展就更为从容不迫了。

在这强大的扩展性能之中,最为关键的就是PCIE 4.0,Zen 2平台配合X570芯片组主板的PCIE 4.0可以提供两倍于PCI 3.0的带宽。目前支持PCIE 4.0的设备主要有两个类别,第一是AMD自家的Radeon 5700显卡,第二类是PCIE接口的SSD。其实现在阶段我个人并不看好PCIE 4.0的应用,主要理由如下:

$~YC9WB7KA@J88)@459I2`8

Intel几乎没有计划支持PCIE 4.0(特别是在消费级),而是准备跳过直接在2021年后直接上PCI-E 5.0,并且主要是在服务器领域,而非消费级,AMD方面也只有高端的X570支持,这样使得PCIE 4.0平台在未来一段时间不可能形成足够的市场保有量,下游厂商就会缺乏动力,形成不了生态,PCI-E 4.0虽然是PCIE-SIG的标准接口协议,但在缺乏Intel支持的情况下,依然只是AMD的私有协议;

~I@CIASGG[)`3[7]JN6XG%U
显卡方面目前只有AMD 5700系列支持,我们对5700/5700XT的PCIE 3.0和0进行了对比测试:

EY[)Z}P$VMLK9B$7OY$R`(R

我测试PCIE 3.0到4.0带宽从13.76提升到了24.9,提升幅度基本有81%,这个数据比AMD官方PPT的21.8要高14.2%,估计是我这边IF频率高的关系。但具体性能我们使用3Dmark timespy的图形分进行对比,提升仅仅只有0.6%,这点差距仅仅是误差范围。并且在之前我skylake-X Refresh的测试中,性能更好的RTX2080TI PCIE 3.0 8x相比16x的性能损失微乎其微,现在对于RTX2080TI这样的显卡PCIE 3.0 16X并不是瓶颈,再把带宽翻翻实际上也边际效益也不会明显,更不用说RTX060 Super性能级别的5700XT了。

不过PCIE 4.0对于5700XT CrossFire还是有一定的收益,在双卡情况单卡降低到PCIE 4.0 8X,但这个带宽依然相当于PCIE 3.0 16X。3Dmark图形分PCIE 4.0双卡提升98.13%,大门PCIE 3.0双卡提升93.66%,PCIE 4.0在CF效能下还是有接近5%的优势。‘

AEF(D_P]WHW1U`IF5ADU~CA

储存方面虽然群联的PS5016-E16主控方案能够支持PCIE 4.0 4X,并且借此可以获得更高的顺序读写性能。但对于SSD而言,顺序性能却不是性能痛点,痛点在于低队列深度 的4K性能。并且目前计划采用PS5016-E16主控方案的都是如技嘉、影驰、威刚,海盗船这样的二三线SSD品牌,一线的如Intel,三星、西数、东芝、镁光均没有推行PCIE 4.0 SSD的计划。

AYPI30P~L%LFG6SBRM``5@Q而且这个PCIE 4.0的价格……

  • ]FYNLSHX@RYELE]KTR6M3DW

另外再提一下,PCIE 4.0也并不是Zen 2首发,IBM 早在2017年的Power 9就已经支持PCIE 4.0。

T4ZOG@)~T7U3S6QKX@BFFB1

不过他主要是用在提升infiniBand互联的带宽,基本可以将带宽从200GB/S翻翻到400GB/S的水平,这对于依靠infiniBand节点互联的HPC可以说意义重大,是立竿见影的刚需,而Volta显卡连接则是用的NVLink。Intel在2020年以后PCIE 5.0首先上在服务器领域也是出于互联带宽方面的考虑。

M`_NTLS1JUGWW3M39EQ0J5K

Zen 2的Chiplet部分是采用的7nm工艺,面积为7.67×10.53=80.76mm2(官方数据为77mm2),是右侧比较小的那个芯片,左边比较大的是IO芯片,采用的是更为老旧的12nm工艺,面积为9.32×13.16=122.65mm2(官方数据是125mm2)。

monolithic_design_vs_chiplet_yield

做Chiplet的意义不在于性能,而在于成本,首先是研发成本,相同设计的芯片可以灵活组合满足不同规模的性能需要,生产上也同样简化。此外更大的影响在良品率,先不考虑CIOD的话,如果做一个包含8个CCX大核心的话,面积大概就需要148mm2(简单化估算),按照上面的经验模型曲线这个面积的单个大芯片大概只有27%的良品率,而做4个CCX的74mm2的小芯片大概是38%的良品率。假设一个晶圆可以切割50个大芯片,100个小芯片,那只有13.5个大芯片可以用,而2个一组的小芯片则有19个可用,相同成本的情况下,2个一组的Chiplet设计可以比单个的大芯片多40%的良品。

上面的情况只是简化的经验数据,实际上Zen 2还有分离的CIOD芯片,这部分对于性能要求更低,可以使用更为便宜的12nm工艺,再切Zen 2采用的7nm是新工艺在高性能领域的首次应用,实际的良品率情况比上面的经验模式更为糟糕,那做Chiplet的意义就更为明显。

%ELKW0BEVG)UERR_]SSPUUG

再来说说工艺问题,Zen 2是首个采用7nm工艺中央处理器,按照台积电的说法,7nm相比之前的16nm+(Zen+的12nm并不是指真的线宽,而更多是市场宣传的营销手段,只不过是16nm的加强版),功耗仅为60%,性能提升30%,芯片面积缩小70%,那工艺上是不是吊打Intel祖传的14nm++呢?

Zen 2的CCX面积是31mm2,相比Zen+的44mm2小了29%,这还是处理器规模增大,L3缓存翻翻的情况下达成的。2700X的核心面积大概是193mm2。6/8核心的单CCD型号,Chiplet 77+ iCOD的125=202mm2,如果是双CCD的12/16核心型号,那核心面积是。Chiplet 77×2+ iCOD的125=279mm2。9900K的核心面积大概是173mm2,单CCD型号在Chiplet使用7nm没有集成显卡的情况下,面积依然要大于9900K,而更不用说晶体管规模。虽然CIOD的12cm工艺比较便宜,但7nm的Chiplet生产成本应该会很高,因此Zen 2虽然采用了Chiplet这样降低成本的设计,但整体成本依然不低。

我们再来看看AMD和Intel各家对于自己工艺性能的描述:

404`X$K9OU8%9JK42AILFCM

AMD PPT里7nm的每W是差于Intel 10nm的。AMD在Zen 2评测指南里的具体说法是每W性能相比Zen+增加75%,相比Intel 14FF+的处理器提升58%。。

@Q7L`CDROJ(X0IN[TSRG%SO

Intel自己PPT里,虽然首代10nm的工艺的密度更高,但晶体管性能14FF++比首代的7nm更好。我们可以注意AMD一直强调的是性能功耗比,而Intel强调的是绝对性能,这个性能就是上高频的能力。

1

2

现在的TSMC 7nm只是采用Finfet+SAQP,充其量只能算是过渡工艺,其首先只是为密度和功耗优化,而不是性能,而后面7nm HP才是完全体,虽然晶体管密度有所下降但性能会大幅提升。想想Intel 5775C的14nm和9900K的14FF++的差别,你大概就能明白,虽然同是14nm,但不能同日而语。

成本除了处理器本身的成本,还有平台的成本。虽然Zen 2可以在旧有的300/400系列平台上使用,但想要支持Zen 2更多核心数量的处理器、PCIE 4.0,更高的扩展性、更高的内存频率,则需要X570才能充分发挥优势。

I[0$_MXYL9J4914}8YE1GW3

但更多核心/更高频率的处理器需要更多的供电相数和供电散热,之前的B350/B450入门规格仅有4-5项供电,高阶的X370/X470也就8-12相,但Zen 2高阶型号已经12-16核心,而且频率更高,对于供电有更高的要求,X570供电基本是8+4起步,而高阶的C8H/C8F都是14+2供电,也远高于上一代C7H供电规格要高上不少。

H2E_Z29({V_2NA6T)E)]N@5

PCI E 4.0,更高内存频率和更大的处理器功耗需要更为复杂的布线更多的PCB层数,X470/Z390基本是入门4层PCB,Hero以上级别6层,但到了X570起步是6层,高阶的Strix-I/C8H/C8F/C8I都是8层PCB。另外更大的HUB带宽,使得可以支持更多的接口设备,X570后挡板各种USB 3.1 Gen2,密密麻麻,相比Z390/Z470也更为充实。

未命名-2.fw

我们比较Strix-E/F级别的Z390,X490和X570,无论是供电规模,还是装甲覆盖,毫无疑问都是X570要奢侈的多。并且还提供了双网卡接口,Q-Code Debug灯和4组AURA接口,之前这样的待遇要到Hero级别才有。

当然这样的奢侈用户也需要付出更高的代价,同级别的X570相比Z390要贵上不少。上面是7月3日京东到手价对比。但换个角度看,X570的PCB、供电,接口规格完全可以越级媲美高一个级别的Z390/X470,综合而言还是贵得有道理,可以接受。再说用户也可以继续选择B450或者X470来搭配Zen 2的6/8核心型号,要知道5XX元的B450也可以超频,有RAID功能,Zen 2平台的成本也不是没有选择的余地。

包装_resize

当然我们本次的评测Zen 2的座驾并不会是入门级的X570-P和TUF,而是ROG CROSSHAIR VIII HERO (WI-FI)。C8H的包装继续延续ROG一贯风格,下部有一排Logo,其中AMD 50周年/PCIE 4.0的Logo最为亮眼。

整体_resize

C8H在设计风格上并未延续C6H/C7H的设计,而是将Formula的设计元素下放到Hero,从后IO到南桥散热片一条整体的镜面带将大覆盖的装甲代区隔成两个区域,这样材质和色彩的变化仅仅用简单线条就使得整体外观颇具层次感,而并不需要太多繁杂的装饰。

对比_resize

再来看看和C7H的对比,C8H整体装甲的覆盖面积更大,供电的散热片也更为厚实。

socket_resize

AM4接口部分,需要注意的是CPU和内存之间的布线由Optimem II升级到了Optimem III,能够更好支持Zen 2的更高内存频率,并对双根内存上高频进行了优化优先使用2/4 DIMM(),这个部分我们后面具体再说。

dimm_resize

24Pin下面是电压测量点,合适高级玩家,这些人相比传感器读数更为相信自己的万用表。24Pin左侧是前置USB 3.1 Gen2 Type-C接口,而右上是开关和重启物理按键,这对于喜欢折腾的裸机玩家很有用。边缘的两个白色接口是4pin的AURA 12V和3pin的AURA 5V,这个接口下部还有两组,Hero级别还算大方,特别是不好串联的5V有两个会方便很多。

_DSC0719_resize

8组SATA接口,SATA接口下面是流速传感器,For 高端的分体式水冷用户。

jump_resize

底部的AURA 12V和5V接口,还有安全启动/快速重试按钮,还有LN2液氮模式条线,这些功能是为高端发烧玩家定制,他们在极限超频时候,需要解禁主板BIOS不必要的禁锢,也需要反复的尝试和重置,这些小功能可以让他们折腾方便不少。

_DSC0715_resize

板载声卡依然是SupremeFX S1220,其可以达到113dB线性输入和120dB输出的信噪比,同时推动力也比较强,可以直推600-Ohms的耳机。

_DSC0732_resize

下面的M.2可以支持22110长度,如PM983大船或者高贵的Intel 905P 380G M.2,

_DSC0735_resize上面的M2可以支持2280长度的M.2,取下散热片之前,需要先拿下风扇上的装饰金属片,这个螺丝很小,并没有锁死在金属片上,拆解的时候需要小心,要不容易搞不见。

_DSC0734_resize

再去掉装甲的上盖,我们就可以看见风扇和散热片。

_DSC0745_resize

这个风扇是台达生产,5V 0.44A,功耗2.2W,采用无刷电机,但实际使用过程转速并不高,完全察觉不到噪音。

_DSC0748_resize_DSC0750_resize

巨大的南桥芯片,有14W的功耗,并没有X470那样的顶盖封装,这样更好的能够把热量传导出来。

在主动散热的加持下,南桥散热片温度反而不高,基本不到30度,温度远不如旁边的M.2散热片。

_DSC0751_resize

由于主板正面原件过于密集,供电的主控制芯片ASP1405I被移到了主板背面,通过并联的方式一共有7+1相CPU+SOC供电(规模等效于14+2),每相一颗IR3555,单个IR3555有60A的供电能力。内存为两相供电,控制芯片是ASP1103。虽然采用控制芯片和Mosfet型号和C7H一样,但在规模上提升不少。

_DSC0752_resize

供电散热也十分厚实,不是那种美观作用的所谓Cover。

Ryzen 7 3800X 超频4.3GHz烤机,供电散热片外表温度也仅为40度,相信配合更为高阶的3900X/3950X也不会有问题。

io_resize

后部IO有2个LAN接口,第一个是通常的Intel I211方案千兆网卡,另外一个是Aquantia AQC-111C 5G网卡。下方红色的7个USB Type-A和Type-C是Gen 3.2 10Gbps带宽(其中左边4个是CPU直连,右边4个是PCH转出),上面的4个蓝色为普通的Gen 3.1。左侧有快速清空CMOS和BIOS直刷的按钮,这都是ROG Hero以上级别的传统功能。当然X570也可以支持带有集显的APU,但从目标人群看几乎不会有人会选择用C8H上集显,因此其后IO并无视频输出接口。

_DSC0731_resize

WIFI部分采用的是刚刚发布的Intel AX200芯片,其可以支持Wifi 6,通过MIMUMO可以支持2.4Gb的带宽,而蓝牙5.0的带宽是4.2的4倍。当然实现性能还是需要路由器和其他设备的支持。需要ROG Rapture GT-AX11000,或者 RT-AX88U这样的支持WiFi 6的新款路由器才能完全发挥性能。

DSC_6357_resize

我们再来看看C8H和C7H的PCB厚度对比,明显的8层板的C8H要比6层板的C7H要厚实不少。

DSC_2660_resize

再来看看灯光效果,之前的C6H/C7H虽然配备了5V AURA接口,但主板自带灯效还是不可寻址的,只能单色整体变化。而C8H这次主板自带灯光效果也升级到可寻址,可以展现柔和的渐变色。IO Cover的镜面区域下方有HERO的字样。

DSC_2672_resize

PCH散热片上也有个ROG LOGO的灯光区域,但这个区域会被显卡有所遮挡,无论用户把机箱放在桌上还是桌下,这个Logo区域都会低于视线位置,被巨大的显卡遮挡。

DSC_2662_resize

我们使用的水冷是九州风神Captain 240 Pro,其可以通过3pin 5V AURA而实现灯光同步。

Clip

处理器在7月7日首发的有3600/3600X/3700X/3800X/3900X五个型号,但实际供货的只有3600和3700X,我们本次评测也主要针对这2个型号。需要注意的是上面的价格仅仅是官方建议零售价,实际到手价格会更低,目前京东的活动Ryzen 5交定金减100,Ryzen 7减200,到了7月7号相信马云家各种开车价格会更低。

DSC_6352

Ryzen 7 3700X和2700X都还是采用AM4接口,封装也没任何需求,就是标识方向的箭头小了很多。

DSC_6349

3700X的TDP数字也有点难让人理解,6核心的3600X 95W,8核心睿频频率一样的3700X反而只有65W,但实际3700X自带的散热器规格明显高于3600X,当然AMD的TDP看看就好。具体的实际功耗我们会在稍后具体测试。

测试平台

DSC_261_resize

测试内存是芝奇幻光戟DDR4 4266C19 8GBx2,具体参数是19-19-19-39,测试过程我们并没手动缩紧参数,而采用XMP/DOCP的默认设置,需要注意的是AMD平台并不支持CL19,CL会被强行降到20。

David_McAfee-Next_Horizon_Gaming-3rd_Gen_Ryzen_06092019-page-008

我们本次测试切换到了新的Win 10 1903重新调整了核心的调度策略,会优先使用1个CCX,在一个CCX用干净后才会使用其他CCX,这样的调度策略会减少跨CCX操作,降低延迟。

测试Intel方面处理器我们全部是R0步进,减小Windows漏洞补丁对性能的影响,但从即使用户使用角度看,我们还是将1903更新到最新版本。这些漏洞问题对于Zen 2处理器要不是不存在,要不是通过硬件方法解决,对于Zen 2处理器性能基本没有什么负面影响。

Clip

具体的测试配置如上,在没有特别说明的情况下,2700X内存频率为3466,3600/3700X/3800X为3733。3800X 4.3GHz超频内存为3800MHz,IF为1900MHz,9900K 5GHz,uncore频率为4.7GHz。

BIOS/超频温度和功耗

频率

DOCP和倍频调节部分,这方面并没什么特别,唯一需要提及的是FCLK就是IF频率。

电压

电压设置部分,有独立的SOC电压设定,而CLDO VDDG对于Intel用户可能比较陌生,这个是内存控制器电压。PLL电压在提高BLCK时候才有用,一般可以不动。

190705115742_resize

X570的PBO精确自动超频的上限被拉高,可以+200MHz。

190705075052_resize
供电设置里,除了CPU和mosfet的设置,还有大量的VDDSOC就是CIOD北桥的设置。

190705075347_resize

板上设备设置里除了网卡蓝牙的开关,还可以设置各个插槽的PCIE速率,这是X570的独有特色。

屏幕截图(468)

除开BIOS超频,AMD也大幅更新了RyzenMaster软件,用户可以对核心开启数量,各个电压,内存和IF频率等进行细致调节。

频率稳定性/温度/功耗和超频

我们的测试环境为裸机平台,环境为27度温度设置的空调房,除了水冷240以外并无其他风扇。我们使用CineBench R20来测试处理器的频率稳定,R20的测试分为2个阶段,第一个阶段是全核心负载的多线程测试,第二阶段是单核心的单线程测试。R20相比R15测试时间更长,多线程部分超过28秒。Intel处理器测试我们分成两个设置,第一个设置是默认设置,TDP在28秒内没有限制,超过28秒就会被限制在95W,第二个设置是完全解除TDP的设置。

6SY1Y7_R9%1E69%6(W0QWH6

在默认设置9900K开始阶段全核心频率为4.7GHz,但在28秒之后就会降低到4-4.1GHz,使得功耗在95W以下,而解除功耗限制9900K在多核心测试可以保持全程 4.7GHz。而在后面的单线程测试,单核心的功耗远远低于95W的功耗墙,限制和不限制就没太大的差别,基本都在4.8-5GHz范围摆动。

3700X全核心在4.05-4.075GHz范围,而单核心在4.275-4.325GHz范围,虽然基础频率比2700X低,但实际无论是多核心还是单核心3700X都要比2700X高不少,甚至比2700X开PBO都要高。3800X全核心和单线程相比3700X基本高0.1GHz,其实差别不大。

屏幕截图(475)

超频部分我先来说结论,基本盘大概是1.4V 4.3GHz,3700X的默认电压在1.45V水平,超频需要略微降低电压,来降低功耗和温度。之前2700X的基本盘是4.1GHz,Zen 2超频性能还是有一定提升,但这个提升相信还是低于不少人的预期,之前在社交媒体和论坛不少人叫嚣4.8/5GHz,虽然这些叫嚣的人叫自己都不相信,但也就是这种氛围抬高了人们的心理预期,使得人们还是期望应该有个4.5GHz以上的水平,究竟工艺提升了这么多,没有4.5GHz实在说不过去。4.3GHz的频率基本和boost频率差不多,虽然手动超频4.3GHz可以提升全核心,特别是Benchmark性能,但对日常使用和游戏并没有什么提升,因为3700X/3800X日常和游戏的Boost频率基本都高于4.3GHz。

对于什么叫超频成功,不同人也有不同的标准,有人简单跑R15通过就叫超频成功,有人又要跑AIDA64 FPU或者Prime 95多长时间才叫通过,这其实都是有很大的误区:Cinebench R15的负载过低,可以通过并不能说明什么问题,并不能保证其他日常应用的稳定。AIDA64 FPU或者Prime 95这样的烤机基本就是烧AVX,对于HEDT平台甚至是AVX512,负载相比日常应用又大太多,同样也不能代表日常使用的情况,同样也不合适。

我们超频/温度/功耗测试我选择了2个测试场景,第一个是AIDA 64 6.0单烤FPU,但AIDA 64烤机是烤的AVX2,Intel平台和Ryzen平台性能存在较大差别,并不是类似负载情况,而是比较类似极限情况,而Keyshot 8测试,3700X和解除功耗限制的9900K性能几乎一样,更为合适直接比较,超频一般能够通过一个小时的Keyshot渲染测试,也基本可以保证日常使用的稳定。

OETND@0T5__S_1O-1

上表Ryzen的几个功耗读数来自AIDA64的传感器读数,这个数据仅供参考,并不合适AMD和Intel平台之间比较。整机功耗数据摘自功率计插座,我们使用的追风者1000W白金电源有90%以上的转换效率,实际功耗大概需要打个9折,和RTX2080TI显卡待机,1TB的NVME SSD和240水冷虽然也要消耗一些功耗,但这些功耗相对恒定,对于双方比较还是基本公平的。

Keyshot 3700X整机功耗是172W,9900K无功耗限制是280W,两者的性能几乎一样,3700X功耗低很多,这就验证了AMD的说法,Zen 2 7nm的性能功耗比更好。

但这个只能代表是AMD Ryzen 台积电7nm性能功耗比更好,并不能说AMD的工艺性能更好。Zen 2实际是没什么超频空间,全核心4.3GHz其实和默认Boost并没太大差别,这样的频率同Intel平台5GHz水平有很大的差距,虽然处理器设计会影响频率,但达到频率更多的还是由工艺决定,可见AMD 7nm相比Intel祖传14FF++仅仅是有功耗方面的优势,而在晶体管性能方面还是存在不少的差距。

首代的TSMC 7nm HD主要是针对密度和功耗优化,这样的工艺在低频表现好,功耗和温度低,但如果加高电压和频率,功耗上升曲线会更为堵直。而高性能的HP工艺在高频表现更好。这需要在下一代的Zen处理器才会实现,从乐观的角度看,届时AMD处理器的频率应该有很大的提升空间。

3700X+X570待机功耗大概在70W以上,基本比3700X+X470或者9900K+Z390高10W以上,这主要是X570的南桥芯片组功耗更高,官方功耗是14W以上,而X470/Z390的南桥基本就5W级别。另外我们还发现在插拔USB设备时候,瞬时功耗有10瓦以上的变化,无论使用的直连还是南桥的USB都是如此,而在Intel平台变化就没有这样明显。这说明在插拔瞬间,CIOD或者南桥工作状态和负载有明显变化。

渲染性能测试

r15

渲染性能测试我们首先测试是喜闻乐见的Cinebench R15,Ryzen 7 3700X的单线程性能相比2700X提升了16%,这其中频率贡献并不大,主要还是得益于效能的提升。R15现在看负载比较低,对稳定性要求也低,测试时间短,甚至不能不够28秒触发长时间TDP功耗限制。

r20

Cinebench R20是R15的升级版,相比R15的负载更大,测试时间更长,对于稳定性有更高的要求,并且其中加入了AVX,虽然AVX比重很小,甚至不能触动AVX Offset降频。从R15和R20的数据看,3700X相比2700X单线程性能提升了15%,多核心性能更是提升了22%。3700X/3800X可以和9900K旗鼓相当了,Intel i5/i7由于没有超线程的支持,Zen 2的优势更为明显。AMD在产品宣传时候总是强调R15和R20性能,但这个性能主要是衡量SSE性能和多核心扩展性,甚至是单线程性能都不具有什么代表性,特别是不能代表游戏性能。

povray-2

POVRAY测试也分为多线程和单线程。具体性能情况和前面的R15/R20类似,Ryzen表现优秀。

P9_R19N3MDUYOJHFY7S

Keyshot 8具体测试场景如上图,进行默认设置进行渲染。这个测试场景需要一个小时以上的时间,稳定性要求高于R15,和R20类似,是基于实际应用的测试,而非单纯的基准测试,测试结果完成时间秒,结果越低越好。在这个基于实际应用的渲染场景中,Zen 2同样大胜利,6C12T的3600大幅领先没有超线程的9700和9700K,3700X相比TDP限制的9900K也有明显优势,超频4.3GHz 3800X也超过了超频5GHz的9900K,看来渲染领域现在成了AMD Zen 2的主场。

应用和AVX性能测试

4VPNKCHRZD_F0OBO

Fritz Chess Benchmark是基于Fritz Chess算法的国际象棋程序,主要是考研分支预测性能,前面架构部分测试,Zen 2的单线程同频性能相比Zen提升20%,分支预测能力大幅改善,9900K能够超过Zen 2完成是凭借频率优势。

JLY@6@BV1LDH

7ZIP是著名压缩软件,我们使用其自带benchmark测试多线程和单线程性能,这个测试项目主要是考量整数性能,分支性能和多核延展性。3700X相比2700X在核心数一样,频率变化不大的情况下,性能提升20%,主要也是得益于动态分支预测器的改进,和上面的Fritz Chess Benchmark情况差不多。

MBUEXQ0DSAUD9SKD21ZO

X265 Benchmark是X265编码程序,得出的结果是完成一次编码的平均FPS,主要是考验AVX2性能,Zen 2的AVX2性能大幅提升,6核心的3600就接近2700X水平,而3700X和3800X也反超有TDP限制的9900K。AVX由于负载极高,超线程的作用也不太明显,9700/9700K相较9900K的差距也不算太大,更为吃实打实的核心数。

2222222

y-cruncher是利用AVX2甚至AVX512来算Pi的测试程序,我们选择10亿位进行测试。通常的Super P单线程计算100万位就需要7-8秒,而y-cruncher利用SIMD来计算效能可以巨幅提升。y-cruncher测试负载和功耗极高,对稳定性要求也极高,处理器或者内存超频稍有不稳定就会报错,如本次测试9900K超频的多线程部分都由于稳定性不够而测试失败。从单线程比较,3700X相比2700X快了43%提升巨大。Intel平台由于Spectre/Meltdown漏洞补丁的影响不能开启大分页,性能大概有5%的负面影响。

屏幕截图(41)

由于y-cruncher支持AVX512,我们增加了HEDT的i9 9820X的测试,9820X完成多线程仅需34.5秒,AVX512的效能相比AVX2还有大幅上升,当然AVX512的功耗也是恐怖的,9820X 4.2GHz的AVX512功耗甚至会到达380W的水平。不过现在支持AVX512的都是行业软件,如Adobe系也只是用到AVX2,因此这个问题对于一般消费者而言并没什么影响。

游戏性能测试

在游戏性能测试之前,我们先说说CPU和GPU对于游戏性能的影响,游戏性能会存在一个CPU FPS,一个GPU FPS,具体游戏的FPS是由这两者的下限决定。

对于游戏而言,游戏画面越好,画质和分辨率设置越高,整体瓶颈会更为倾向GPU,对于LOL和CSGO这种画面技术简单,显卡要求低的游戏,对于CPU更为敏感。我们选取了8个高人气的游戏来进行测试,既有CSGO这样的DX9老游戏,也有古墓丽影这样的RTX AAA大作。并且在这8个游戏中,其中文明6、全境封锁2、刺客信条奥德赛是AMD合作的Ryzen优化游戏,而Intel优化的只有全面战争三国一个。


屏幕截图(415)

首先我们先看个具体范例:地平线4是Windows UWP平台第一方赛车游戏大作,我们使用1080P最高画质 4X MSAA使用游戏自带benchmark进行测试。9900KF的实际游戏性能曲线是由GPU性能的黄线决定,而CPU性能的蓝线高高在上。

屏幕截图(416)

处理器换成2700X,处理器性能的蓝线低了很多,直接压制住GPU黄线,平均FPS也由121FPS下降到了114FPS,2700X的CPU性能明显拖累了游戏性能。

Clip-4

所有的Intel的CPU FPS都没有给游戏性能带来瓶颈,最终平均FPS都为122FPS。Zen 2的CPU FPS相比相比Zen有明显提升,从140FPS上升到170FPS左右,但CPU还是对游戏性能有略微的限制。

古墓丽影崛起虽然加入了对RTX的支持,使得其显卡负载大大提升,但作为AAA对于处理器性能依然敏感。我们测试使用1080P RTX ON MAX的画质设定。古墓丽影暗影和地平线4一样,同样有CPU性能测试数据。

TR

屏幕截图(450)

CPU性能低就会压低GPU的性能表现,虽然3700X的游戏CPU性能比2700X提升了24%,但在中段每帧的CPU耗时还是高于GPU,这就说明了CPU性能拖累了GPU。

屏幕截图(443)

而9900K的每帧CPU耗时全部低于GPU,这说明瓶颈完全在显卡,CPU性能没有对游戏性能有任何拖累。

TslGame_2019_07_06_16_48_25_140

绝地求生虽然比17/18凉了不少,但终究还是最高人气的PC游戏(LOL除外)。之前我们测试都是采用的1080p MAX的设定,但实际上大多玩家都是采用纹理,抗锯齿和视野距离最高,其他最低的设定,这样可以在视觉效果和性能方面获得平衡,同时也更为容易索敌。另外一方面也可以获得更好的性能和更为稳定的FPS。在这样的画质设定下,GPU占用率基本在60%左右,明显吃不满,整体的瓶颈就被转移到CPU。而在2K分辨率全最高特效,GPU占用率则基本在95%以上。我们测试方法是选择Miramar沙漠地图的回放,使用FRAPS记录2分钟到10分钟的游戏性能,分别使用2K全最高和2K采用纹理,抗锯齿和视野距离最高,其他最低的设定进行测试。

1GA654VNUNQZ1NG7-1000x1440

在全特效的时候显卡依然还是瓶颈,各个CPU的FPS基本没有什么差距。但将画质设置成1440P 纹理抗锯齿视野距离最高 其他最低的时候,不同处理器之间的差距就拉大开来 。

9900K/9700K平均FPS在240到250水平,最低FPS级别也在130FPS以上。而2700X平均FPS 170FPS不到,最低FPS仅有90的水平。3600/3700X着基本有210FPS左右水平,相比2700X提升了接近50FPS。

9900K超频到5GHz,平均FPS可以从250提升到266,这说明CPU上面依然有瓶颈。虽然平均FPS都在144以上,但最低FPS还是存在明显差别,更高的最低FPS在电竞显示器上还是会有更好的体验。

屏幕截图(474)

文明6我们使用游戏(非资料片)自带的AI Benchmark进行测试,结果为每回合AI计算时间,结果越小越好,注意文明6最近修改了AI算法,比之前的测试要快,并无可比性。

UDZ3ZX30ALZDVKC0LQH

文明6大概可以吃7个核心,其中一个吃满,虽然AI计算理论上并行度可以很高,但文明6本质还是单核心游戏,游戏性能基本和单核心性能成正比。

屏幕截图(470)

CSGO是采用的十几年前的Source引擎,还是采用的DX9 API,对于显卡要求不高,但对于处理器性能极其敏感。有可能有人认为200FPS和300FPS并没什么差别,反正都比显示器的刷新率高为什么,但CSER却对FPS有种几乎偏执的追求,虽然这种追求我并不能理解。我们使用控制台的timedemo命令行进行测试,测试场景为Dust 2。

7T5X@YBIV7IMJY1O9Y

虽然CSGO是个DX9的古董游戏,但还是可以利用6个以上的核心,其中一个核心执行主要任务占用几乎可以吃满,因此其同时吃单线程和多线程性能。

Three_Kingdoms_2019_07_06_16_52_13_222

全面战争三国是全面战争系列的最新作 ,本作将游戏背景移到中国的三国时期,在最近一段时间一直都位列Steam游戏销量排行的前列。全面战争在战略界面是回合制,而在战术界面是RTS,同屏数千甚至上万人,对于处理器有比较高的负载。我们使用游戏自带的Benchmark进行测试,设定的是1080P最高画质。另外需要提及的是本作是Intel处理器的优化游戏,可以充分利用8个核心线程。

IPVO82MAH5NYJ5@5ROX

全战三国的任务负载较为均衡,对于多线程能力更为看重,因此只有6C6T的9400F性能最差,不过还是得益于架构优势,Ryzen 5 3600性能还是优于2700X,3700X相比2700X也有10%的性能提升。

屏幕截图(451)

刺客信条奥德赛是Ubisoft开发的刺客信条的最新作,我们使用1080p MAX画质,使用游戏自带的benchmark进行测试。奥德赛也是Ryzen优化游戏,可以用到12个以上的线程,对于多核心利用很充分。奥德赛测试minFPS很不稳定,我们不予统计。

HE5WQKTWRIUAVM_903

在奥德赛的Benchmark中,Zen 2的性能超过了6C6T的i5,但相比i7/i9还是差距明显。

屏幕截图(452)

全境封锁2是Massive工作室开发的战术射击RPG游戏,和前作一样,采用自行研发的Snowdrop引擎,我们使用1080P Ultra画质,使用游戏自带Benchmark进行测试。本作也是Ryzen优化游戏。本作对多核心优化十分充分,基本16个线程都有合理负载。

3d8291a0300e9d3f9c5df20a0cb5123

虽然是Ryzen优化游戏,但Ryzen并没占到什么便宜。i9和i7优势明显,不过3700X相比2700X还是有巨大的进步,提升了16FPS,入门级的Ryzen 5 3600相比2700X都优势明显,并且以1FPS的优势战胜了i5 9400。

其实游戏测试整体结果有点超出我的想象,不仅是CSGO/绝地求生3MAX画质不同处理器有差距,就如全境封锁2、古墓阴影暗影、刺客信条奥德赛这样极端吃显卡的AAA游戏也有明显差距。但这个测试是以RTX 2080TI为平台,使得CPU需要保持更高性能,才不至于拖GPU后腿。但这样的问题对于有RTX2080TI+144Hz显示器的用户才会特别明显。如果你是使用的2080或者以下显卡,再或者使用2K甚至4K显示器的时候,瓶颈又依然会回到显卡段上。这个时候使用Zen 2还是Intel i7/i9差别就将会缩小。

9700K相比9900K在游戏性能方面还要略胜一筹,主要是9900K的超线程消耗了一些资源。

9700相比9700K差距也小于预期,9700虽然不能超频,TDP也仅有65W,但游戏并不会触及TDP墙,实际游戏频率基本也在4.4GHz以上。

Ryzen 7 2700X的游戏性能实话,明显低于我的预期,在绝大多数游戏中相比9xx元的i5 9400F都有明显的差距。

但Zen 2新架构3600性能大幅提升,和9400F互有胜负,打得你来我往。

3700X的游戏性能大概是9700F的95%,3800X我们也进行了测试,游戏频率大概高75-100MHz,实际游戏性能并没太明显差别,因此我就没额外列出。

3700X/3800X全核心超频可以超到4.3GHz,但这个频率低于游戏时候默认Boost的加速频率,超频4.3GHz反而会降低游戏性能,因此并无测试的意义。

大轮播图-1000x607

Zen 2的购买建议

之前的Zen/Zen+的微架构效能基本就是Haswell的水平,而Zen 2将架构效能做到了Skylake的级别,甚至略有超越,可以说有十分大的进步。但在芯片系统整体架构上,Zen 2选择了成本和扩展性优先,Chiplet + iCOD的结构虽然容易扩展,成本上比单个大核心占优,但导致存储体系效能受到很大影响,这些的设计是妥协的结果。这样妥协是由策略决定的。继续提高效能既然困难,不如用更低的成本来扩展规模,达成更多的核心,这样在市场营销上更为方便。

总有人强调IPC,Zen 2的IPC已经达到了Skylake的级别,但性能差距在频率,Intel:我既然频率吊打你,为什么要跟你比同频?这个频率的差距主要就在工艺,目前的TSMC 7nm是首代7nm工艺,主要是针对密度和功耗优化,虽然在低频功耗比较很好,但在高频无能。如果AMD想要上高频,还要待到第二代7nm HP工艺。

Clip_2

Ryzen 5 3600的价位在1500元左右,配合500元级别的B450M,平台整体成本在2000元水平。这个价位基本是Intel的空白,Intel下面是9400F+B360(1000+500),上面是8700+B360(2000+500),而类似价位仅仅只有尴尬的9600K,但9600K配合便宜的B360就不能超频,配合Z370/Z390平台的整体成本就过高。Ryzen 5 3600在有更好的多线程性能的同时,也可以提供i5水平的游戏性能,还是有一定的竞争力。

Ryzen 5 3600X相比3600要贵400,虽然我没实际测试过,但参考3700X和3800X的情况,实际Boost频率相比3600也不会有太大的差别,一般不予推荐。

Ryzen 7 3700X和i7 9700F价格定位十分接近,优点在于更好的多线程性能(特别是渲染),还有超频的可玩性,但在游戏性能上相比9700F还是有差距(大概5%)。主板平台方面我们推荐比较高供电规格的B450或者上一代的X470。

3700X和3800X的关系比较类似2700和2700X,但其之间的频率差距更小,Ryzen 7 3800X相比3700X要贵上600元,但全核心和单核心频率基本只有0.1GHz的优势,性能上没有明显的差别,不与推荐。

Ryzen 7 3900X/3950X基本就是在桌面平台实现了以往X399这样HEDT级别的性能,合适对计算密度要求很高的用户,特别是设计类行业用户,如3D设计和视频处理,但12C/16C处理器的功耗会更高,因此我们推荐使用高规格的X570主板,就如我们本次的测试平台ROG CROSSHAIR VIII HERO (WI-FI)。



关注电子行业精彩资讯,关注华强资讯官方微信,精华内容抢鲜读,还有机会获赠全年杂志

关注方法:添加好友→搜索“华强微电子”→关注

或微信“扫一扫”二维码

资讯排行榜

  • 每日排行
  • 每周排行
  • 每月排行

华强资讯微信号

关注方法:
· 使用微信扫一扫二维码
· 搜索微信号:华强微电子