ARM连发四款Mali GPU：一律全新架构、性能飞跃最多6倍

时间：2021-10-08 09:14:33

除了针对64位元行动计算的Cortex-X2、Cortex-A710、Cortex-A510三款全新CPU IP，ARM还带来了多达四款新的行动GPU IP，同样启用新的命名规则，分别是Mali -G710、Mali-G610、Mali-G510、Mali-G310。G710、G510、G310分别定位旗舰、主流、入门级市场，依次取代现有的G78、G57、G310。

G610其实和G710是一样的，只是核心数较少时单独使用的名字。这是ARM Valhall GPU架构的第三代产品，也是第一次完整覆盖高中低阶各个领域。搭配同时发布的Cortex-X2/A710/A510 CPU、CoreLink CI-700一致性互连技术、CoreLink NI-700晶片网路一起，它们可以构成完整、强大的SoC解决方案。

虽然架构变化不大，只是继续优化提升，但是这一代Mali GPU的性能进步还是很可观的：G710号称综合性能提升20%、机器学习性能提升35%、纹理性能提升50%、能效提升20%。G510综合性能提升100%、机器学习性能提升100%、能效提升22%。G310虽然定位最低但变化最大，号称纹理性能提升多达6倍、Vulkan性能提升4.5倍、Android UI内容性能提升2倍。

G710的执行引擎设计和G77、G78十分相似，变化更多是一些细节。wavefront/warp大小从8翻倍到了16，而且每个执行引擎有两个数据路径，最终形成每个核心32个FMA。ISA指令集也有了不小的改进，可以更好地满足Vulkan等现代GPU的需求，但暂无细节。

G710还新增了一个执行引擎，每个着色器核心的计算性能因此翻倍，同时每核心每时脉週期的不同吞吐量也有4倍、8倍的增加。

纹理单元也是全新的，每时脉週期可以处理最多80亿纹理，再加上面积优化，单位密度纹理性能提升了50%。16宽度执行单元单实例变成了4宽度四实例，整体吞吐量不变，但是资源分配更合理，效率更高。新的执行引擎每核心每时脉週期FMA翻了一番，同时功耗也优化降低了20%。

另外传统的工作管理器(Job Manager)变成了新的“指令流前端”(Command Stream Frontend)，负责调度和处理draw-call，还第一次带来了韧体层与硬体紧密配合处理主机需求。

G710可以配置8-16个不同核心数，G610则是最多6个核心，另外L2快取可以配置2个或4个区块，每个区块256KB或者512KB，也就是整体最小512KB，最多2MB。G510支援2-6个核心配置，每核心每执行单元的配置也可以定制，纹理单元也大大加强。执行引擎还是2个，但也可以配置为只用1个，每时脉週期64 FMA会因此减少到48 FMA。G310虽然定位最低，但这次升级力度最大，终于抛弃了古老的Bifrost架构。

它因此有了新的执行引擎设计，支援灵活的规模配置，每核心可以有16、32、48、64 FMA，纹理单元最低则是每时脉週期2个。不过G310仅支援单核心设计。