GPU图形处理器行业深度研究报告：GPU研究框架

文章正文

发布时间：2024-07-29 20:45

一、GPU投资逻辑框架

处理器芯片经历了从专用到通用，再从通用到专用的2次转变。其中，可存储指令的冯•诺依曼体系和1971年X86 CPU的诞生是第一次转折的诱因；摩尔定律的减速和以GPU为代表的异构运算的崛起是第二次转折的诱因。异构时代，芯片需集成多个模块来满足不同的需求。例如汽车芯片集成了GPU、CPU、NPU等至少10种处理单元。

GPU被广泛地运用于PC、游戏主机、汽车、服务器、移动等领域。其中注重算力的服务器和注重便携性的移动端分别采用独立和集成GPU，而汽车、游戏主机、PC等主要采用独立+集成的GPU接入方式。全球GPU市场表现为寡头垄断下的高增长，年复合增速超过30%，主要市场份额被英伟达等美系企业占领。在此宏观背景下，国产GPU企业蓬勃发展，在GPU软硬件方面同时出击，呈现“星星之火，可以燎原”之势。

GPU是数字芯片，基于制程越小，性能越好的规律，GPU产业链是先进制程数字芯片产业链。当前国产GPU产业链进口替代：设计环节，景嘉微等龙头在不断追赶，封测环节，通富承接AMD 7nm GPU封测，14nm及以下结点的先进制程，设备、材料、EDA/IP、制造等环节与国外领先龙头差距较大，目前仍采用“外循环为主+内循环为辅”的模式。

GPU产业链的巨头大多集中在海外，它们位居产业链各个环节核心，对全球GPU行业起着决定性的作用。设计环节：NVIDIA、AMD几乎垄断独立GPU的市场，英特尔、AMD几乎垄断集成GPU市场；设备、材料、EDA/IP等环节国内龙头与国外龙头差距较大，国产化率较低；制造环节：目前只有台积电和三星有5nm 制程生产能力，但均需使用美国设备；封测环节：目前中国台湾、中国大陆、美国三分天下。

二、详解GPU：专用计算时代的“画师”

GPU（graphics processing unit）图形处理器，又称显示核心、视觉处理器、显示芯片，是一种在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。GPU通常包括图形显存控制器、压缩单元、BIOS、图形和计算整列、总线接口、电源管理单元、视频管理单元、显示界面。GPU的出现使计算机减少了对CPU的依赖，并解放了部分原本CPU的工作。在3D图形处理时，GPU采用的核心技术有硬件T&L（几何转换和光照处理）、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬件T&L技术可以说是GPU的标志。

软件生态方面，GPU无法单独工作，必须由CPU进行控制调用才能工作，而CPU在处理大量类型一致的数据时，则可调用GPU进行并行计算。所以，GPU的生态和CPU的生态是高度相关的。近年来，在摩尔定律演进的放缓和GPU在通用计算领域的高速发展的此消彼长之下，通用图形处理器（ GPGPU）逐渐“反客为主”，利用GPU来计算原本由CPU处理的通用计算任务。目前，各个GPU厂商的GPGPU的实现方法不尽相同，如NVIDIA使用的CUDA（compute unified device architecture）技术、原ATI的ATI Stream技术、Open CL联盟、微软的DirectCompute技术。这些技术可以让GPU在媒体编码加速、视频补帧与画面优化、人工智能与深度学习、科研领域、超级计算机等方面发挥异构加速的优势。以上4种技术中，只有OpenCL支持跨平台和开放标注的特性，还可以使用专门的可编程电路来加速计算，业界支持非常广泛。

从芯片设计思路看，CPU是以低延迟为导向的计算单元，通常由专为串行处理而优化的几个核心组成，而GPU是以吞吐量为导向的计算单元，由数以千计的更小、更高效的核心组成，专为并行多任务设计。CPU和GPU设计思路的不同导致微架构的不同。CPU的缓存大于GPU，但在线程数，寄存器数和 SIMD（单指令多数据流）方面GPU远强于CPU。微架构的不同最终导致CPU中大部分的晶体管用于构建控制电路和缓存，只有少部分的晶体管完成实际的运算工作，功能模块很多，擅长分支预测等复杂操作。GPU的流处理器和显存控制器占据了绝大部分晶体管，而控制器相对简单，擅长对大量数据进行简单操作，拥有远胜于CPU的强大浮点计算能力。

过去20多年里，GPU的基本需求源于视频加速，2D/3D游戏。随后GPU运用自身在并行处理和通用计算的优势，逐步开拓服务器、汽车、矿机、人工智能、边缘计算等领域的衍生需求。虽然GPU无法离开CPU独立运作，但是在当前“云化”加速的时代，离开了GPU的 CPU也无法胜任庞大的计算需求。所以 GPU和CPU组成了异构运算体系，从底层经由系统软件和驱动层支持着上层的各种应用。GPU已经成为了专用计算时代的刚需。

GPU的供给涉及设计、制造、封测三个主要环节，整体供给模式有IDM和Fab+Fabless两种。IDM模式将设计、制造和封测集中在一起，代表厂商有英特尔。Fab+Fabless模式的代表有AMD设计，台积电制造，通富微电封测；ARM阵营的苹果设计，台积电制造，日月光封测。目前GPU的先进设计、先进制造主要被美系、韩系和中国台湾所控制。中国大陆企业华为和中芯国际遭到美国实体清单限制，未来发展艰难。封测方面，长电科技和通富微电已经掌握先进封测技术，已经有能力为苹果、AMD提供封测技术支持。

汽车GPU的用例几乎涵盖了从ADAS到自动驾驶，从仪表到中控信息系统等多个车载系统。在实际大规模量产领域，基于深度学习的ADAS系统是GPU的主力战场。不同于消费级GPU，汽车GPU需要满足诸如AEC-Q100等车规认证，快速生成冗余备份，在冗余备份中进行二次处理，确保功能的安全执行。安全关键图形和计算能力是下一代车载系统的要求。为了提高汽车GPU的速度，实现图形和视频流之间快速切换，汽车GPU需要专用的图形API，如Imagination专用汽车GPU的OpenGLSC2.0 API。通过GPU的硬件虚拟化解决方案，多屏幕、多操作和多个应用程序都能在一个GPU上运行而没有性能损失。随着汽车的含硅量上升、功能的多样化，汽车CPU将和汽车GPU组成SoC，从分布式向中心化发展，统筹计算整车数据。以新能源车的标杆特斯拉为例，下代HW4.0将同时集成ADAS（先进辅助驾驶）、电动汽车动力传动、车载信息娱乐系统和车身电子四大功能。汽车GPU作为主要算力的提供方，对整个汽车行业具有决定性作用。目前汽车GPU可以分为2派。其一，是以特斯拉为代表的“自主”派，采用类似于苹果公司的模式，自主设计芯片，不对外开放技术，软硬件的整合在公司内部完成。其二，是以英伟达为代表的“开放”派，采用类似于安卓的模式，对外开放技术，服务其他车企，自己不造整车。具体模式的选择需要综合地权衡灵活性和契合度。

服务器GPU，即在服务器中使用的GPU，它从底层支持着整个服务器产业链。服务器GPU被广泛应用于AI 、数据分析、高性能计算与渲染等领域。不过服务器是网络中的重要设备，要接受少至几十人、多至成千上万人的访问，因此对服务器GPU具有大数据量的快速吞吐、超强的稳定性、长时间运行等严格要求。在AI服务器领域，相较于其他运算单元，服务器GPU因较高的可编程性和不错的通用性能，被用作特定应用处理器（ASP），部署在云端、办公室、数据中心、边缘计算。目前，主要的服务器GPU解决方案有英伟达的DGX、EGX、HGX等平台；AMD的Instinct M100 GPU 解决方案。这些服务器GPU被广泛用于戴尔、惠普、技嘉、超微的服务器产品。

纵观全球智能手机和平板市场，智能手机的出货量在 12亿部以上，是同期平板出货量的8倍以上。随着移动通讯进入5G时代及5G技术的亲民化，5G手机的换机将带动整个手机市场复苏。预计未来5年手机的出货量将保持1.7%的同比增长，2024年出货量将超过14亿部。  全球智能手机CPU基本全部采用ARM指令集。截至 2020Q3，联发科和高通是最主要的手机SoC供应商，市场份额分别为31%和29%。截至2020Q2，全球平板电脑的SoC大部分采用ARM 指令集，占比超过50%，还有部份使用Windows系统追求高性能的平板采用英特尔的X86处理器，占比 18%。

游戏主机的设计思路完全不同于PC。通常每个世代游戏主机的核心部件如CPU、GPU、DRAM等硬件的性能指标是不变的，而且主机存在成本控制、体积、12V供电等物理限制因素，所以游戏主机的硬件性能不会领先于同期高端桌面处理器。游戏主机的画质、音效、操控等实际体验非常看重开发人员对CPU、GPU等硬件优化和底层API等软件优化。在上述一系列限制因素的共同作用下，同时集成了较高性能CPU和GPU的AMD定制化“APU”成为了索尼和微软的首选，而任天堂的Switch采用英伟达的Tegra芯片。以索尼PS5为例，它的GPU搭载了以RDNA2微架构为基础的36组运算单元和 Zen2 CPU共用16GB GDDR6 DRAM，主频最高2.23GHz，可以提供10.3TFLOPS的算力，是前代PS4的5.6倍。在索尼独家 Game boost、GNM底层API和GNMX高级API等技术支持下，兼容前代PS4和PS4 Pro的游戏，支持光线追踪、4K 120赫兹HDR游戏、8K显示。

PC GPU主要分为集成GPU和独立GPU。目前，大部分集成GPU已经和CPU被设计为一颗SoC，二者通过 SoC内部的高速总线实现互联，而独立GPU多采用PCIe总线与CPU实时通讯。当前，集成GPU主要由英特尔和AMD提供，独立GPU主要由AMD和NVIDIA提供。PC的GPU需求不同于追求多路互联和“交火”的服务器GPU，不同于追求高度稳定的汽车GPU，不同于追求省电和小体积的手机/平板GPU。PC的GPU需要在性能、拓展性、能效方面做到平衡。拥有先进制程和封装，TDP（热设计功耗）15-25W的集成GPU或独立GPU可以满足轻薄笔记本电脑的图形需求，TDP 25-150W 的独立GPU可以满足游戏本的图形需求，TDP75-320W的独立GPU可以满足台式的图形需求。2020年英特尔在其架构日中首次推出Xe GPU架构。Xe微架构可以满足从集成/入门图形需求到数据中心和高性能计算的需求。Xe的推出标志着英特尔向高性能独立显卡领域的扩张。

三、知己知彼：GPU的全球格局与行业龙头

2020年全球GPU市场价值预计为254.1亿美元，预计2027年将达到1853.1亿美元，年平均增速为32.82%。按GPU的类型进行划分，市场可以细分为独立、集成和混合。2019年，集成GPU占GPU市场的主导地位，但是由于混合GPU同时拥有集成和专用GPU的能力，所以混合细分市场预计实现最高复合增长率。按GPU的设备进行划分，市场可细分为计算机、平板电脑、智能手机、游戏机、电视、其他。就收入而言，智能手机细分市场占比最大，在未来也将保持这一趋势。但是，由于医疗等其他设备中对小型GPU的需求不断增加，预计未来的年复合增长率将最高。按GPU的行业进行划分，市场可细分为电子、IT与电信、国防与情报、媒体与娱乐、汽车、其他。由于GPU在设计和工程应用中的广泛使用，预计汽车细分行业的年复合增长率最高。按GPU的地理区域划分，市场可细分为北美、欧洲、亚太和其他地区。亚太地区在2019年主导了全球GPU市场，预计在整个预测期内将保持主导地位。

全球GPU已经进入了寡头垄断的格局。在传统GPU市场中，排名前三的Nvidia、AMD、Intel 的营收几乎可以代表整个GPU行业收入。英伟达的收入占56%、AMD占26%、英特尔占18% 。在手机和平板GPU方面，联发科、海思麒麟、三星Exynos的GPU设计主要基于公版ARM Mali GPU或PowerVR微架构。高通骁龙Adreno和苹果A系列采用自研GPU微架构。2019Q2，ARM、高通、苹果、Imagination科技、英特尔是全球智能手机和平板的前五大 GPU供应商。同期ARM Mali在以上五大GPU供应商中占43%的市场份额，高通Adreno占36% 的份额，苹果占12%的份额。

四、国产GPU自主之路：详解国产GPU

国产GPU的发展落后于国产CPU，直到2014年4月，景嘉微才成功研发出国内首款国产高性能、低功耗GPU芯片— JM5400。在国产GPU的开发中，GPU对CPU的依赖性和 GPU的高研发难度，阻碍了该产业的快速发展。首先，GPU对CPU有依赖性。GPU结构没有控制器，必须由 CPU进行控制调用才能工作，否则GPU无法单独工作。所以国产CPU较国产GPU先行一步是符合芯片产业发展逻辑的。再者，GPU技术难度很高。Moor Insights & Strategy首席分析师莫海德曾表示：“相比CPU，开发GPU要更加困难，而GPU设计师、工程师和驱动程序的作者都要更少。”国内人才缺口也是国产GPU发展缓慢的重要原因之一。在芯片行业，一般来说，培养一位拥有丰富经验并且能够根据市场动态及时修改芯片设计方案的成熟工程师，至少需要10年。

中国GPU市场规模和潜力非常大，庞大的整机制造能力意味着巨量的GPU采购。虽然近些年，计算机整机和智能手机产量增长都出现瓶颈，但由于这两类产品体量庞大，2019年国内智能手机出货量为3.72亿部，电子计算机整机年产量达到3.56亿台，GPU的需求量大且单品价值非常高，市场规模依然非常可观。同时，服务器GPU伴随着整机出货的快速成长，需求量增长也较为迅速。据统计，2018年国内服务器出货量达到330.4万台，同比增长26%，其中互联网、电信、金融和服务业等行业的出货量增速也均超过20%。另外，国内在物联网、车联网、人工智能等新兴计算领域，对GPU也存在海量的需求。据统计，近年来中国集成电路自给率不断提升，2018年为13%，预计2020年有望提升至15%，但仍然处于较低水平。根据国务院印发的《新时期促进集成电路产业和软件产业高质量发展的若干政策》等文件，中国芯片自给率要在2025年达到70%，这将产生8000亿元的国产芯片需求。中国芯片产业发展空间非常大。

报告节选：