GPU图形处理器行业深度研究报告:GPU研究框架

文章正文
发布时间:2024-07-29 20:45

一、GPU投资逻辑框架

处理器芯片经历了从专用到通用,再从通用到专用的2次转变。其中,可存储指令的冯•诺依曼体系和1971年X86 CPU的诞生是第一次转折的诱因;摩尔定律的减速和以GPU为代表的异构运算的崛起是第二次转折的诱因。异构时代,芯片需集成多个模块来满足不同的需求。例如汽车芯片集成了GPU、CPU、NPU等至少10种处理单元。

GPU被广泛地运用于PC、游戏主机、汽车、服务器、移动等领域。其中注重算力的服务器和注重便携性的移动端分别 采用独立和集成GPU,而汽车、游戏主机、PC等主要采用独立+集成的GPU接入方式。全球GPU市场表现为寡头垄断下的高增长,年复合增速超过30%,主要市场份额被英伟达等美系企业占领。在此宏观 背景下,国产GPU企业蓬勃发展,在GPU软硬件方面同时出击,呈现“星星之火,可以燎原”之势。

GPU是数字芯片,基于制程越小,性能越好的规律,GPU产业链是先进制程数字芯片产业链。当前国产GPU产业链进口替代:设计环节,景嘉微等龙头在不断追赶,封测环节,通富承接AMD 7nm GPU封测,14nm及以下结点的先进制程,设备、材料、EDA/IP、制造等环节与国外领先龙头差距较大, 目前仍采用“外循环为主+内循环为辅”的模式。

GPU产业链的巨头大多集中在海外,它们位居产业链各个环节核心,对全球GPU行业起着决定性的作用。设计环节:NVIDIA、AMD几乎垄断独立GPU的市场,英特尔、AMD几乎垄断集成GPU市场;设备、材料 、EDA/IP等环节国内龙头与国外龙头差距较大,国产化率较低;制造环节:目前只有台积电和三星有5nm 制程生产能力,但均需使用美国设备;封测环节:目前中国台湾、中国大陆、美国三分天下。

二、详解GPU:专用计算时代的“画师”

GPU(graphics processing unit)图形处理器,又称显示核心、视觉处理器、显示芯片,是一种在个人电脑、 工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。GPU通常包括图形显存控制器、压缩单元、BIOS、图形和计算整列、总线接口、电源管理单元、视频管理单元、 显示界面。GPU的出现使计算机减少了对CPU的依赖,并解放了部分原本CPU的工作。在3D图形处理时,GPU采用的核心技 术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四 像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。

软件生态方面,GPU无法单独工作,必须由CPU进行控制调用才能工作,而CPU在处理大量类型一致的数据 时,则可调用GPU进行并行计算。所以,GPU的生态和CPU的生态是高度相关的。近年来,在摩尔定律演进的放缓和GPU在通用计算领域的高速发展的此消彼长之下,通用图形处理器( GPGPU)逐渐“反客为主”,利用GPU来计算原本由CPU处理的通用计算任务。目前,各个GPU厂商的GPGPU的实现方法不尽相同,如NVIDIA使用的CUDA(compute unified device architecture)技术、原ATI的ATI Stream技术、Open CL联盟、微软的DirectCompute技术。这些技术可以 让GPU在媒体编码加速、视频补帧与画面优化、人工智能与深度学习、科研领域、超级计算机等方面发挥异 构加速的优势。以上4种技术中,只有OpenCL支持跨平台和开放标注的特性,还可以使用专门的可编程电路 来加速计算,业界支持非常广泛。

从芯片设计思路看,CPU是以低延迟为导向的计算 单元,通常由专为串行处理而优化的几个核心组成, 而GPU是以吞吐量为导向的计算单元,由数以千计的更小、更高效的核心组成,专为并行多任务设计。CPU和GPU设计思路的不同导致微架构的不同。CPU的缓存大于GPU,但在线程数,寄存器数和 SIMD(单指令多数据流)方面GPU远强于CPU。微架构的不同最终导致CPU中大部分的晶体管用于 构建控制电路和缓存,只有少部分的晶体管完成实际 的运算工作,功能模块很多,擅长分支预测等复杂操 作。GPU的流处理器和显存控制器占据了绝大部分 晶体管,而控制器相对简单,擅长对大量数据进行简 单操作,拥有远胜于CPU的强大浮点计算能力。

过去20多年里,GPU的基本需求源于视 频加速,2D/3D游戏。随后GPU运用自 身在并行处理和通用计算的优势,逐步开 拓服务器、汽车、矿机、人工智能、边缘 计算等领域的衍生需求。虽然GPU无法离开CPU独立运作,但是在 当前“云化”加速的时代,离开了GPU的 CPU也无法胜任庞大的计算需求。所以 GPU和CPU组成了异构运算体系,从底层 经由系统软件和驱动层支持着上层的各种 应用。GPU已经成为了专用计算时代的刚 需。

GPU的供给涉及设计、制造、封测三个主要环节,整体供给模式有IDM和Fab+Fabless两种。IDM模式将设计、制造和封测集中在一起,代表厂商有英特尔。Fab+Fabless模式的代表有AMD设计,台积电制造,通富 微电封测;ARM阵营的苹果设计,台积电制造,日月光封测。目前GPU的先进设计、先进制造主要被美系、韩系和中国台湾所控制。中国大陆企业华为和中芯国际遭到美国实体清单限制 ,未来发展艰难。封测方面,长电科技和通富微电已经掌握先进封测技术,已经有能力为苹果、AMD提供封测技术支持。

汽车GPU的用例几乎涵盖了从ADAS到自动驾驶,从仪表到中控信息系统等多个车载系统。在实际大规模量产领域 ,基于深度学习的ADAS系统是GPU的主力战场。不同于消费级GPU,汽车GPU需要满足诸如AEC-Q100等车规认证,快速生成冗余备份,在冗余备份中进行二次 处理,确保功能的安全执行。安全关键图形和计算能力是下一代车载系统的要求。为了提高汽车GPU的速度,实现 图形和视频流之间快速切换,汽车GPU需要专用的图形API,如Imagination专用汽车GPU的OpenGLSC2.0 API。通过GPU的硬件虚拟化解决方案,多屏幕、多操作和多个应用程序都能在一个GPU上运行而没有性能损失。随着汽车的含硅量上升、功能的多样化,汽车CPU将和汽车GPU组成SoC,从分布式向中心化发展,统筹计算整车 数据。以新能源车的标杆特斯拉为例,下代HW4.0将同时集成ADAS(先进辅助驾驶)、电动汽车动力传动、车载 信息娱乐系统和车身电子四大功能。汽车GPU作为主要算力的提供方,对整个汽车行业具有决定性作用。目前汽车GPU可以分为2派。其一,是以特斯拉为代表的“自主”派,采用类似于苹果公司的模式,自主设计芯片 ,不对外开放技术,软硬件的整合在公司内部完成。其二,是以英伟达为代表的“开放”派,采用类似于安卓的模 式,对外开放技术,服务其他车企,自己不造整车。具体模式的选择需要综合地权衡灵活性和契合度。

服务器GPU,即在服务器中使用的GPU,它从底层支持着整个服务器产业链。服务器GPU被广泛应用于AI 、数据分析、高性能计算与渲染等领域。不过服务器是网络中的重要设备,要接受少至几十人、多至成千 上万人的访问,因此对服务器GPU具有大数据量的快速吞吐、超强的稳定性、长时间运行等严格要求。 在AI服务器领域,相较于其他运算单元,服务器GPU因较高的可编程性和不错的通用性能,被用作特定应 用处理器(ASP),部署在云端、办公室、数据中心、边缘计算。目前,主要的服务器GPU解决方案有英伟达的DGX、EGX、HGX等平台;AMD的Instinct M100 GPU 解决方案。这些服务器GPU被广泛用于戴尔、惠普、技嘉、超微的服务器产品。

纵观全球智能手机和平板市场,智能手机的出货量在 12亿部以上,是同期平板出货量的8倍以上。随着移动通讯进入5G时代及5G技术的亲民化,5G手 机的换机将带动整个手机市场复苏。预计未来5年手机的出货量将保持1.7%的同比增长,2024年出货量 将超过14亿部。  全球智能手机CPU基本全部采用ARM指令集。截至 2020Q3,联发科和高通是最主要的手机SoC供应商 ,市场份额分别为31%和29%。截至2020Q2,全球平板电脑的SoC大部分采用ARM 指令集,占比超过50%,还有部份使用Windows系统追求高性能的平板采用英特尔的X86处理器,占比 18%。

游戏主机的设计思路完全不同于PC。通常每个世代游戏主机的核心部件如CPU、GPU、DRAM等硬件的性能指标是不变的 ,而且主机存在成本控制、体积、12V供电等物理限制因素,所以游戏主机的硬件性能不会领先于同期高端桌面处理器。游 戏主机的画质、音效、操控等实际体验非常看重开发人员对CPU、GPU等硬件优化和底层API等软件优化。在上述一系列限制因素的共同作用下,同时集成了较高性能CPU和GPU的AMD定制化“APU”成为了索尼和微软的首选, 而任天堂的Switch采用英伟达的Tegra芯片。以索尼PS5为例,它的GPU搭载了以RDNA2微架构为基础的36组运算单元和 Zen2 CPU共用16GB GDDR6 DRAM,主频最高2.23GHz,可以提供10.3TFLOPS的算力,是前代PS4的5.6倍。在索尼独家 Game boost、GNM底层API和GNMX高级API等技术支持下,兼容前代PS4和PS4 Pro的游戏,支持光线追踪、4K 120赫兹HDR游戏、8K显示。

PC GPU主要分为集成GPU和独立GPU。目前,大部分集成GPU已经和CPU被设计为一颗SoC,二者通过 SoC内部的高速总线实现互联,而独立GPU多采用PCIe总线与CPU实时通讯。当前,集成GPU主要由英 特尔和AMD提供,独立GPU主要由AMD和NVIDIA提供。PC的GPU需求不同于追求多路互联和“交火”的服务器GPU,不同于追求高度稳定的汽车GPU,不同于 追求省电和小体积的手机/平板GPU。PC的GPU需要在性能、拓展性、能效方面做到平衡。拥有先进制程 和封装,TDP(热设计功耗)15-25W的集成GPU或独立GPU可以满足轻薄笔记本电脑的图形需求,TDP 25-150W 的独立GPU可以满足游戏本的图形需求,TDP75-320W的独立GPU可以满足台式的图形需求。2020年英特尔在其架构日中首次推出Xe GPU架构。Xe微架构可以满足从集成/入门图形需求到数据中心 和高性能计算的需求。Xe的推出标志着英特尔向高性能独立显卡领域的扩张。

三、知己知彼:GPU的全球格局与行业龙头

2020年全球GPU市场价值预计为254.1亿美元,预计2027年将达到1853.1亿美元,年平均增速为32.82%。按GPU的类型进行划分,市场可以细分为独立、集成和混合。2019年,集成GPU占GPU市场的主导地位,但是由 于混合GPU同时拥有集成和专用GPU的能力,所以混合细分市场预计实现最高复合增长率。按GPU的设备进行划分,市场可细分为计算机、平板电脑、智能手机、游戏机、电视、其他。就收入而言,智能手 机细分市场占比最大,在未来也将保持这一趋势。但是,由于医疗等其他设备中对小型GPU的需求不断增加,预计 未来的年复合增长率将最高。按GPU的行业进行划分,市场可细分为电子、IT与电信、国防与情报、媒体与娱乐、汽车、其他。由于GPU在设计 和工程应用中的广泛使用,预计汽车细分行业的年复合增长率最高。按GPU的地理区域划分,市场可细分为北美、欧洲、亚太和其他地区。亚太地区在2019年主导了全球GPU市场, 预计在整个预测期内将保持主导地位。

全球GPU已经进入了寡头垄断的格局。在传统GPU市场中,排名前三的Nvidia、AMD、Intel 的营收几乎可以代表整个GPU行业收入。英伟达的收入占56%、AMD占26%、英特尔占18% 。在手机和平板GPU方面,联发科、海思麒麟、三星Exynos的GPU设计主要基于公版ARM Mali GPU或PowerVR微架构。高通骁龙Adreno和苹果A系列采用自研GPU微架构。2019Q2,ARM、高通、苹果、Imagination科技、英特尔是全球智能手机和平板的前五大 GPU供应商。同期ARM Mali在以上五大GPU供应商中占43%的市场份额,高通Adreno占36% 的份额,苹果占12%的份额。

四、国产GPU自主之路:详解国产GPU

国产GPU的发展落后于国产CPU,直到2014年4月,景嘉微 才成功研发出国内首款国产高性能、低功耗GPU芯片— JM5400。在国产GPU的开发中,GPU对CPU的依赖性和 GPU的高研发难度,阻碍了该产业的快速发展。首先,GPU对CPU有依赖性。GPU结构没有控制器,必须由 CPU进行控制调用才能工作,否则GPU无法单独工作。所以国产CPU较国产GPU先行一步是符合芯片产业发展逻辑的。再者,GPU技术难度很高。Moor Insights & Strategy首席 分析师莫海德曾表示:“相比CPU,开发GPU要更加困难, 而GPU设计师、工程师和驱动程序的作者都要更少。”国内 人才缺口也是国产GPU发展缓慢的重要原因之一。在芯片行 业,一般来说,培养一位拥有丰富经验并且能够根据市场动 态及时修改芯片设计方案的成熟工程师,至少需要10年。

中国GPU市场规模和潜力非常大,庞大的整机制造能力意味着巨量的GPU采购。虽然近些年,计算机整机和 智能手机产量增长都出现瓶颈,但由于这两类产品体量庞大,2019年国内智能手机出货量为3.72亿部,电子 计算机整机年产量达到3.56亿台,GPU的需求量大且单品价值非常高,市场规模依然非常可观。同时,服务器GPU伴随着整机出货的快速成长,需求量增长也较为迅速。据统计,2018年国内服务器出货量 达到330.4万台,同比增长26%,其中互联网、电信、金融和服务业等行业的出货量增速也均超过20%。另外 ,国内在物联网、车联网、人工智能等新兴计算领域,对GPU也存在海量的需求。据统计,近年来中国集成电路自给率不断提升,2018年为13%,预计2020年有望提升至15%,但仍然处于 较低水平。根据国务院印发的《新时期促进集成电路产业和软件产业高质量发展的若干政策》等文件,中国 芯片自给率要在2025年达到70%,这将产生8000亿元的国产芯片需求。中国芯片产业发展空间非常大。

报告节选:

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片