【科技实话】NPU、TOPS、TFLOPS看得头痒痒?别怕,一文秒懂!

文章正文
发布时间:2024-08-11 15:13

笔者身边很多朋友表示,最近在浏览最新的手机或电脑广告时,回被一堆看似高深莫测的缩写词和数字搞得晕头转向。很多人刚刚搞明白什么是CPU和GPU,结果又来了NPU、TFLOPS、TOPS……这些术语像密码一样难以搞懂。

不用担心,今天我们就力争用简单的描述让大家都能理解这些名词。

NPU:AI的专用引擎

今年科技行业最热的词不出意外就是“AI”和“NPU”了,这两个名词还经常组队而来。“AI”顾名思义是“人工智能”,那“NPU”是干什么的呢?

NPU全称为"神经网络处理器"(Neural Processing Unit)。简单来说,NPU是为AI应用设计的专用处理器,设计灵感来自于人脑的神经网络,就像我们的大脑可以同时处理多项任务一样,NPU也擅长并行处理。

虽然CPU、GPU和NPU都可以运行AI任务,甚至目前GPU的AI算力往往比NPU高许多,但实际上它们各有优势和适用的场景。

相比于通用处理器,NPU在处理AI任务时更加高效,耗电更少。这就是为什么即使是手机这样的移动设备也能运行复杂的AI应用而不会很快耗尽电池的原因。

另外,随着未来AI应用越来越普及,当我们手机、电脑运行大量AI计算的任务时,NPU可以更多分担应CPU和GPU的计算压力,让CPU和GPU能够更专注于执行其他任务,从而让设备在有限的硬件条件下,发挥更流畅、更低功耗的应用表现。

TOPS:AI引擎的"马力"

既然我们有了专门的AI处理器(NPU),那么大家平时如何衡量它的性能呢?这就要请出我们的第二位主角——TOPS。

大家经常能看到各PC厂商都在用TOPS宣传自家硬件的AI性能表现,而随着AI技术的发展,芯片厂商们正在不断提高NPU的TOPS。

几年前,10 TOPS就被认为很强大了,而现在移动芯片都已经达到了50 TOPS甚至更高:

2023年,苹果M3系列 18 TOPS

2024年,苹果M4 38 TOPS

2024年,骁龙X系列 45 TOPS

2024年,英特尔LunarLake系列 48 TOPS

2024年,AMD AI 300系列 50 TOPS

TOPS是什么意思呢?数字越高就代表AI性能越强吗?其实不然,请听我继续解释。

如果NPU是AI的专用引擎,那TOPS就是用来衡量它马力的单位。TOPS是"每秒万亿次操作"(Tera Operations Per Second)的缩写。1TOPS等于每秒可以进行1万亿次AI相关的数学运算。

以AMD最新的AI 300系列处理器为例,厂商宣称可以达到50TOPS算力,这就相当于说这颗芯片每秒可以进行50万亿次AI运算。

听起来很厉害,对吧?但要记住,这通常是理论峰值,就像许多汽车广告中宣传的最高马力一样,实际传动到轮胎上的马力通常还要经过变速箱的衰减,马力并不代表一个车的全部性能。NPU的实际AI性能还受到很多因素的影响,如内存带宽、软件优化等。

值得一提的是,在某些情况下,还有厂商会使用 TOPS/W 来作为评价处理器运算能力。TOPS/W 用于度量在1W功耗的情况下,处理器能进行多少万亿次操作,更突出硬件的效能表现。

TOPS vs TFLOPS:

说完了TOPS,我们再来认识一下它的"表兄弟"——TFLOPS。我们以前经常会在CPU、GPU的宣传中看到这一词。它是"每秒万亿次浮点运算"(Tera Floating-point Operations Per Second)的缩写,而这正是衡量传统处理器浮点数运算能力的性能指标。

当我们谈到TFLOPS时,通常会指定是FP32(单精度浮点运算)还是FP16(半精度浮点运算)的TFLOPS。FP32提供更高的精度,但FP16运算速度更快,耗能更低。

TFLOPS通常与游戏图形处理能力有一定相关性。高TFLOPS通常意味着GPU能更快地处理复杂的3D场景和特效。随着GPU被越来越多地用于非图形任务(如科学计算、数据分析),TFLOPS成为衡量GPU在这些领域性能的重要指标。

为什么如今AI领域也会用到TFLOPS指标?因为在实际应用中,现代AI芯片通常支持多种精度,并可以根据任务需求动态切换。例如,一个NPU可能在训练阶段使用单精度浮点FP32,在微调阶段使用半精度浮点FP16,在最终的推理阶段使用整数INT8。这种灵活性使得AI系统可以在性能、能耗和精度之间找到最佳平衡点。

虽然很多AI推理任务可以使用INT8运算(由TOPS衡量),但在训练AI模型或处理一些需要高精度的任务时,仍然需要用到浮点运算。这时,TFLOPS就成为了一个重要的性能指标。

小结:

总体而言,NPU为AI提供了专门的硬件支持,TOPS和TFLOPS则分别衡量了整数运算和浮点运算的能力。不同的数据类型(FP32、FP16、INT8)则让AI应用能够在不同场景下灵活选择最适合的计算精度。

当大家理解了这些概念,不仅能在选购智能设备时更有判断力,也能更好地理解AI技术的发展趋势。下次再看到广告上标注的"50 TOPS NPU"或者"16 TFLOPS GPU"时,大家应该就能和别的小伙伴去解释这些数字背后的含义了。

但请记住,这些数字指标并不能完全代表设备的实际性能和用户体验!毕竟,我们更关心的是这些设备究竟能不能流畅地运行我们喜欢的应用!如果有机会还是亲自体验为妙。