独孤求败,金庸《神雕侠侣》小说中的经典人物,其墓前刻曰,纵横江湖三十馀载,杀尽仇寇,败尽英雄,天下更无敌手,无可奈何,惟隐居深谷,以雕为友。 呜呼!生平求一敌手而不可得,诚寂寥难堪也。

而在大洋彼岸的美国,1993年成立的英伟达也是通过三十年时间,成了AI芯片领域的独孤求败。

美股5月25日,英伟达股价飙升,截止收盘英伟达涨24.37%,市值创下历史新高。截至当天美股收盘,英伟达市值上涨超过1800亿美元,目前市值为9393亿美元,——仅仅是这增长的部分就已经大约相当于1个AMD(1938亿美元市值)、1.5个英特尔(1143亿美元市值)。

至于原因,无它,需求大增尔。英伟达Q2的业绩指引成为该公司有史以来最高的季度营收,超过华尔街预期的53.2%。其中数据中心营收创下历史新高,英伟达将此归因于GPU,由于云计算平台与大型科技公司竞相部署AI芯片,GPU需求水涨船高。

掌门人黄仁勋独创黄氏定律,奠定显卡江湖地位

正如罗马不是一天建成的一般,英伟达的江湖地位自然也不是凭空得来,那么英伟达是如何取得现在的地位呢?

要回答这个问题,黄仁勋是绕不开的核心人物。

黄仁勋,祖籍浙江,1963年出生于台湾。9 岁时,他和哥哥被父母送到了美国;16岁就考上了俄勒冈州立大学学习电子工程。随后他在斯坦福取得了硕士学位。毕业之后,黄仁勋先后在AMD以及LSI Logic工作过,并取得了丰富的技术经验。

1993年,到了而立之年的黄仁勋因对妻子的承诺,成立英伟达。两年后便推出了第一款产品nv1,虽然nv1集成了很多功能,但工程师们经常会犯的一个毛病是:做出一些宏大的设计,引起技术圈的阵阵惊叹,但未必能让市场掏钱——“NV1”正是这样一出骄傲的悲情剧。

之后黄仁勋看准了图形显示芯片赛道,并坚信终有一天PC会成为享受游戏和多媒体的消费级设备(在当时PC主要作为生产力设备而非消费级设备)。

时间到了1999年,这一年对英伟达是极其特殊的一年。在这一年英伟达不仅成功上市,到了八月份英伟达发布了全球首款GPU(Graphics Processing Unit,即“图形处理器”)——那款极具里程碑意义的GeForce256。

GeForce256的出现,直接改变了业内的竞争格局。因为之前用高端CPU+显卡才能完成的工作,如今只需用便宜点的CPU+GeForce256便能完成,而且流畅度还更好。

花更少的钱办同样的事,还更具效率,这么具有革命性的事情,就这样被英伟达做到了。得益于这番优异表现,2000年三月份,英伟达成功拿到了微软首款XBOX游戏机的图形处理器订单。

但谁知道这时候的英伟达飘了,给的报价太高两者闹翻了,微软转身就把订单送给了对头ATI,直接让英伟达的股价狂跌到2.64美元。

通过这件事,黄仁勋意识到必须打造自己的差异化竞争优势。在2000年英伟达推出了黄氏定律,即业界的摩尔定律是每18个月推出新品,性能翻一番;而英伟达会投入三倍人力做同一件事,6个月就推出新品。用速度抢生意。

英伟达通过这一战略逐渐把AMD的市场占有率压缩在了20%以下,一举坐稳了显卡之王的位置。

无心插柳柳成荫,GPU成了AI天生的铲子

如果说英伟达坐稳显卡地位靠的是卷死同行的黄氏定律,那么成为AI芯片的霸主则多多少少有运气的成分和时代的垂青。

其实很多经典的深度神经网络架构早在20世纪下半叶就已经被提出,但因为缺乏训练它们的计算硬件,很多研究只能“纸上谈兵”,发展长期停滞。

GPU诞生之初也想不到自己会同AI的算力需求如此契合。打从一开始,GPU就不是为训练神经网络所生,而是图像。更具体点说,是为了将CPU从图像显示的苦力活中解放出来而生。

转折点出现了在2012年。这一年,全球人工智能和机器学习权威、华人科学家吴恩达领衔谷歌大脑,从1000万张图片中,成功识别出一只猫,震惊业界。

但这个结果背后是耗资100万美元,集结1000台电脑、16000个CPU的投入,这使他不得不思考有没有一种更快、更省钱的方法?

他想到了英伟达(NVIDIA)。四年前,他首开先河,用英伟达的图形处理芯片(GPU)代替英特尔的CPU,构建了一个深度学习模型。这一次,他想再赌一把。结果出乎意料,他只用16台电脑、64个GPU就搞定了同样的事情。

这个足以让吴恩达感到兴奋的结果,也将GPU推上了关注的焦点。之后,深度学习大神Hinton及其弟子带着卷积神经网络AlexNet又击败了谷歌猫。而这个需要1400万张图片、总计262千万亿次浮点运算训练的神经网络,一个星期的训练过程中仅用了四颗英伟达Geforce GTX 580。

这彻底震惊了业界,也奠定了英伟达GPU在AI深度学习领域的霸主地位。

AI深度学习和神经网络选择了GPU

那么为什么GPU比CPU更适合AI深度学习训练呢?

这是因为深度学习的训练过程是对每个输入值根据神经网络每层的函数和参数进行分层运算,最终得到一个输出值,跟图形渲染一样都需要大量的矩阵运算——这恰巧就是GPU最擅长的东西。

CPU 通常有 4 个、8 个或 16 个强力 ALU 核心(arithmetic logic unit,算术逻辑单元),适合做复杂的通用串行任务。GPU 是图形计算的重要元件,主要用来处理与图形图像相关的数据;与CPU 不同的是,GPU 有数百甚至数千个简单 ALU 核心,单个 ALU 处理能力相比 CPU 的更弱,但能够实现多个 ALU 并行计算,适合做简单特定的并行任务。

因此,对于复杂的单个计算任务来说,CPU 的执行效率更高,通用性更强;而对于图形图像这种矩阵式多像素点的简单计算,更适合用 GPU 来处理,但通用性较弱。

打个比方,训练神经网络就相当于调黑盒子上的旋钮,调旋钮是通过数学的算法调的,这些旋钮动辄几十亿个,需要大量的计算。

传统电脑用的是CPU,用CPU去调旋钮相当于调完第一个再调第二个,一个一个按顺序来,虽然CPU速度很快,但神经网络的旋钮实在太多了,连CPU都招架不住了,这时候GPU的优势就出现了。

GPU和CPU不一样的地方是它一次可以同时调成千上万个旋钮,原来CPU几年才能调完的活GPU几天就干完了。

如果将CPU比作保时捷,GPU就是巨无霸卡车。前者虽然在速度上秒杀,后者却能轻松装载几十吨货物。这种巨大的差别,令GPU原本令人诟病的散热问题也显得不值一提。

今年震动全球科技界的ChatGPT,就是依靠了超过万枚的英伟达高端GPU——单枚售价超过1万美元的A100/H100高性能芯片,所构建的史上规模最大的AI算力集群。

英伟达的A100有多强劲,在2003年的科幻电影 《终结者3》里,那个差点毁灭人类的超级计算机“天网”,算力为60 TFLOPS(也就是每秒6万亿次浮点计算),今天英伟达最先进的数据中心GPU H100,在特定精度下,算力已经达到了67 TFLOPS。

机会永远是留给有准备的人的

其实做GPU芯片的也不是英伟达一家,那么为什么当AI馅饼砸来时,英伟达能吃到最大的那一口呢?

原因其实很简单,机会往往是留给有准备的人的。

就像大家很容易遗忘在iPhone发布前,苹果已经在电脑上做了十几年操作系统一样,AI芯片公司们也在忘记英伟达是一家显卡供应商的同时,它还一直在不断打磨另一个杀器——CUDA。

除了GPU芯片设计能力,英伟达最宝贵的财富,是基于CUDA模型,孵化了大量的开发者和软件生态。

这就如Android和iOS一样,遇到挑战者根本不怕,因为即便后来系统做得再好,但是没有生态也是白搭。

英伟达发布CUDA后,先后推出居里、特斯拉、费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培、赫柏等一些列架构,用以支撑Graphics和Computing这两大场景。

做生态系统,逐步解决GPU与AI场景不匹配的问题,包括功耗、内存、带宽瓶颈等等。

这就是为什么,同样做芯片,英伟达的市值是英特尔的好几倍,这背后的逻辑是游戏、加密货币、云计算以及AI大模型,都离不开它的产品。

形势一片大好,英伟达仍有隐忧

现在的英伟达就仿佛是第一个爬到山顶的人,放眼望去,几无对手。但就此说英伟达已经高枕无忧还为时尚早。

首先是竞争对手们正在奋起直追,每一个暴利行业都会引来一群嗜血的鲨鱼,GPU行业自然也不例外。

在2022年的投资者会议上,英特尔首次公布了自研超算卡Ponte Vecchio(还没有大规模商用)的性能参数。按照英特尔官方说法,该产品的性能领先英伟达的王牌产品7nm 安培卡皇A 100至少160%,被不少媒体冠以“芯片怪兽”的称号。

即便相对冷静克制的AMD和不在战场中心的高通,在场外抢人大战中也不乏戏份。

AMD从英伟达挖来高级技术市场经理Sean Pelletier;高通的子公司高通技术则在去年年初高价收购前苹果SoC首席架构师和ARM资深工程师Gerard Williams的初创公司NUVIA,连带NUVIA旗下一众有苹果、英特尔工作经历的资深研发人员全部收归麾下。

整体看几个巨头在不断挖人、扩张的过程中,早已模糊了原始边界,切入对方腹地:英特尔要全力攻克独立显卡市场,英伟达开始发力做CPU,AMD和高通在GPU这条赛道上也已经越走越深入。

如果说行业内的其他巨头发力GPU还在预期之内,那么谷歌和微软加入这场竞赛可能是更大的挑战。毕竟谷歌和微软是最前沿的应用端。粗略统计,微软、谷歌、亚马逊这3家公司已经推出或计划发布8款服务器和AI芯片。

其中,谷歌于四月初首次公布了AI超算的细节——TPU v4性能相较v3提升10倍,比A100快1.7倍,同时功耗少1.9倍。和H100对打的芯片,也已经在研发中,它并非没有胜出的机会。

并且,当一个行业里出现一个绝对霸主时,剩下的玩家往往会联合起来抗衡。毕竟敌人的敌人就是朋友,这句话在半导体芯片产业的威力正在显现。过去几十年的“死对头”英特尔和AMD此前宣布合作,组队对抗更大的对手:英伟达。

其次是作为英伟达灵魂人物的黄仁勋已经60岁,能否找到合适的跑第二棒的人依然还是个问号。

最后也是最大的问题就是如何不断的革自己的命。

孔夫子说三十而立,英伟达通过三十年时间已经俨然成为了显卡和AI芯片领域的庞然大物,但商场是一个逆水行舟不进则退的地方,即便目前英伟达的H100(H100算力水平是A100的九倍)还没有出现可堪一战的对手,但对于英伟达而言,如何让自己永远领先是一个需要一直回答的问题。

这恰如成名已久的江湖绝顶高手,拔剑四顾,发现最大的对手不是别人,正是自己。

参考资料:

【1】 《家族·人物 | 英伟达创始人黄仁勋:十年卧薪尝胆终迎来春天》,华商韬略

【2】 《英伟达 (NVIDIA) 崛起的传奇历程——从显卡霸主到AI王者》,真义科技

【3】 《英伟达的前世今生》,考拉汤员,雪球

【4】 《英伟达帝国的一道裂缝》,何律衡/戴老板 远川研究院

【5】 《暴涨1.3万亿!老黄笑哈哈,谷歌要偷家》,万连山 格隆汇投资学苑