首页 行业动态 再现地表最强!英伟达做对了什么?

再现地表最强!英伟达做对了什么?

2024.03.22

    3月18-21日,英伟达在美国圣何塞召开GTC大会,作为一年一度的技术发布会,GTC大会被誉为AI行业风向标。


    北京时间3月19日凌晨,黄仁勋亲自发布了B200 GPU芯片,首度采用芯片封装设计,即在一个大芯片上集成了两个相同制程工艺的小芯片。


    在制程工艺无法提升的前提下,如何实现性能的进一步突破?英伟达本次的解题思路参照了2022年苹果在M1 Ultra芯片上的做法:将两个M1 Max芯片组合在一起构成M1 Ultra,在同样制程工艺的基础上实现了性能提升。





    B200发布后,顿时被视为地表最强AI芯片,一众大咖纷纷站台支持。连一向最毒舌的马斯克也不吝溢美之词,赞誉在当下的AI领域,英伟达的硬件无可比拟。


    在生成式AI这股火爆趋势中充当“AI军火商”的英伟达,凭借此前发布的A100、H100等GPU,股价一路飙红,几乎每天都在创造新纪录,总市值相继迈过1万亿美元、2万亿美元,目前已成为仅次于微软和苹果的美股第三大上市公司。

继两年前推出Hopper架构后,英伟达带着全新一代的Blackwell再次震撼AI界,黄仁勋希望以此开启AI的变革时刻。





    基于Blackwell架构开发的B200芯片,在制程工艺上延续了H100的5nm,不过为了尽最大可能提升算力,英伟达首度采用了封装工艺,B200由两个基于台积电4NP工艺的Blackwell GPU组合而成,总晶体管数量达到2080亿个,是H100的2倍多,能够提供高达20 Peta  FLOPS的算力,是H100的5倍。


    性能提升的同时,B200在成本和能耗上,相比H100,最高可以降低25倍。叠加B200搭配的8颗HBM3e内存,最大可支持10万亿参数模型的训练(GPT-3模型参数为1750亿,GPT-4模型参数约为1.8万亿)。





    以GPT-4为例,之前需要用8000个Hopper GPU干的活儿,现在用2000个Blackwell GPU就能做到,且功耗能减少到原来的约四分之一,即从15兆瓦降至4兆瓦。


    如果想要更强性能,只需把两个B200 GPU与一个Grace CPU相结合,就能搭建为GB200超级芯片,可以为大语言模型的推理环节提升30倍工作效率。在GPT-3 LLM基准测试中,GB200的性能是H100的7倍,训练速度则是H100的4倍。





    万亿参数模型有许多好处,比如进行自然语言处理任务,如翻译、问答、抽象和流畅性;掌握更长期的背景和对话能力;结合语言、视觉和语音的多模态应用;进行创意应用程序,例如讲故事、诗歌生成和代码生成;进行科学应用,例如蛋白质折叠预测和药物发现;实现个性化,能够形成一致的个性并记住用户上下文。


    英伟达最近几代架构,在名称上都有致敬科学家的惯例。上一代产品Hopper架构是致敬计算机软件工程学家格蕾丝•霍珀(Grace Murray Hopper),这一代Blackwell架构则是致敬第一位入选美国国家科学院的黑人学者、统计学家兼数学家大卫•布莱克韦尔(David Harold Blackwell)。






    值得一提的是,Blackwell并非某一款芯片的专属名,而是指代英伟达的新一代芯片平台。基于该平台,英伟达提供多种服务器节点规格,性能从小到大依次为HGC B100,HGX B200,以及GB200 NVL72。最强大的GB200 NVL72系统,配备36颗Grace GPU和72块Blackwell GPU,具有1440 Peta FLOPS的FP4 AI推理性能,和720 Peta FLOPS的FP8 AI训练性能。一个机柜可以训练27万亿参数模型,单独一个便可以撑起约15个GPT-4参数规模的大模型。





    在商业化层面,英伟达已经有了初步计划。黄仁勋表示,计划用Blackwell向世界各地的人工智能公司进军,与所有OEM、区域云、国家主权AI、电信公司签约。


    英伟达尚未明确给出B200芯片的具体上市时间和价格,只表示将于今年晚些时候发货,届时亚马逊、谷歌、微软和甲骨文将成为首批提供Blackwell芯片驱动的云服务提供商。





    英伟达能强大到今天这样,绝不仅只是因为幸运。黄仁勋曾骄傲地回顾:“我们做的几乎每件事,都是创造技术,创造市场。”


    回溯到1993年,微处理器和PC革命初现端倪,黄仁勋和另外两个理工青年克里斯·马拉科夫斯基(Chris Malachowsky)、柯蒂斯·普里姆(Curtis Priem)一起创立英伟达,起步的技术和应用领域分别是3D图形处理和电子游戏。





    早期,CPU无法满足3D游戏实时渲染所需的算力,要用专门的芯片来处理图形,而当时的图形处理芯片动辄天价,一般人根本无法染指。黄仁勋他们意识到,要把百万美元的技术适配入三四百美元的电脑,除了需要发明新的图形计算方式,还得去开拓市场。这个理念就是今日这家伟大公司的立足点,生态链本质。“你有一项难以商品化的技术,瞄准了一个尚未存在的市场,这个交集就是我们公司的创立点。”


    找准方向后,英伟达凭借出色的研发实力,推出性价比超高的rival 128和rivaTNT2奠定行业地位,又及时抱紧微软大腿支持其Direct 3D显示标准,并在1999年推出划时代的独立显卡GeForce 256,拿下微软Xbox和索尼PS3几亿美元订单,GPU时代从此开启。游戏产业的发展,与英伟达显卡技术的进步相辅相成。





    CPU能进行复杂的逻辑推理,而GPU擅长执行无关顺序的大量相似计算任务。瞄准这个特性,黄仁勋思考如何挖掘出GPU更大的潜力,让GPU能够编程,进行更多通用目的的计算。


    2004年,机会出现了。斯坦福博士生伊恩•巴克(Ian Buck)开发了一个叫Brook的项目,通过C语言将GPU计算扩展到一些图形以外的领域。黄仁勋火速把他挖到手,领导新项目CUDA(Compute Unified Device Architecture,统一计算架构)。CUDA平台为开发者提供了一套简单易懂的编程模型,提升了处理大规模计算的并行计算能力,同时降低了功耗,大大节约成本。


    英伟达让自家的所有显卡都支持CUDA,通过软硬件协同,将GPU的应用边界从游戏和3D图像渲染扩展到了整个加速计算领域,逐渐搭起了自身的技术护城河。





    至今仍在英伟达任职的伊恩已是业界资深专家,担任超大规模与高性能计算部门副总裁和总经理。



    CUDA推出初期,没有带来明显效益,华尔街首当其冲地频泼冷水。但黄仁勋越来越多地发现航天、能源、生物领域开始使用自己的显卡。他坚定地看好高性能计算的市场前景,在公司营收不到30亿美元的时候,每年狂砸至少5亿美元投入研发,并继续完善生态支持。

“在市场出现前,要看到未来成功的早期指标,而且越早越好,原因是你想尽早看到自己正走在正确的道路上。”



    2012年,在ImageNet大赛上,AlexNet团队凭借深度学习+英伟达CUDA/显卡突破了神经网络训练的算力瓶颈,以压倒性优势夺冠,轰动学界。黄仁勋更加确信了GPU无限的未来潜能。

    2016年,黄仁勋亲手把英伟达历时5年打造的全球第一台“DGX-1”AI超级计算机捐赠给彼时尚是个研究实验室的OpenAI,这一幕至今令马斯克回想起仍热泪盈眶,嗟叹连连。








    风靡全球的比特币挖矿潮中,英伟达大赚了一笔,也让更多人对GPU的能力有了认识,进而刮目相看。



    英伟达不断推动技术进步,把GPU效能提升,成本降低,让全世界越来越多的研究人员开始认真思考大规模计算。


    英伟达一路辅佐着深度学习和机器学习,迎来了2020年后的生成式AI大爆发。此时它已经一骑绝尘,把包括AMD在内的所有竞争对手远远甩在身后。以至于当任何公司想要训练大语言模型时,翻遍市场上所有加速芯片,竟找不到第二个比英伟达GPU更好的选择。

很快,专为AI而生的A100和H100供不应求,成了OpenAI、谷歌、微软、Meta等巨头争相拼抢的“算力黄金”,甚至它本身就是硬通货,拥有多少块英伟达显卡,就有多大的底气和话语权。





    从04年布局CUDA向通用加速计算转型,到12年全力押注深度学习,期间遭遇多次身价跳水,在外界并不看好的路上,面对“不存在的市场”潜心研发,给自己和生态伙伴铺路,英伟达实际上是用了20年的时间沉淀积累,打磨羽翼,预判好了风口站在那里等着。当风来时,它便自然张开翅膀,扶摇起飞。


    每18个月性能翻一倍的摩尔定律已经被“黄氏定律”(Huang’s law)取代,即AI背景下GPU的性能将实现逐年翻倍,由黄仁勋在2018年的GTC大会上提出。他还给自己定出了更高的目标:“产品必须每6个月升级一次,功能翻一番。”虽然自己比地球上任何人都有更多竞争对手,“但在计算世界中,我们是一个伟大的标准。我们在每一个云中,在每一个计算机公司中。这就是我们的优势。”






    除了起跑比别人早,跑得比别人远,还得跑得更快,而且一刻不能停,这种综合能力才是真正的护城河。


    英伟达在加速计算和软件开发上的革新,使得深度学习成本在过去的十年间降低了100万倍。未来十年里,想象它把计算能力再提升100万倍,将会发生什么?


“模型将持续学习。学习和训练过程,训练和推理、部署、应用过程都将融为一体。强化学习会基于这些实时互动和实时创造的合成数据,循环和持续。当计算的边际成本降低到接近零时,就会有很多新的方法去做你想做的事情,就像大语言模型。否则你永远不会考虑——这就是我们要做的:更多的计算。”





    谈到AGI时,黄仁勋说,“如果对AGI的定义是它通过人类的数学、推理、医学、律师等测试,那么我会告诉你5年内就会做得很好。如果是拥有人类般的智能,那我不确定。但我们都在努力让它变得更好。”


    过去半年多来,他观察到世界各地都出现了主权AI觉醒,英伟达作为“地缘政治风险的典型例子”,会理解并保持敏捷,以便更好地遵守。




    所以这就是现在的英伟达。当我们看到它拔地而起,高耸入云,也别忘记它已经向下扎根了30年。当然没有这波AI浪潮,成就不了这家全球第三大市值公司;但若没有英伟达的技术助推,人工智能也不会是今天的样子。





在线留言 在线留言
如果您对我们的产品感兴趣并想了解更多详情,请在此留言,我们会尽快回复您。