英伟达悄悄垄断算力:人工智能背后的新帝国
图片来源@视觉中国
文 | 蓝字方案,做者|袁榭
文 | 蓝字方案,做者|袁榭
1990年代中期,黄仁勋30出头,他兴办的还没完全站稳脚跟,他期看如日中天的台积电能代工的显卡,他打德律风过往,没人搭理。
多年后,他还在向张忠谋抱怨那段往事:“昔时给你打德律风打欠亨也没人回,是不是我德律风号码记错了?给你公司在美国的销售部分打德律风也没人接。”
今天,全球科技界恐怕没有几小我敢不接黄仁勋的德律风,那个昔时求人代工显卡的小伙子被称为“教主”,在3月21日的GTC大会上,他穿戴标记性的黑色皮衣呈现台上,说出了石破天惊的一番话:我们正处于AI的“iPhone时刻”。
2022年11月,大语言模子ChatGPT问世,预示着能生成天然文章和图像的“生成式AI”将在社会普及,给世界带来倾覆性的改动。而支持那幅图景的,有的GPU——AI时代最重要的根底设备之一,GPU供给算力,好像AI时代的原油。
2020年,全世界跑AI的云计算与数据中心,80.6%都在用的GPU驱动。2021年,称全球前五百个超算中,七成由它家的芯片驱动,在最新的超算系统中此比例是九成。运行ChatGPT的微软数据中心用了上万块H100 GPU。后续,估量需要超越3万块的GPU来庇护更高版本的GPT模子运转。
好像1970年代的欧派克一限产,全世界的汽车都缺油。如今只要一断供芯片,管你天高股价、地大营收,全球前十大企业里,至少有一半要地震。
黄仁勋和他的算力帝国,已经能扼住时代命脉。那此中,有着通往将来30年的奥秘。
十年前悄悄发作的革命
2023年英伟达GTC的主题演讲中,黄仁勋专门提到了生成式AI的飞跃:
“十年间,我们从主动判读猫图,朝上进步到能主动生成‘穿太空服的猫在月球安步’的图片。”
展开全文
皮衣老黄实有良心。无论是“AI的iPhone时刻”,仍是成为“算力油田”,都是蓄力于前,发端于自家的“猫片”。
2010年的一天,加州帕罗奥图市的琼安咖啡馆里,刚做上首席科学家的比尔·戴利(Bill Dally)和其时在谷歌大脑供职的AI界宗师吴恩达(Andrew Ng)聚餐。
十余年过往后他们会发现,恰是那场会面,无意地翻开了一道通往AI新世界的大门。
两个老友在席间聊起了吴恩达其时课题面对的障碍:操练神经收集AI的算力不敷了。
具言之,谷歌要用数万万条YouTube视频来操练神经收集AI辨认猫与人的差别。而其时AI界的领军人物们仍然习惯串联CPU来施行此类使命。吴恩达估量,要完成课题得用1.6万块CPU。
就算是从不缺钱的谷歌,也不会给公司内任一研发项目组轻松批下买1.6万块CPU的预算。AI宗师昔时也被难住了。
戴利听完老友抱怨,认为本身有现成处理计划:不就是在线觅猫片么,何必整1.6万块CPU,用我们公司的显卡产物,几十块就搞定,你信不信?
其时虽已造霸世界独立显卡业,但名望还只局限在极客、硬核游戏玩家、图形设想师等非普罗用户中。谁也不晓得,那将是公司与人工智能行业双向奔赴、双双出圈的起点。
随后,戴利找上刚从加大伯克利分校招到的非正职研究员布莱恩· 卡坦扎罗(Bryan Catanzaro),请他帮手。卡坦扎罗很快找到领会决计划:并联12块GPU胜利驱动了吴恩达的神经收集模子,并联48块GPU就能获取估量要用1.6万块CPU才有的抱负效果。
论文一出,学界响震:竟然有那种功德?
两年后,AI界泰斗辛顿(Geoffrey Hinton)和学生克里泽夫斯基(Alex Krizhevsky)、萨茨克维尔(Ilya Suskever)效仿此举,用的GeForce GTX 580显卡操练由克里泽夫斯基提出的神经收集模子AlexNet,夺得ImageNet图像分类竞赛冠军,成为AI手艺飞跃的奇点。
从此,在深度进修芯片市场上撒腿狂奔。2013年内,在全球深度进修芯片市场占有率是100%。在上个世纪能源是石油,在那个世纪能源是算力。以后的新时代里,黄仁勋的黑皮衣,好像上个世纪海湾国度权贵们的白罩袍,都是唯我独尊的霸主象征。
十余年过往,泰斗和宗师地位更高,年轻人也成了行业大佬。卡坦扎罗如今是副总裁、深度进修利用研究部负责人,萨茨克维尔如今是OpenAI的首席科学家、结合开创人、GPT系列大模子聚集之父。
|左为黄仁勋,右为萨茨克维尔
ChatGPT面世后,不测风行世界,被称为AI手艺革命的起头。然而即便那个大模子聚集如OpenAI一起头预期的,做为GPT3到GPT4之间的过渡尝试版本简单飘过,AI手艺革命的下一个出圈爆点,钥匙仍是会掌握在高层的伴侣圈里。
因为算力的扩大与通用、手艺的开发与规划,是胜利的因由。
一炮打哑,老黄食瘪
大人物功成名就后,一般会收楞起来。
2018岁首年月,《财产》杂志举办的活动中,有人问黄仁勋:你何时晓得公司将会改动世界的?黄仁勋答:1993年2月17日,我成立公司的日子。不改动世界,我创个什么业?
皮衣哥本身说得响,但1990年代中,的运营低谷时账面上曾只要6个礼拜的资金,离关门一步之远。
人尽皆知,靠开发显卡起身。然而黄仁勋创业的初心,与其说是做显卡,不如说不断都是求索算力进步的路子。
在1990年代,多媒体好像近年的元宇宙、数据可视化好像当下的生成式AI,都是从投资者到消费者都逃捧的热门手艺话题。多媒体与可视化数据在昔时的言论海潮中,被夸到小能够养妻活儿、进步工做娱乐效率,大能够改天换地、重写行业经济邦畿。
那些手艺的根底,是图像数据处置的更佳量量与速度。假设游戏、视频、PPT们始末停留在1992年的粗粝画量,啥都无从说起。
1995年,全球有三十家大公司在显卡市场上合作。
然而逃逐时髦比想象中要难。创业公司得定夺:是专注小我电脑(PC)端的营业呢,仍是专注特定公司的娱乐主机营业呢?是只做图像呢,仍是做多媒体通挠音画呢?
虽然其时没有“赛道”的贸易新话,企业家抉择的难度其实不低于如今。
英伟达的开创概念是加速计算,即用特造设备来为CPU的运算工做减负提速,最简洁的落处所案,天然是堆算力造显卡处置图像。
筹到250万美圆后,于1995年5月推出第一款产物:NV1。以如今的后见之明看,NV1的更大感化是给黄仁勋供给了背面体味:那种产物做得很好,以后万万不克不及做了。
出于为其时的游戏主机巨头世嘉公司办事的考量,NV1最凸起的特色,是兼容世嘉游戏在PC上的运行,与业内既有和将呈现的其他PC端3D图像法式根底架构的兼容性不敷超卓。
其时世嘉公司有意将游戏营业从街机、主机端扩展到PC端,NV1的勤奋迎合了次要协做商的需要,但局限了本身的市场潜力。并且NV1兼具显卡和声卡功用,偏离了加速计算基于图像落地的初志,产物定位有欠清晰。
NV1没有一喊惊人,公司却非一无所得。黄仁勋藉此从风投契构融了650万美圆的第二轮投资。
不外在1997年8月推出新产物Riva 128前,已经裁人过半,银行账户只剩不到6周的活动资金。办公室既窄小,地段又欠安。剩余的员工们不只要在乒乓球桌上食饭,连泊车场也只能蹭旁边富国银行的,而那家网点已经被夺劫过两三回了。
头炮打哑,只要教训实记住,对创业企业家来说其实不完满是绝路。
固然黄仁勋在各类活动上说创业首年的雇律师、订办公室早饭等各类体味十分贵重,但从1997-1999年上半年的三款产物看,他记住的显然不行那些。
的过往,映照着它的将来。
把摩尔定律“卷”到极致
英伟达尔后的转向,一是主业舍弃多媒体,专做PC端的显卡。
1990年代中期,游戏业的热门话题是从主机/街机走向PC,而不被重视的潜流是游戏同时在从PC单机走向PC端多人在线。关于图形衬着的硬件性能需求因而日积月累。只称心那个缺口,已经足以养活整个行业。
二是垂曲整合显卡的配套软件,自行开发显卡驱动法式和拓展软件开发东西包(SDK,software development kit)。
过往的老例是,那些显卡研发公司把设想交付主板芯片消费商之后,由消费商本身分包给别的的承包者写显卡驱动。至于用显卡做图形设想等专门工做的末端用户、PC运行系统的开发商,与显卡研发者没有间接共同。凡此种种,局限了显卡的性能潜力和用户体验。
1996年,专为共同微软其时刚推出的Direct3D图形衬着插件,写了自家显卡驱动法式。1998年起头,公司会按期立即更新自家的通用显卡驱动法式。此举继续至今。
三是全力秉承和实现摩尔定律。那是英伟达如今成为全球算力第一赐与商的根底。
不久前去世的英特尔结合开创人戈登·摩尔(Gordon Moore),在1965年提出了摩尔定律:集成电路上可包容的晶体管数目,约每隔两年便会增加一倍。衍生的推论,是每隔18个月,芯片的性能就会因而进步一倍。
公司的决策层,立志要将摩尔定律永续实现。
从1990年代后半叶起头,的产物设想与研发部分不断有三个部门同时工做:一部门负责今年度新品的设想,一部门负责往年出品的创新挖潜设想,一部门负责明年新品的设想。每款产物之间,根本要有一倍的性能进步,假设显存没有涨一倍,那么核心频次就得快一倍,假设都不可,那么至少造程要明显缩小。
如斯的成果,是每半年至一年就会推出性能换代的新品,1999年之前的产物内部代码全喊NV,即“下一版”(Next Version)的首字母缩写。其他同业公司跟不上如斯冒死的程序,纷繁退出合作。
1995年的三十家显卡设想大公司,到1999岁暮只剩下三家。与之后被AMD收买的ATI,并肩收割游戏玩家、专业设想师等高性能显卡用户的市场份额。英特尔依靠PC主板的垄断消费商地位,包办主板集成显卡的低性能用户市场。
1999年10月,推出GeForce 256,在营销中称“那是世界上第一款GPU”。同年,过往占据显卡市场龙头的3dfx公司破产,被收买。显卡业告别创业者纷繁兴起的时代,进进了“红绿蓝三国战争”的时代(按商标颜色差别的消费者昵称,“红厂”为AMD、“绿厂”为、“蓝厂”为英特尔)。
在20世纪的末尾,没人晓得那场竞逐的成果,会决定之后由谁主宰世界算力的赐与。
干翻英特尔和AMD
颠末20年,红绿蓝三厂合作显卡市场霸主地位的成果揭晓:“绿厂”英伟达胜出了。
那场“三国演义”里,“蓝厂”英特尔不断是副角。凭仗全球PC主板市场的垄断地位,英特尔的重视力不断放在CPU而非GPU。在英特尔眼中,要进步性能,得整个主板的整全性能一路提拔,只提拔图像处置的速度,那是偏门小道。
所以英特尔做显卡只是占位,表达那个市场的钱本身仍是要赚点,没有完全舍弃。那个战略的成果,如今已经被人做成了搞笑哏图。
究其原因,是CPU要负责整个电脑主板的序时性复杂运算,而GPU在成为通用类芯片前只需负责图像处置的并时性简单运算。如下图所示,单个CPU的掌握元件、根底运算单位(ALU)、缓存(Cache)等,都比单个GPU数量少而负严重,因而提拔性能的设想与造造难度都远更高。
黄仁勋屡次说过,以CPU而言,摩尔定律已颠末气,英特尔CPU性能翻倍的最快时限是每五年。然而他家的GPU嘛,仍是每一至两年内性能翻倍的哦。
实正的猛烈合作,发作在和ATI/AMD之间。
那场比赛的早期,其实不显操胜算。在2006年被AMD收买前,ATI出品的显卡,无论更新速度仍是单个性能,都屡有明显优于竞品的佳做。高端显卡的世界第一,在2000年代前半段看不出事实属谁。
但ATI在那场合作中已经后续乏力,的产物更新与性能提拔速度,始末到达了摩尔定律的金原则。而ATI的产物更新目标,从胜过竞品,逐步酿成了赶上竞品。
ATI/AMD因应此形势的计谋,是改做中端显卡:比英特尔的集显性能强,比的高端显卡更廉价。而且在营销中进攻的竞品又贵又耗电:顾客大爷你们万万不要被它越来越吓人的性能参数骗了,不是物超所值的哦。
2006年,ATI被AMD收买,少了一个强敌手,胜算增加。
独一的变数在于芯片代工场。
显卡业的过往公则,是ATI、等品牌企业管设想,然后将设想计划交付给芯片厂,拜托它们造形成品。
当然,不是没有公司想囊括从设想到消费的全链条,但此举一般会给本身带来双倍的费事:以前承接你生意的芯片厂协做伙伴,以后就是要夺你生意的合作敌手。1990年代从显卡龙头到被收买的3dfx,就是如斯把本身玩破产的。
在被收买前,ATI是台积电的大客户。但收买之后,2009年AMD与半导体大厂格芯签约,所有芯片都交由格芯造造。而格芯在芯片造程缩小的手艺改革中逐步落后于台积电,带累了AMD的所有产物,包罗显卡。
与之相对的,是英伟达与台积电1997年敲定的协做关系协做越发密切。
而那两家公司的牵手之路,颇有戏剧性。
1990年代中期,台积电已经是市值近60亿美圆的大公司,没有上市,年营收2700万美圆,两者体量差距不小。正如本文开头所述,黄仁勋给张忠谋本人和台积电美国办公室打德律风,没人接。
最初,黄仁勋做出了科技史上的闻名行为:给张忠谋写纸信。1997年,人在新竹的张忠谋收到来自美国的黄仁勋的信函后,大感兴致,如信中所邀,给公司办公室回了德律风。
在张忠谋的回忆中,黄仁勋接德律风时,办公室布景音嘈杂。在互相通名介绍后,皮衣哥不能不在公司里怒叱:“都闭嘴!悄声些!德律风那头是张忠谋!”比及两人第一次碰头,黄仁勋先讲了半天图像加速运算的产物理念,张老板表达十分认同,反手递来鼓吹单。黄仁勋本认为轮到台积电介绍本身的手艺与产能了,成果翻开一看,是讲公司价值看的。
在那段协做关系的初期如斯伏低做小,越往后收获越大。台积电的芯片造程每年都在缩小,集成电路上的元器件如今已经微缩到物理极限,无法比原子更小。芯片的精巧度日积月累,算力也跟着有数量级的飞跃。
“显卡战争”的成果,是胜势如潮涌,成为显卡业的世界第一。造霸高端显卡市场的,有足够的营收来打中端显卡、低端集显的价格战,产物与手艺研发也有更充沛的预算。
的手艺优势,从一步领先,到一骑绝尘。生成式AI爆火之后,2023年2月英特尔和AMD的CEO也在疾唤:我司有普遍的产物门类合适此行业,明年生成式AI将会愈加支流普罗化、更有意义。
那几乎是在恳求:时代的脚步啊,你等一等,别让姓黄的把那份钱都赚完了。
通用算力,一统江湖
胜出后,的显卡研发没有放缓,算力继续加强。在2000年代后半叶,就起头着眼将来,研究那些算力的将来用处。
2006年,推出CUDA开发平台,软件开发者能够通过那一平台,利用C语言编写GPU片上法式,来完成复杂的计算。GPU从此现实离开图像处置的单一用处,成为了实正的GPGPU(通用GPU)。
强大的算力一旦能通用,成为其他行业的驱动力就是迟早的事。自己更先想通了那点,在AI范畴的规划远比公家想象的早,手艺领军人早就和关系密切。
2010年的吴恩达觅猫片典故之前,2008年卡坦扎罗加进公司,他其时在加州大学伯克利分校做研究生时,就将重视力集中在为AI开发GPU上。2009年,AI界泰斗辛顿在学术会议上,劝上千名研究者赶紧买GPU,那是深度进修的将来之光。2016年,微软手艺大拿黄学东创下了语音识别AI错误率与专业人类速记员持平的纪录后,得奖开香槟的地点,是黄仁勋的大别墅。
2010-2012年的深度进修飞跃起头后,已经是稳赢不输的世界“算力油田”,掌握数据量与运算速度的世界巅峰。之后所有挑战都能征服,所有阻难都是表象。
把本身强大的GPU拓展到其他行业的测验考试并非次次到手。Tegra芯片最末没有胜利进进手机市场,挖矿芯片跟着加密货币潮的褪热前景黯然,与特斯拉在主动驾驶系统的协做无疾而末,2022年黄仁勋“元宇宙将挺过任何经济下行”的预言如今像个打趣话。
然而那些不胜利测验考试是力不虚掷、功不唐捐的。Tegra芯片拆不进手机,那就卖给马斯克拆进特斯拉车里。为元宇宙开发的Omniverse平台,用来合成操练AI的物理数据,多样性与过拟合躲避还胜过了实在世界数据。扎克伯格做不动元宇宙,但黄仁勋的Omniverse却是长做长有。
即便有意合作者的挑战,最初也成了给捧场。
2016年,谷歌公布专门为AI研究开发了机器进修的专属芯片TPU(张量处置单位),并设想了基准测试东西MLPerf。然而在大大都年度的MLPerf测试中,按员工的自述,“黄总说,我们每次运行MLPerf基准测试时,都要向谷歌证明我们的GPU比TPU运算速度快,哪怕只快一点点就好。”
本年谷歌的TPUv4末于在MLPerf基准测试测试中赢了的A100芯片,成为业界大新闻:竟然有芯片强过了产物!
蓄势强劲,横绝宇内。从如今到可预见将来的,好像1970年代至今的迪拜和利雅得:前30年是世界经济的不起眼齿轮,以后就是世界经济的动力舱。不断主宰能源驱动的上游,不管下流行业若何变更,本身都是八风不动。
不管福特和丰田谁赢了家用车合作,顾客最初都要找海湾土豪买油。不管元宇宙仍是生成式AI谁是实正的将来数字财产走向,跑模子的数据中心都要找买芯片。共生双赢,确实是赢两次。