5月10日,由企业网d1net举办的2023全国cio大会盛大召开。本届大会以“企业承压,it怎么干?”为主题,汇集300 企业cio及it高管,旨在搭建cio与同行交流的高质量交流和社交平台,通过观点与思想的激烈碰撞,可落地的实战干货分享,帮助cio用户群化解困惑和焦虑,助力广大cio找准数字化机遇、少走弯路,应对数字化转型过程中的诸多挑战。主论坛外,另设新安全、数据赋能、新技术增效三个分论坛。包括cio中年职业危机应对也是本次大会的议题之一。
以下是现场速记。
浪潮信息产品方案营销部、集团客户部总经理 刘志勇
刘志勇:每年都跟大家见面,就不客套了,直接开始我们的主题。去年讲的是计算中心的基础架构,前几年讲的更多的是应用,包括智能制造,今年国家提出数字中国的建设等等一系列政策,it市场的角度还是挺繁花似锦的,但有一个根本的问题就是算力,因为所有的一切都是计算出来的。我们现在遇到了一个比较大的问题,就是未来算力是什么样子的。
曾经有人说过这样一句话,全世界最多只需要五台计算机,是谁说的呢?1943年ibm的创始人wason说的,就是指eniac,全世界第一台晶体管计算机。当时wason讲这句话的时候这台机器还在研发阶段,三年以后在加州大学,这台机器作为科研成果被发布。又过了七年这台机器才真正面世。但从当时的情况看,ibm认为只需要很少的一点点算力,实际上到了现在,m13主机在处理性能上是当时eniac的240亿倍,所以从算力的角度,即便是这些高瞻远瞩的大企业家、大科学家也没有预料到今天全世界的算力要求居然有这么大。
下面从几个角度和大家分析一下目前面临的算力困境。
算力是从哪里来的?最近几年,英特尔也好、amd也好,每隔十八个月就会把产品更新一代,平均算下来,差不多每十八个月提升大概20%-30%,但会在短短的五六个月以内迅速地被应用吃掉,只要算力提升,很短的时间就会有新的、匹配的硬件和软件。比较典型的就是游戏,不管nvidia怎么提高自己的显卡性能,基本上都会100%吃掉,你购买的最新游戏永远是卡顿的。这些算力是被谁吃掉了呢?个人娱乐和家庭办公,包括游戏、影视,十几年前我们在电脑上看所谓的全高清画质的电影觉得就已经很不错了,但现在4k已经落后了,马上就是8k,8k对计算机算力的压榨是非常充分的,更何况疫情期间大家都习惯上网课和网上办公等等。企业oa和各种内部服务,包括给员工提供的,园区的无人化值守和巡更等等。生产经营就不用说了,最近几年一直在进步,中国和全世界的角度都是如此。ai和科研,去年大家觉得ai也就这样了,没有什么热点了,到了2月突然chatgpt出现,引发一波全球算力的军备竞赛,每十八个月提升20%左右的算力会迅速地被各种应用吃掉。
图中展示的是计算机行业算力角度两个最大的定律:摩尔定律和多纳德定律。算力增长1倍的时间是三年半,1985年到2003年算力增长是一年半,也是英特尔和amd日子最好过的时候,但之后速度明显变慢。因为2003年以后多纳德定律已经基本失效,这种定律的原理是单位面积功耗不变的情况下最大限度堆放各种各样的晶体管,但到了7纳米出现量子碎川效率,突破了人类物理定律的极限,物理定律已经做不下去了,所以导致电子管漏电,但在7纳米还是可以控制良品率的。十年前英特尔供应的情况,一段时间cpu良品率不够,所以导致供应紧张。那个时候可以控制,到了3纳米以后基本上已经控制不了,马上就有出现2纳米、3纳米的芯片。到了2010年左右,算力增长1倍需要六年的时间,所以会变得越来越缓,现在大概需要二十年的时间。摩尔定律也在逐渐失效,现在不断缩小制程的前提下,现在已经做不到每十八到二十四个月晶体管数量增加1倍,性能也随之提高1倍,价格也降低一半。因为芯片核数越来越多,很多核不能从事工作,产生蝶变效应。
过去的二十年到底发生了什么?英特尔讲过不断增加晶体管数量,增加到一定程度以后不断提高主频,一直在做主频游戏。随着3纳米、2纳米时代的到来,这个事情做不到了,amd提出多核概念,就是cpu有多核共同计算,但今天也走不下去了,因为多核会出现电子管漏电的问题,导致很多核并不能够工作。
下一步算力到底要从哪里获得?我们面临着算力的尴尬,但全球数据中心规模和算力需求还在不断增长。数据显示,2020年到2025年数据中心对算力的需求会有30倍的增长,ai模型算力要求是每3.4个月翻1倍,特别是最近大模型在全球流行,国内也有很多公司参与进来,包括个人、企业、政府信息化需求在持续增长,就像今年年初数字中国的国家级战略,所以不用解释,大家都可以看得见。
有了这么多需求,算力怎么办?更何况从整个经济大环境的角度,中国面临和全世界其他国家竞争的问题。图中可以看到中国一直在这方面全力追赶美国,去年中国ai服务器的支出已经超过美国,背后还有日本和德国这些传统的西方发达国家追赶我们。去年浪潮和国家信息中心发布的算力报告中提到一个数据,就是算力指数每提高1点,数字经济提高3.5%,gdp受到1.8%的刺激。因此从整个社会和国家层面,基本上还是会不断追求更高更庞大的算力。
事实上从最基础的教科书的角度,我们的算力是从哪里来的?传统服务器的算力,所有学习计算机硬件的本科生教材都是这样写的,相信以后也会这样。算力最早来自asic芯片和cpu,后来出现了网卡,又过了一段时间出现视频卡,年纪稍微大的应该知道2000年左右有一个东西叫做硬解码,看电影需要买一个卡做硬解码,后来慢慢地发展出了软解码,要把一个卡插在主板上面。后来为什么被淘汰了?因为软件发展充分利用cpu计算资源,所以硬解码卡被淘汰。今天这个卡又加回来了,因为有大量的视频数据,8k和4k需要处理。之后gpu出现,最早服务器里面哪有显卡这个说法?会有一个显存,二十年前是8mb,那个时候认为没有必要增加,后来多了gpu,然后出现加速卡和fpga,最近几年已经是很成熟的产业了,然后逐渐出现dpu,未来还会在主板上多一个计算单元专门做数据,就是在计算的时候cpu会有一部分计算请求分配到dpu,然后再返回cpu上来。
我们可以想像在服务器内部,计算位置已经从原来最早的只有cpu发展到有这么多地方在做计算。我们把眼光放到整个数据中心,可以看到计算会放在核心交换机,需要进行各种发包计算,平衡整个网络资源,很多算力也是放在存储端。我们在服务器之外,可以发现算力又增加到其它地方,所以在机柜或者数据中心会有更多的算法。
理论上讲,算力在数据中心就结束了,但其实还没有结束,出了数据中心,边缘端还有计算。边缘计算在国内的翻译其实有点问题,我一直认为这个翻译是错的,不应该叫做边缘,应该叫做边端计算,因为到了边缘是分为边计算和端计算,二者是不一样的。边可以理解为边缘云和边缘数据中心,端是和传感器各种摄像头、数据采集直接连接的部分。现在算力甚至已经离开数据中心了,只能叫做算力中心。站在算力中心的角度来看,服务器有不同位置的计算,数据中心内部有不同位置的计算,离开数据中心以后还有很多计算,所以这就是今天我们看到的算力来源。算力从哪里来?就是从所有这些地方来,每个地方都有计算。
以前我们说到计算想到的可能就是英特尔或者amd,如果再看二十年前和十五年前,想到的可能是power或者当时的奔腾,包括更早一点的alpha,但今天我们把市场上所有的算力都写全,可以看到两大阵营:精简指令集,就是传统的risc部分,包括ibm和现在的浪潮,因为ibm已经退出“一带一路”国家的业务研发,奔腾和alpha还有人在用,以前中国我最早的铁道部全是用alpha,现在这项技术用的人更少了,但还是有人在用,然后是arm。精简指令集合为什么回潮?以前我们想到精简指令集可能会觉得不如x86复杂指令集的运算效率高,今天制程受限的情况下,risc体系在回潮。目前最大的精简指令集的使用者是arm,国内央企国企提到arm就会想到信创,应该是先有arm后有信创。二十年前arm技术就已经有了,那个时候由于精简指令集计算的问题,今天我们用的手机芯片几乎全部都是arm。英特尔自己出过一款符合手机的,但做出来还是不如arm,因为功耗达不到手机要求。arm全球最大的两个客户都是美国的公司,终端是苹果,我们现在看到的薄薄的笔记本待机动不动就是将近10个小时,用的都是arm的技术,英特尔的技术能够扛四五个小时就很不错了。服务器领域最大的用户是亚马逊,不是中国的公司,尽管最近两年中国讲信创很多,最大的客户依然是亚马逊,亚马逊的服务器数量已有20%迁移到arm平台,2023年这一数据会达到25%。
站在这个角度重新来看,所谓传统的复杂指令集x86还会继续存在,未来很长一段时间还是统治地位,risc精简指令集一定会慢慢赶上来,因为cpu制程瓶颈、量子计算物理学极限决定了arm体系可能会越来越多。这些就是我们看到的,每个公司都有自己的芯片技术。我们已经有22纳米的芯片量产,中芯国际代工,今年7月会有7纳米芯片,今年12月之前报工信部。我们其实一直在做,用的就是power技术。
刚才几位领导都有提到量子计算,目前为止我们专利排名已经不公布,两年前是有一个排名,国科大的两家公司,然后是微软、浪潮和华为,当时量子芯片是有这种专利技术排名,今后我们不会再公布这个东西,ai的gpu算力基本上也是这些公司在做。今天我们面临的算力就是多元化的算力,也会面临各种各样的技术路线。因为有这么多计算位置,所有计算位置采用的技术路线都不完全一样,未来一定是面临着一个数据中心里面有各种各样的计算路线。
有了算力的支撑和保障,也弄清楚算力在数据中心之内和之外,就是所谓算力中心的位置,什么地方会出现计算,到底去了哪里?去了很多地方。关键算力、通用算力、ai算力、边缘算力和特殊算力。现在数据中心的设计面临着一个问题,就是以后如何看待数据中心,设计数据中心的思路变了。以前是有瓶颈就增加服务器,现在是计算中心建设起步阶段就已经规划好计算中心需要什么算力。全国最大的公司之一前年出现非常大的问题,就是大概投入4亿元建设自己数据中心的时候,结果算力部署和分配上出现了问题,导致每个机架的功耗只有6kw,上线两年以后租不出去了,承租率只有30%,因为忘记规划ai算力,所以整个机柜功耗不够。
特殊算力指的往往是科研计算和高性能,这一部分就不多解释了,因为中国已经退出了全世界所有的超算排名,浪潮做的超算也不再参加,原因很简单,看一看制裁名单,所有超算全部被制裁了,以后我们也不会公布任何跟超算有关的数据。
关键算力就是指原来risc芯片,不只是中国在用,欧洲银行也在持续使用power算力或者risc算力,要求就是高可靠、高性能、强数据、一致性,带着毛病能跑,不会宕机,提供的是不间断的算力。
通用算力是最常规的,最成熟、最全面的应用生态体系,几乎是全场景覆盖,未来很长一段时间仍然是主力,就是传统的x86算力和一部分arm算力。
ai算力的特点是计算当量相当大,模型训练很困难,成本很高,要求的是极致和高效,要有自动的智能化算力调度,因为算力太贵了,以服务的形式随需随用。
边缘算力刚才几位领导都有讲过,最大的特征就是实时,整个数据中心决策的时候,目前来看只有20%来自主数据中心,20%来自最接近端的部分,包括摄像头和各种各样的采集终端,60%来自于边,因为叫边缘计算不是很规范,应该叫做端边运算才对。
未来设计数据中心的时候应该考虑数据中心承担什么算力的特点,这里必须提云,我们就不解释了,因为所有算力都要在一朵云上管理,就是所谓的一云多芯技术,不管是用多云、私有云还是公有云都是一样的。云计算的管理就是关键算力、通用算力、ai算力、特殊算力和边缘算力的管理。
云在算力中心的价值是什么?大规模多中心扩展,可以横向联系,一云多芯,一朵云下多技术芯片被统一管理起来,然后就是安全,需要做到关键服务的秒级恢复,金融级的业务高可用等等,这些都是对云的要求,也是体现出来的价值。
一个云平台下,一云多芯和一机多芯人生就是博尊龙凯时的技术支持特殊算力、关键算力、通用算力、ai算力和边缘算力。
刚才讲了半天cpu,其实光有cpu计算还是不够的,因为这是协调系统和平衡系统,需要解决两个问题:内存问题和io问题。我们把有io的列在图中,现在有一个折中方案,就是英特尔aep,介于内存和缓存,价格、能力都是二者之间,可以很大程度上缓解内存墙的问题。因为光算出来还不够,还得传得出去,某种程度上要解决内存的问题、io的问题。
我们在主板设计上要有新的设计思路和设计方案,因为主板需要支持多技术路线的cpu,同时要把计算数据交互出来,这些是浪潮这样的公司让我们面临的巨大挑战。我们会逐渐推出一机多芯,一个服务器下面会支持各种各样的成熟技术路线。目前我们需要解决ibm的power和x86体系机箱共用、部件共用,一机多芯可能会带来算力比较大的进步和革新。未来基于组织的多元化系统构架也会有很大改变,所有多元算力放在一个大的资源池里面,分成几个子池,分别对应不同算力的特征或者技术路线,通过软件定义的方式把所有计算服务放在云上面统一管理和调度,上面是操作系统和业务应用,这些是新的数据中心建设的逻辑思路。
在这种情况下,我们会得到一个全解耦的数据中心。计算单元和主机解耦,不再考虑到底是英特尔服务器还是沸腾服务器,同一个主机选择不同技术路线就可以。操作系统和主机解耦,一云多芯在大规模虚机部署下彻底摆脱操作系统和主机之间必然的联系。业务应用和操作系统解耦,应用就是应用,操作系统就是操作系统。算法和应用解耦。按照这个逻辑,我们基本上做到整个系统完全解耦,这些就是未来数据中心最大的变化,就是全解耦,100%灵活和有弹性。
多元算力支撑整个数字中国建设,我们需要做到算力的整体平衡,平衡体现在多技术路线的平衡、存量的算力和新增的算力,特别是信创算力的平衡,计算需求和算力特征的平衡,全解耦就是计算单元、主机、应用和算法的解耦,一云多芯统一调度、统一部署、统一管理。
数字经济下,我们面临着新局面,希望所有人都能够找到新机会。