如果把科技圈比作娱乐圈,那么这两年的顶流一定是AI。
2023年,世人见证了ChatGPT在全球范围内的大火,以生成式AI为代表的新一轮人工智能应用问世,改变了人工智能(AI)技术与应用的发展轨迹,并开始在各行各业中得到广泛应用。全球多个调研机构的调研结果都显示,有接近58%的企业都有意在未来几年将生成式AI导入到自身的业务当中,预计到2026年,全球将会有超过3000亿美金投入到生成式AI当中,包括硬件、软件和解决方案等,其中有多达50%以上的边缘应用也会采用AI技术。
AI领域的发展离不开强劲的算力,在过去几年,人们普遍认为,包含大量高强度并行计算任务的AI计算理所应当应该让擅长图形处理的GPU来做,但众所周知,AI计算包括推理和训练两部分,虽然GPU在训练方面的优势很大,但在推理环节,GPU实际上也并非“唯一解”,负责执行各种程序指令,处理各种逻辑和算法的CPU,实际上也能在AI计算中发挥极大的作用。
例如英特尔在去年年底推出的第五代至强可扩展处理器,就是一款具备强劲AI性能的CPU产品。通过更多的核心数(64核心)、更大的内存带宽(5600MT/s)、更大的三级缓存(320MB),以及软件生态方面的优化,与上一代相比,第五代至强可扩展处理器在相同功耗下的平均性能提升了21%,在AI推理和训练性能的提升则达到了42%和29%。
“无论是英特尔内部的实验结果还是来自客户的反馈都验证了第五代至强在AI计算上的能力,像一些通用的应用,如会议纪要提取、大纲总结、内容分析,以及一些内容创作,尤其是大家讨论的比较多的文生图、机器人聊天客服、代码撰写等生产力提升的应用中,基于第五代至强的服务器的结果还是比较有优势的,因此我们也非常有信心能够满足这一类生成式AI模型的工作负载需求。”英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰总结道。
之所以能在AI计算能力有如此惊人的突破,主要还是源于第五代至强可扩展处理器在硬件架构方面的改进和软件生态方面的优化。
其中在硬件架构 方面,第五代至强可扩展处理器在制程、芯片布局、性能能效、三级缓存和内存IO方面都有不少改进。具体来说,在制程方面,第五代至强基于Intel7制程,同时采用Dual-poly-pitchSuperFin晶体管技术,与第四代至强相比,第五代至强在系统漏电流控制和动态电容等关键技术指标上做了改进,通过这些调整,第五代至强在同等功耗下的频率提升了3%。
在芯片布局 方面,随着算力需求的上升,单个芯片的核心数、IO也不可避免地需要增加,这些都在推动芯片面积的增加,因此也带来了两个问题,其一是芯片的良品率无法保证,其二是单片面积过大会超过光刻机的尺寸限制,所以现在主流的芯片设计都是将大的CPU芯片切分成多个子芯片,然后采用多芯片的方式封装到一个芯片上。例如第四代至强就将芯片切分为互相对称的四部分,而第五代至强在芯片设计上采用了2芯片封装的方法,不仅良率得到了提升,而且也可以更好地控制芯片面积。
在关键性能指标 方面,第五代至强的核心升级为Raptor Cove,核心数增加到了64,LLC增加到了5MB,DDR速度提升到了5600MT/s,UPI速度提升到了20GT/s,此外通过第五代至强内置的全集成供电模块以及增强的主动空闲模式,有效降低了CPU在非满载情况下的能耗,从而更好地提高数据中心的供电有效性。根据SPEC integer的结果,第五代至强的整数计算性能提升了21%,而针对AI负载的性能提升则达到了42%。
由于第五代至强单个模块的LLC容量 达到了5MB,因此整体的缓存大小达到了320MB,所以在数据集不大的情况下,大部分的数据都能放在LLC缓存中,从而减少对内存的访问,以带来更高的性能。不过更大的缓存也会带来可靠性的问题,为此第五代至强的LLC中新增了DEC和TED的编码方式,相较于单位纠错和两位纠错的纠错能力更强,因此使得系统的容错性更高。
最后在内存IO 方面,英特尔通过MIM内存优化、基板走线优化、片上低噪声供电优化等方式,将第五代至强的IO速度提升到了5600MT/s。
除了在底层硬件架构上的改进之外,英特尔在软件解决方案方面的能力也有目共睹,为了能让第五代至强的硬件能力更好地转化为用户价值,英特尔也投入了诸多资源,例如加速数据库处理、数据安全保障以及虚拟化技术的优化等等。
针对AI能力方面,英特尔的软件团队多年来一直在基于x86架构进行持续优化,除了对TensorFlow、PyTorch这类主流开源机器学习框架早早实现支持以外,随着第五代至强的发布,英特尔也向社区上传了300多个深度学习模型,支持50多个面向第五代至强优化过的模型,都可以供开发者调用。
而Intel开发的深度学习工具库OpenVINO则能用于优化深度学习在各类芯片上的表现,对于大语言模型,英特尔则开发了很多高性能库,例如可以大幅提升单机性能的oneDNN和能够提供集群式运算能力的oneCLL,有了oneDNN和oneCCL的加持,第五代至强也随之具备了大模型推理的能力,此外英特尔也对虚拟化层、云原生层和OSKernel层给予了很多的资源,让最新的技术能适配最新的软件栈。
从英特尔技术专家的介绍中得知,从横向延迟的角度来看,100ms是客户业务的阈值,大于100ms时业务体验会比较差,根据英特尔的测试数据,如果卡在100ms的标准上,一颗第四代或第五代英特尔至强可扩展处理器可以支持13B参数的模型。两颗可以做到30B参数的模型,如果想要更短的延迟,只要把模型缩小就可以,而对于6B或者是7B参数的模型,一颗第四代英特尔至强可扩展处理器可以做到60ms。
如果企业选择部署具备高带宽内存的至强Max系列CPU,部署数量可以进一步减少,例如想要进行300亿参数的模型推理,同时控制延时在100ms以内的话,需要两台基于第四代或者第五代至强的两路服务器,但如果采用基于至强Max的方案,只需一台两路服务器即可。
在实际落地中,英特尔久与百度使用四台基于第五代英特尔至强可扩展处理器的双路服务器,一共8颗第五代至强芯片,实现了对70B参数模型的支持,服务器之间的互连则采用oneCCL和RDMA网络,并将延迟控制在了100ms以内,充分证明了GPU并非大模型的唯一选择,CPU也有能力做同样的事。
而为了让广大的AI开发者能够更好更快地在至强的服务器上部署自身的AI应用,英特尔也和百度千帆进行了深度合作,在选择了可以支持的大模型之后,如果想进行部署,系统会提示可以选择AI加速卡或者CPU,使开发人员可以尝试把大语言模型部署在至强处理器上,且不用担心操作问题。
最后,在产品更新层面,随着不断变化的AI需求,英特尔也会针对不同的工作负载推出更加具有针对性的至强产品,例如预计将于今年推出的更高能效的Sierra Forest,以及针对计算密集型和AI工作负载进行优化的性能核产品Granite Rapids,从而为万物智能、万物互联的智能世界打好坚实的算力基础。
(8619917)
2019年,AMD、Intel相继引爆了处理器核战,AMD推出了7nm锐龙3000系列,最多16核32线程,还有锐龙Threadripper系列下月发布,Intel前不久推出了Cascade Lake-X系酷睿i9,最多18核36线程。
新的酷睿X系列和之前的两代一样,也是基于14nm工艺和Skylake架构,最高仍为18核心36线程,而升级重点除了继续提升频率,还在内存、PCIe、AI人工智能、网络等方面有了新的面貌,同时维持LGA2066接口,继续搭配X299主板。
旗舰型号酷睿i9-10980XE,18核心36线程,三级缓存24.75MB,基准频率维持在3.0GHz,睿频2.0单核最高加速频率从4.4GHz提至4.6GHz,睿频Max 3.0加速频率从4.5GHz提升至4.8GHz,另外全核加速频率3.8GHz。
值得注意的是,酷睿i9-10980XE的价格从去年1979美元直降到979美元,跌了一半还 多,这使得HEDT发烧级平台有了很大变数,跟AMD锐龙3000的正面冲突也大了,毕竟16核锐龙9 3950X也要749美元了。
酷睿i9-10980XE的性能如何?此前有过测试,不过罗马尼亚网站Lab501今天偷跑了更详细的评测,从应用性能、游戏性能、温度、功耗全测了一个遍,数据非常详细。
遗憾的是,对比的处理器中没有Intel上代的酷睿i9-9980XE,也没有锐龙Threadripper系列,主要是酷睿i9-9900K、锐龙9 3900X。
下面的性能测试非常全面,篇幅所限不一一解释了,基本上看大小就能比较出来。
值得注意的是,酷睿i9-10980XE虽然是18核36线程,但在温度、功耗上竟然比酷睿i9-9900K控制的还要优秀,让人有些意外 ,只能说后者的5GHz高频付出的代价不小。
综合来说,酷睿i9-10980XE得益于18核36线程及4.8GHz的最高频率,多核性能上很有优势,单核性能及游戏性能上比9900K还差一点,但差别没那么大。考虑到这一代旗舰降价了50%,可以说HEDT平台现在的情况是真香了。
但是,现在的问题是时代变了,对手那边还有锐龙9 3950X处理器即将上市,更高端的还有第三代锐龙Threadripper,多核上更强大,单核也不差,而且价格还是会有优势的,这会给酷睿i9-10980XE处理器带来压力,毕竟X299平台的成本可不低。
相关问答
Xeon是英特尔生产的微处理器,它用于"中间范围"的企业服务器和工作站。在英特尔的服务器主板上,最多达八个Xeon处理器能够共用100MHz的总线而进行多路处理。Xeo...
至强处理器和酷睿处理器二者区别如下:第一,至强是服务器的处理器,而酷睿是计算机处理器;第二,至强不支持高频内存,酷睿支持高频内存;第三,至强不...
4条回答:【推荐答案】至强是服务器用的CPU,缓存更大,稳定性更强,有一些服务器专用的指令集,具有很大的数据吞吐量。性能上跟普通的酷睿区别不大,至少跟价格上的...
属于英特尔至强处理器,主频为3.0GHz,性能较强,可以满足日常办公、游戏等需求。Xeon是英特尔在1998年引入的新品牌,Xeon主要面对服务器市场,为了区分...
志强处理器。i9级英特尔xeon2689非常好,是一款十二核二十四线程志强处理器,最高3.3ghz,采用22nmivybridge-EP架构。这款处理器核心线程很多,多核性能比较强...
至强有E3也有E5。E3有2v和3V。现在一般都买3v。就3v来说,性能是比i5四代好。也更加稳定。价格也比i5贵。散装卖1350,盒装1900+。但是论游戏性能,i5四代和E3...
《新倩女幽魂》《倩女幽魂Online》由网易麾下雷火工作室制作,是一款以《聊斋志异》及其他古代经典神话为背景的大型3D固定视角即时制仙侠网游。游戏中动人的...
很不好的一款CPU。它是英特尔i7的第一代服务器CPU,多核多线程,但是主频低。他有再多核心在游戏里也没有优势。首先X5670是一款六核心CPU,主频为2930MHz频率为...
x5675处理器性能相当好。至强X5675与I72600对比,IntelXeonX5675CPU虽然主频稍低,但是它是六核12线程处理器,性能更强,超出I72600性能50%的。至强X56...
第一名:IntelXeonE7-8870价格:21000插槽类型:LGA1567主频:2400MHz核心数量:十核心总线频率:6.4GT/s线程数量:20CPU架构:64位工...