浪潮信息联合英特尔发布AI通用服务器，可运行千亿参数大模型

北京2024年4月19日 /美通社/ -- 4月17日，浪潮信息与Intel联合发布AI通用服务器，可支持千亿参数大模型运行，灵活满足基于大模型的AI应用及云计算、数据库等通用场景，为企业大模型应用落地提供更高效的AI通用算力。

在北京举行的浪潮信息生态伙伴大会(IPF2024)上，浪潮信息服务器产品线总经理赵帅表示，浪潮信息与Intel联合发布AI通用服务器NF8260G7，在业界首次实现服务器基于通用处理器支持千亿参数大模型的运行。这为AI大模型在通用服务器的推理部署提供了很好的示范，这也使得大模型AI应用可以与云、大数据、数据库等通用场景实现更为紧密高效的结合，从而充分释放AI在各行业场景落地的广泛活力和强大能力。

当前，生成式人工智能技术迅猛发展，AI大模型在各行各业加速落地，推动智能化的发展和创新。未来所有的计算设备都需具备AI的能力，一切计算皆AI，面对多元化的AI大模型训练、推理、云、数据库等业务负载，需要更加智能的通用算力。而且在大量模型落地应用过程中，千亿级参数是智能涌现的基础，企业需要更高计算性能、更高内存带宽、更高扩展性的通用算力，以加速千行百业探索智能涌现。

AI通用服务器NF8260G7在2U空间支持4颗英特尔至强处理器，具有AMX（高级矩阵扩展）的AI加速功能，内存带宽1200GB/S，全链路UPI总线互连，传输速率高达16GT/s，能够更好满足千亿大模型低延时要求。英特尔至强处理器最新AMX功能可以让CPU运行用于AI的矩阵乘法计算，从而优化深度学习 (DL) 训练和推理工作负载，为int8、BF16等不同精度的大模型运行提供更加智能的通用算力。例如在LLM推理过程中，可以大幅提升模型响应速度，吞吐速度最高提升2.7倍。

作为一款2U4路服务器，NF8260G7采用高密度设计，支持16TB大内存容量，并支持12个PCIe5.0扩展，2张高性能AI加速卡，支持Multi-host网络，避免业务跨CPU访问，网络性能提升20%以上，为生成式AI提供更大参数量模型的推理和微调能力。框架和算法方面，NF8260G7支持PyTorch、TensorFlow等主流AI框架和DeepSpeed等流行开发工具，满足用户更成熟、易部署、更便捷的开放生态需求。同时，浪潮信息与英特尔的算法工程师团队紧密协作，实现在精度几乎无损情况下，将1026亿参数的源2.0大模型进行NF4归一化数据量化，模型容量缩小至1/4，同时通过 DeepSpeed 张量并行，并将卷积算子进行张量切分，提升4倍计算效率，业界首次实现单机通用服务器，即可运行千亿参数大模型。

浪潮信息服务器产品线总经理赵帅表示："千亿参数，是大模型是否具备智能涌现能力的门槛。浪潮信息与英特尔经过大量的系统优化，联合设计AI通用服务器NF8260G7，在业界首次实现基于通用处理器支撑千亿参数大模型运行，具备非常重要的标杆示范意义。"

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰表示："我很兴奋看到NF8260G7可以把处理器的性能发挥到极致。在蓬勃发展的智能时代，企业大模型落地将加速千行百业的创新。英特尔提供了涵盖 XPU、软件在内的广泛技术栈，通过与浪潮信息的合作，我们能够为开发者和企业用户提供灵活、无缝、高效的平台，助力用户部署和加速其 AI 应用，推动用户业务的智能化变革。"