元脑服务器推出轻量推理方案：NF5280G7全面支持DeepSeek和QwQ，加速AI落地

热门搜索: 长沙惠普服务器长沙华三服务器长沙曙光服务器长沙浪潮服务器长沙HPE服务器

最新资讯

您所在的位置：首页 > 新闻中心 > 最新资讯

元脑服务器推出轻量推理方案：NF5280G7全面支持DeepSeek和QwQ，加速AI落地

来源：www.csgonghe.com 发布时间：2025/7/3 18:18:46

浪潮信息面向百人规模中小企业推出轻量推理方案，基于元脑服务器NF5280G7，可运行DeepSeek和千问QwQ等新一代大推理模型。NF5280G7，采用2颗高性能通用CPU，内置AI加速器，支持多通道内存系统，搭配1块中低端主流消费级显卡/GPU卡，充分平衡、调用CPU算力和智能算力，单机即可运行DeepSeek-R1 32B和QwQ-32B推理模型，16并发用户时，单用户性能超38 tokens/s，用是企业部署上线大模型平台的高性价比算力选择，将加速DeepSeek带动下AI落地普及速度。

在企业部署大模型的过程中，参数规模与其应用场景息息相关。浪潮信息与IDC联合发布的《2025年中国人工智能计算力发展评估报告》显示，目前92%企业使用的生成式人工智能模型平均参数量小于50B。一般而言，671B等超大规模参数的模型性能更强，但对硬件资源要求高，部署成本昂贵；而32B级模型在理解能力和知识储备上有显著优势，能够平衡性能和部署成本。以业界32B模型为例，DeepSeek-R1 32B在知识问答、智能写作、内容生成等方面表现优，QwQ-32B则在数学推理、编程任务和长文本处理等方面的性能优。DeepSeek-R1 32B和QwQ-32B的训练数据中包含海量的高质量中文语料库，会更加适合于国内企业应用。因此，大多数企业应用场景中，如企业知识库问答、文档写作、会议纪要整理等场景，32B参数级别的模型选择，既能提供强大的能力支持，又能保持合理的硬件投入。

将AI推理过程拆开来看，LLM推理过程主要包含两个阶段：预填充和解码；其中预填充阶段是对输入进行处理的阶段，性能主要取决于CPU算力，解码阶段需要逐token计算，每次生成一个token都要内存带宽加载一次模型执行推理，性能主要取决于内存带宽。

在算力方面，元脑服务器NF5280G7设计上采用2颗高性能处理器，内置AI加速器功能，仅需搭配1张中低端主流消费级显卡/GPU卡，即可实现单机超强的AI推理能力。NF5280G7轻量推理方案充分利用并平衡CPU算力和智能算力，进行软硬协同优化，支持DeepSeek-R1 32B和QwQ-32B等大模型的推理，为中小企业用户提供了高性价比的部署平台。

测试数据显示，基于单台NF5280G7搭配1块市场主流消费级显卡的方案，在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下，支持16个用户并发数的情况下解码性能超过38.1tokens/s；在使用QwQ-32B Q4进行模型推理时，支持16个并发用户数的情况下解码性能达到38.3tokens/s；可以提供流畅稳定的用户体验。

当前，元脑服务器研发团队正与业内团队密切合作，在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力，旨在为用户带来高速、稳定的DeepSeek等大模型部署方案，助力大模型快速落地应用。

上一条：【Discover2025·新“技”遇】HPE发布搭载AMD芯片的新款服务器，ProLiant G… 下一条： HPE刷新MLPerf AI推理世界纪录，持续跑赢性能排名

新闻导航

推荐产品

浪潮NF5688 G8服务器

浪潮NF5468G7服务器

最新资讯

新闻导航

推荐产品

浪潮NF5688 G8服务器

浪潮NF5468G7服务器

最新资讯

相关文章

相关产品