浪潮信息面向百人规模中小企业推出轻量推理方案,基于元脑服务器NF5280G7,可运行DeepSeek和千问QwQ等新一代大推理模型。NF5280G7,采用2颗高性能通用CPU,内置AI加速器,支持多通道内存系统,搭配1块中低端主流消费级显卡/GPU卡,充分平衡、调用CPU算力和智能算力,单机即可运行DeepSeek-R1 32B和QwQ-32B推理模型,16并发用户时,单用户性能超38 tokens/s,用是企业部署上线大模型平台的高性价比算力选择,将加速DeepSeek带动下AI落地普及速度。
在企业部署大模型的过程中,参数规模与其应用场景息息相关。浪潮信息与IDC联合发布的《2025年中国人工智能计算力发展评估报告》显示,目前92%企业使用的生成式人工智能模型平均参数量小于50B。一般而言,671B等超大规模参数的模型性能更强,但对硬件资源要求高,部署成本昂贵;而32B级模型在理解能力和知识储备上有显著优势,能够平衡性能和部署成本。以业界32B模型为例,DeepSeek-R1 32B在知识问答、智能写作、内容生成等方面表现优,QwQ-32B则在数学推理、编程任务和长文本处理等方面的性能优。DeepSeek-R1 32B和QwQ-32B的训练数据中包含海量的高质量中文语料库,会更加适合于国内企业应用。因此,大多数企业应用场景中,如企业知识库问答、文档写作、会议纪要整理等场景,32B参数级别的模型选择,既能提供强大的能力支持,又能保持合理的硬件投入。
将AI推理过程拆开来看,LLM推理过程主要包含两个阶段:预填充和解码;其中预填充阶段是对输入进行处理的阶段,性能主要取决于CPU算力,解码阶段需要逐token计算,每次生成一个token都要内存带宽加载一次模型执行推理,性能主要取决于内存带宽。
在算力方面,元脑服务器NF5280G7设计上采用2颗高性能处理器,内置AI加速器功能,仅需搭配1张中低端主流消费级显卡/GPU卡,即可实现单机超强的AI推理能力。NF5280G7轻量推理方案充分利用并平衡CPU算力和智能算力,进行软硬协同优化,支持DeepSeek-R1 32B和QwQ-32B等大模型的推理,为中小企业用户提供了高性价比的部署平台。
测试数据显示,基于单台NF5280G7搭配1块市场主流消费级显卡的方案,在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下,支持16个用户并发数的情况下解码性能超过38.1tokens/s;在使用QwQ-32B Q4进行模型推理时,支持16个并发用户数的情况下解码性能达到38.3tokens/s;可以提供流畅稳定的用户体验。
当前,元脑服务器研发团队正与业内团队密切合作,在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力,旨在为用户带来高速、稳定的DeepSeek等大模型部署方案,助力大模型快速落地应用。




