面壁智能近日推出端侧大模型MiniCPM 4.0,该模型与英特尔硬件全面适配,通过英特尔加速套件与KV Cache内存增强技术,实现了AI PC长文本推理性能提升2.2倍,并支持128K长上下文窗口。此次发布的MiniCPM 4.0系列包括8B和0.5B两种参数规模,创新采用“高效双频换挡”机制,可自动切换稀疏与稠密注意力模式,兼顾长、短文本任务的高效处理。
英特尔酷睿Ultra处理器已对MiniCPM 4.0完成适配,利用OpenVINO工具套件优化性能,并在NPU上提供Day 0支持。此外,该模型支持vLLM、SGLang等开源框架,并内置自研CPM.cu推理框架,显著提升端侧推理效率,实现90%的模型瘦身与速度优化。