当地时间12月8日,英特尔宣布将AutoRound算法集成至LLM Compressor,以优化大语言模型的低比特量化性能。该技术通过引入可训练参数与符号梯度下降法,在保持模型精度的同时实现更高效推理,并支持W4A16、FP8等多种数据格式。AutoRound兼容英特尔Xeon处理器、Gaudi加速器、数据中心GPU及CUDA生态GPU,未来“Crescent Island”GPU将原生支持相关量化格式。目前该方案已适配Llama、Qwen等主流模型,仅需百步调优即可部署于vLLM框架,无额外推理开销。英特尔计划扩展至MoE模型与混合比特搜索,构建多策略压缩体系。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信