IBM近日推出Granite 4.0系列中的最小模型——Granite 4.0 Tiny的预览版本。该模型以高计算效率和低内存需求为亮点,在FP8精度下,仅需12GB显存即可支持5个128KB上下文窗口的并发对话,适用于英伟达GeForce RTX 3060等消费级显卡。
尽管当前预览版仅训练了2.5T Token,但其性能已与训练12T Token的Granite 3.3 2B Instruct相当,并在16并发会话下内存需求降低72%。最终性能预计可对标Granite 3.3 8B Instruct。模型采用混合Mamba-2/Transformer架构,兼顾速度与精度。
Granite 4.0 Tiny预览版已上线Hugging Face,采用Apache 2.0许可证。IBM计划今年夏季正式发布该系列的Tiny、Small和Medium版本。