小红书hi lab研发的首个多模态大模型dots.vlm1今日正式发布并开源。该模型基于12亿参数视觉编码器从零训练,结合DeepSeek V3 LLM构建,在大部分多模态评测中表现接近闭源领先模型,文本能力与主流模型相当。
dots.vlm1采用原生NaViT视觉编码器,支持动态分辨率,并通过纯视觉监督与结构化数据训练提升OCR等感知能力。多模态训练引入合成数据优化图文交错网页数据,增强模型泛化性。在MMMU、MathVision等评测中,其图文理解能力接近Gemini 2.5 Pro;文本任务表现与DeepSeek-R1-0528持平,数学与代码能力突出。
目前,dots.vlm1在细分任务上仍有优化空间,但已为开源视觉语言模型树立了新的性能标杆。