最新最快科技资讯
太阳能光伏网

Meta发布纯视觉自监督学习模型WebSSL,挑战语言依赖范式

Meta公司近日推出WebSSL系列模型,参数规模覆盖3亿至70亿,专注于探索无语言监督的视觉自监督学习(SSL)潜力。该模型基于纯图像数据训练,采用DINO和ViT架构,旨在突破传统对比语言-图像模型(如CLIP)对语言数据的依赖。

WebSSL仅使用MetaCLIP数据集中的20亿张图像进行训练,通过联合嵌入学习(DINOv2)和掩码建模(MAE)两种范式,评估纯视觉SSL的性能表现。实验显示,随着参数规模增加,WebSSL在视觉问答(VQA)任务上表现接近对数线性提升,尤其在OCR和图表解读任务中优势显著,部分场景性能超越CLIP达13.6%。

此外,WebSSL展现出与文本语义的隐式对齐能力,并在传统基准测试中保持竞争力。模型已开源至Hugging Face平台,便于研究者进一步探索无语言监督的视觉表征学习。

最新相关

思科战略举措助力全球人工智能发展

思科宣布一系列覆盖美国与中东地区的人工智能战略布局。通过这些举措,思科将进一步巩固其在海湾地区AI领域的核心地位,提供世界级且值得信赖的技术支持。其中,思科将加入HUMAIN联盟,助力沙特阿...

小桔充电将投入超1亿元升级超充网络

小桔能源副总经理林枝棠在2025第十一届中国国际电动汽车充换电产业大会上宣布,小桔充电计划在未来一年内投入超过1亿元,用于支持商户升级充电设施,加速超充网络建设。首批补贴将于6月1日启动,...

瑞士法院裁定政府削减瑞信奖金决定不合法

瑞士联邦行政法院周三裁定,瑞士政府以瑞信获得瑞银救助和国家援助为由削减前瑞信银行家奖金的决定不合法。2023年3月,瑞信被瑞银救助后,瑞士财政部下令全面削减瑞信高管奖金,并对部分员工奖金...