最新最快科技资讯
太阳能光伏网

英伟达推出DAM-3B模型 旨在解决图像与视频局部描述难题

【太平洋科技快讯】近日,英伟达宣布推出一款名为Describe Anything 3B(DAM-3B)的AI模型,旨在解决图像和视频中特定区域详细描述的难题。该模型在静态图像和动态视频的局部描述方面表现出色,为相关领域带来了新的突破。

传统的视觉-语言模型(VLMs)在生成整体图像描述时已相当成熟,但在处理图像或视频中特定区域的细致描述时却显得力不从心。尤其是在动态视频中,时间动态变化、遮挡问题以及区域化描述的需求,都使得这一任务极具挑战性。DAM-3B的推出正是为了应对这些挑战,它支持用户通过点、边界框、涂鸦或掩码等方式指定目标区域,从而生成精准且贴合上下文的描述文本。

DAM-3B的核心创新之一是“焦点提示”技术。该技术巧妙地融合了全图信息与目标区域的高分辨率裁剪图,确保在保留整体背景的同时,细节信息也不会失真。这种融合策略使得生成的描述更加精准且符合上下文。

除了焦点提示技术,DAM-3B还采用了局部视觉骨干网络。该网络通过嵌入图像和掩码输入,并运用门控交叉注意力机制,将全局与局部特征巧妙融合,再传输至大语言模型生成描述。这种设计使得模型能够更好地理解目标区域及其与整体图像的关系。

DAM-3B的能力不仅限于静态图像,其衍生版本DAM-3B-Video进一步扩展至视频领域。通过逐帧编码区域掩码并整合时间信息,DAM-3B-Video即使面对遮挡或运动也能生成准确的描述,为动态视频的局部描述提供了有效解决方案。

为了解决训练数据匮乏的问题,英伟达开发了DLC-SDP半监督数据生成策略。该策略利用分割数据集和未标注的网络图像,构建了包含150万局部描述样本的训练语料库。通过自训练方法优化描述质量,确保输出文本的高精准度。同时,团队还推出了DLC-Bench评估基准,以属性级正确性而非僵硬的参考文本对比来衡量描述质量。

在包括LVIS、Flickr30k Entities等七项基准测试中,DAM-3B表现优异,平均准确率达到67.3%,超越了GPT-4和VideoRefer等模型。

最新相关
秘塔AI x 优刻得,让搜索回归本质

秘塔AI x 优刻得,让搜索回归本质

成长在互联网刚刚兴起的年代,我们的小时候,"微机课"比体育课还要令人期待。课间早早计划好玩哪个Flash小游戏,奔向"微机房"要给好朋友占个座,按下台式机的电源键,等待Windows系统缓缓加载……...

iPadOS26发布 多任务处理向macOS看齐

[太平洋科技快讯]6月10日,在 WWDC25 开发者大会上,苹果正式发布了全新的 iPadOS 26 系统。此次更新不仅带来了全新的设计语言,更在多任务处理和文件管理方面进行了“史诗级”的革新,...

macOS 26 Tahoe发布 Spotlight聚焦升级

[太平洋科技快讯]6月10日,苹果在WWDC25全球开发者大会上正式推出了全新操作系统macOS 26 Tahoe。最引人注目的变化莫过于其全新的系统设计语言。苹果引入了名为“液体玻璃”的半透明...

iOS26正式发布 采用全新液态玻璃设计语言

[太平洋科技快讯]6月10日,苹果在 WWDC25 上宣布迄今规模最大的设计更新,命名为“Liquid Glass(液态玻璃)”,且将所有系统统一为年份命名,因为该系统将应用到明年,因此尾缀为26。iOS ...