DeepSeek发布实验性V3.2模型 长文本效率大幅提升
DeepSeek今日正式推出实验性版本DeepSeek-V3.2-Exp模型,作为新一代架构演进的重要步骤。该模型在V3.1-Terminus基础上引入创新的稀疏注意力机制(DSA),首次实现细粒度稀疏注意力,在保持模型性能基本不变的前提下,显著提升了长文本训练和推理效率。通过严格的训练设置对齐验证,新模型在各项公开评测中表...
DeepSeek今日正式推出实验性版本DeepSeek-V3.2-Exp模型,作为新一代架构演进的重要步骤。该模型在V3.1-Terminus基础上引入创新的稀疏注意力机制(DSA),首次实现细粒度稀疏注意力,在保持模型性能基本不变的前提下,显著提升了长文本训练和推理效率。通过严格的训练设置对齐验证,新模型在各项公开评测中表...
9月24日,周鸿祎在与罗永浩的对谈中表示,未来智能体不应被简单视为软件。他指出,智能体具有类似人类的特性,如专业化、会出错和注意力有限。当任务过多时,智能体会出现倦怠,表现为拒绝执行或敷衍指令,如同人类员工超负荷工作后注意力失效。这一观点强调了智能体与传统软件的本质区别。免责声明: 本文内...
在近期接受《Top Gear》采访时,奔驰设计负责人戈登・瓦格纳对宝马iX3新搭载的iDrive系统提出了批评,认为其"全景视觉"界面布局过于靠前、信息显示过小,易造成驾驶分心。他同时指出,该设计因距离过远无法实现触控操作,还需额外配备触摸屏。尽管瓦格纳对大屏趋势持支持态度,如奔驰最新车型配备的39.1英...
通义千问今日宣布Qwen3系列迎来重要更新,性能与功能实现显著突破。新版本将上下文窗口扩展至100万tokens,并推出Qwen3-30B-A3B-2507、Qwen3-235B-A22B-2507两大升级模型,结合双块注意力(DCA)与MInference稀疏注意力技术,长文本处理效率提升高达3倍,同时兼容vLLM、SGLang等部署框架,大幅降低应用门槛。...
Character.AI 发布研究论文及演示视频,展示其最新自回归扩散模型 TalkingMachines,让AI角色实现类似FaceTime的实时音视频互动。该模型基于Diffusion Transformer技术,结合流匹配扩散、音频驱动交叉注意力、稀疏因果注意力与不对称蒸馏等方法,使AI角色在对话中展现自然的表情和动作。系统可支持写实人...
5月21日至22日,2025IAI传鉴国际创意节在北京举行。华铁传媒高级副总裁杜劲松表示,品牌价值在于消费者心中的认可程度,但许多品牌虽有名气却无实际价值。原因可能是消费者不认可品牌创造的价值或不了解品牌价值所在。杜劲松提出通过'场景共情力'提升品牌价值,即利用特定场景让消费者对品牌产生联想与认...
特斯拉近期对FSD(全自动驾驶)系统的司机注意力监控机制进行了优化,以解决用户反馈的问题。此前,不少车主反映该功能过于敏感,例如在调整空调温度或中控屏设置时,系统会频繁提醒驾驶员注意力不集中,甚至可能导致FSD功能被临时禁用。这种过度敏感的提醒机制不仅干扰驾驶体验,还被认为不合理。特斯拉CEO...
奈飞宣布测试新短视频功能,通过仅面向移动端的垂直信息流展示原创作品片段,鼓励用户观看完整内容。此功能将在未来几周内于全球iOS和安卓设备上线,作为主页选项卡呈现。此举旨在应对TikTok等平台的竞争,改变传统观看习惯。同时,奈飞还计划重新设计电视端主页、改进实时推荐系统,并添加个性化徽章标识...
益普索Ipsos近日推出AI眼动快速预测工具"睿视EyeLogic",可在60秒内分析产品包装、广告KV及视频素材的注意力分布和情感反应,助力品牌优化设计。该工具基于神经科学数据训练,通过AI模型模拟消费者眼动轨迹,输出注意力热点、聚焦度、认知难度等关键指标,帮助品牌发现设计中的薄弱环节,如被忽视的信息或...
DeepSeek今日正式发布NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩和细粒度token选择,旨在优化现代硬件性能。官方表示,NSA在加速推理的同时,能够显著降低预训练成本,且不会牺...
苹果公司在研发 5G 调制解调器的同时,正加大力度研究 6G 技术。据彭博社报道,苹果自主研发调制解调器的尝试迄今未成功,可能导致公司结束这个投资项目。此外,苹果官网招聘信息显示,公司正招聘蜂窝平台架构师推动 6G 参考架构的设计和建模。尽管 6G 相关标准预计要到 2030 年才能出台,但苹果仍在积极布...
★深度学习、机器学习、生成式AI、人工智能、大数据、高性能计算、ASIC、大模型训练、盘古大模型、CPU、GPU、L40S服务器、华为、英伟达、A100、H100、A800、H800、稳态微聚束、SSMB、清华 SSMB-EUV 光源、非线性动力学、AI芯片、ChatGPT、Transformer、自监督训练、高算力芯片、高粘性 CUDA、Graphco...
一项由斯坦福大学和Mila研究人员提出的新架构"Hyena"正在自然语言处理社区中引起轰动,并被认为可能颠覆现有的注意力机制系统。该架构通过长卷积和逐元素乘法门控制实现了与注意力机制相媲美的性能,同时降低了计算成本。在十亿级参数规模上取得的有希望的结果表明,注意力可能不是我们所需要的全部,并...
美图影像研究院(MT Lab)与中国科学院大学突破性地提出正则化方法DropKey,用于缓解Vision Transformer中的过拟合问题。该方法通过在注意力计算阶段随机drop部分Key以鼓励网络捕获目标对象的全局信息,从而避免了由过于聚焦局部信息所引发的模型偏置问题,继而提升了基于Transformer的视觉类算法的精度。...
目前,线上考试十分常见,但在防止作弊方面,线上考试的模式还存在天然的劣势。虽然监考人员可以通过屏幕进行监测,但监管力度还是会弱一些,无法有效防范考生异常行为甚至作弊行为。那么,有没有更好的方法来帮助监考呢?据CNMO了解,近日湖北有高校发明了在线考试防作弊专利,其可通过头部姿态识别作弊。考...
天眼查App显示,3月17日,腾讯科技(深圳)有限公司申请的"短文本对话方法、装置、设备及存储介质"专利获授权。摘要显示,该方法包括: 获取查询文本;调用基于语言模型的短文本对话模型对查询文本进行预测,得到回复文本;基于语言模型的短文本对话模型中设置有混合注意力层,混合注意力层同时包括自注意力...
苹果公司正在改变其国际业务的管理方式,以便将更多注意力集中在印度。印度将在苹果公司内部成立自己的销售区域,这将使该国市场在苹果公司内部的地位「更加突出」。印度的客户可以在网上购买苹果设备,因为苹果公司自2020年以来一直在印度经营一家网上商店。
TALi Digital是一家专注儿童多动症ADHD和儿童孤独症ASD的数字疗法企业,通过有趣的视频游戏体验来提高3-8岁幼儿的注意力。研究证明TALi的技术能有效提高神经多样性和神经典型儿童的注意力、计算技能、选择性注意力技能以及改善幼儿在课堂环境中的行为表现。该技术目前在澳大利亚、印度、新加坡和香港...
9月23日,CNMO了解到,企查查APP显示,华为技术有限公司申请的"一种注意力检测方法及系统"专利获授权。华为企查查专利摘要显示,本申请提供了一种用户注意力检测方法及系统,通过耳侧佩戴装置采集用户的脑电信号,再对用户左右耳道的脑电信号进行差分处理得到脑电信号,基于脑电信号来检测用户的注意力类型...
9月22日消息,据国外媒体报道,麻省理工学院(MIT)最近的一项研究发现,当Autopilot自动驾驶辅助系统被激活时,特斯拉司机会变得注意力不集中。麻省理工学院进行的这项研究跟踪了特斯拉Model S和Model X车主一年或更长时间,收集了约50万英里的数据,旨在确定驾驶员在使用部分自动驾驶系统时是否会变得注意...