苹果与人大联合发布VSSFlow AI模型:一键生成音效与语音
2026年2月9日,苹果公司与中国人民大学联合推出新型AI模型VSSFlow。该模型可在单一系统内,从无声视频中同步生成高保真环境音效与人类语音。其采用10层架构与流匹配技术,通过联合训练实现语音与音效生成的协同增益。模型已开源代码,权重及在线推理演示正在开发中。免责声明: 本文内容由开放的智能模型...
2026年2月9日,苹果公司与中国人民大学联合推出新型AI模型VSSFlow。该模型可在单一系统内,从无声视频中同步生成高保真环境音效与人类语音。其采用10层架构与流匹配技术,通过联合训练实现语音与音效生成的协同增益。模型已开源代码,权重及在线推理演示正在开发中。免责声明: 本文内容由开放的智能模型...
2026年2月6日,苹果公司计划向第三方语音助手开放CarPlay部分权限,允许用户通过车机直接调用兼容的AI语音应用。此举旨在缓解新版个性化Siri进展缓慢带来的用户体验压力。目前Siri仍为默认且不可替换的唤醒助手,第三方助手需通过对应App启动,不支持更改唤醒词或替换Siri物理按钮。该功能预计在未来几个...
2026年2月4日,法国AI公司Mistral AI发布Voxtral Transcribe 2系列模型。其中,Voxtral Realtime(4B参数)采用流式架构,支持13种语言(含中文),转录延迟低于200ms,以Apache 2.0许可开源;Voxtral Mini Transcribe V2面向批量处理,单次支持3小时音频,准确率优于GPT-4o mini及Gemini 2.5 Flash。两款API均...
2026年2月4日,支付宝集福活动首次在智能穿戴设备上线扫福功能。用户佩戴夸克、乐奇Rokid等品牌AI眼镜,通过视觉识别("看一下")与语音指令("说一句")即可完成扫福、集卡及分享全流程,无需操作手机。此举旨在提升集福交互便捷性与科技感,覆盖更多年轻及科技爱好者用户群体。免责声明: 本文内容由开放的...
2月4日,蚂蚁阿福App升级推出"长辈模式",面向老年用户优化交互体验。该模式采用大字体、大图标设计,支持默认语音对话,并可一键直拨阿福咨询健康问题。同时延续对粤语、闽南话等十余种方言的支持,提升沟通便利性。目前50后、60后用户占其总用户数的20%。此次升级旨在降低数字健康服务使用门槛,助力银发...
2026年2月3日,苹果公司与特拉维夫大学联合提出"原则性粗粒度"(PCG)语音生成新方法,旨在突破AI文本转语音(TTS)的速度瓶颈。该技术通过构建声学相似组,将严苛的单点token验证升级为容错更高的范围验证,并采用小模型猜测+大模型审核的投机解码架构。实验显示,语音生成速度提升约40%,自然度达4.09分(满分...
1月30日,小红书在部分用户端内测"语音问一问"功能,取代搜索框下方原有热榜入口。该功能由小红书官方确认处于内测阶段,后续或将逐步扩大覆盖范围。此举旨在强化搜索与问答能力,拓展用户消费决策场景,抢占更多人群心智。作为2024年社区重点发展方向之一,小红书将持续围绕"问搜"深化产品布局。免责声明:...
2026年1月29日,阿里千问团队正式开源Qwen3-ASR系列模型,包括Qwen3-ASR-1.7B、Qwen3-ASR-0.6B语音识别模型及Qwen3-ForcedAligner-0.6B强制对齐模型。该系列支持52种语种与方言识别,覆盖中英文、22种中文方言及16国英文口音,在歌唱识别、低信噪比等复杂场景表现优异。1.7B模型达开源SOTA水平;0.6B模型...
2026年1月29日,德国健康科技公司Voize宣布完成5000万美元A轮融资,由Balderton Capital领投,HV Capital、Redalpine和Y Combinator跟投。该公司开发了人工智能驱动的语音识别系统,使护理人员可通过智能手机口述临床笔记,AI实时转写、结构化处理,并自动生成患者报告、生命体征记录及药物日志,直接同步至...
2026年1月,谷歌同意支付6800万美元,就美国一起指控Google Assistant未经许可监听用户并收集私人信息的集体诉讼达成和解。原告称,该助手在误判唤醒词后持续录音,用于定向广告;谷歌否认不当行为,称和解系为避免诉讼风险与成本。协议已提交至美国加州北区法院,待法官贝丝·拉布森·弗里曼批准生效。此...
2026年1月21日,全球VoIP服务商Zadarma宣布推出Zadarma AI语音智能体。该虚拟助手可使用自然语音自动接听来电,支持全天候客户沟通,并能根据需要将来电转接至人工客服。新品集成多语言功能、云PBX与CRM系统,并已接入最新版ChatGPT,未来将兼容Gemini。此举旨在提升企业通信效率与客户服务体验。免责声明...
2026年1月16日,微信发布Windows PC内测版4.1.7.16,新增群接龙、朋友圈相册跳转指定日期等功能,并测试语音输入文字功能,用户可通过Ctrl+Win快捷键启动。1月19日,版本4.1.7.18发布,修复登录错误与崩溃问题。内测版需白名单参与,此前参加过内测的用户可登录体验,其他用户需等待正式版推送。免责声明: 本...
2026年1月15日,阶跃星辰宣布其开源语音推理模型Step-Audio-R1.1在全球权威评测榜单Artificial Analysis Speech Reasoning中排名第一。该模型以96.4%的准确率超越Grok、Gemini等主流模型,具备深度语音推理、实时响应和可扩展CoT能力。Step-Audio-R1.1为原生音频模型,支持端到端语音理解与流式推理,完...
2026年1月15日,大模型评测榜单Artificial Analysis Speech Reasoning最新数据显示,阶跃星辰原生语音推理模型Step-Audio-R1.1位列全球第一。该榜单是评估"原生语音模型"的重要第三方基准,重点考察模型直接处理音频并进行复杂逻辑推理的能力,核心指标包括准确率与首包延迟。此次登顶标志着中国企业在原...
当地时间1月13日,语音人工智能初创公司Deepgram宣布完成1.3亿美元C轮融资,估值达13亿美元。本轮融资由专注于欧洲和北美高增长科技公司的独立全球投资平台AVP领投,Alkeon、In-Q-Tel、Madrona等所有主要现有投资者参投,新投资者包括Alumni Ventures、Princeville Capital和Citi Ventures。
2026年1月,辽宁省发布《2026年优化政务环境行动方案》,明确取消12345热线语音导航,群众来电将直通人工客服。此举旨在减少群众等待时间和操作成本,提升政务服务体验。此前江苏已于2021年实现全域"语音零导航",安徽淮北也在2023年跟进改革,辽宁成为最新加入该改革的省份。目前全国多地正逐步推广简化热...
1月5日,千问APP语音功能全面焕新,上线10款全新AI音色,覆盖不同年龄层与性格特征;用户克隆的专属音色同步升级,带来更丰富、更拟人化的语音交互体验。新音色依托研发架构创新及大规模多说话人数据训练,保持高清晰度的同时提升语气、语调、停顿与情感表现,支持中英混合及多语种无缝切换,可用于剧本演绎...
阿里升级语音模型家族Qwen3-TTS,发布音色创造Qwen3-TTS-VD(VoiceDesign)和音色克隆Qwen3-TTS-VC(VoiceClone)两款全新模型。Qwen3-TTS新模型可实现DIY声音设计和像素级音色模仿,甚至让动物"原生"开口说人话,音色自然、效果稳定、生成高效,可加速语音大模型在有声小说、AI漫剧、影视配音等多专业领域落...
2025年12月23日,阿里通义大模型推出新一代端到端语音交互模型Fun-Audio-Chat。该模型开源8B版本,在多项基准测试中同尺寸模型排名第一,性能超越GLM4-Voice等竞品。采用S2S架构,实现语音直出,结合双分辨率设计,降低近50% GPU开销。模型经百万小时多任务数据训练,支持情绪感知与自然语音指令下的函数调...
2025年12月23日,vivo宣布WATCH GT 2微信手表版功能升级,新增语音输入转文字功能,实现一句话快速成字。本次OTA还优化了缓存清理、英文适配及会话标记与管理等功能。微信手表版App自2022年7月上线以来,持续支持语音转文字、图片查看、消息回复及运动数据同步等实用特性。此次更新进一步提升用户在手表...