第一科技网

01 09月 2025

阶跃星辰发布开源语音大模型 Step-Audio 2 mini,在多项国际基准测试中实现SOTA性能。该模型将语音理解、音频推理与生成统一建模,率先支持语音原生Tool Calling能力,可进行联网搜索等操作。

在音频理解、语音识别、翻译和对话场景中,Step-Audio 2 mini 综合性能超越所有开源端到端语音模型,并在多数任务上领先GPT-4o Audio。其创新架构实现端到端语音输入输出转换,结合链式思维推理与强化学习,显著提升副语言信息理解与自然回应能力。

30 08月 2025

微软推出AI语音生成工具Copilot Audio Expressions,支持情感化语音创作

科技媒体Windows Latest报道,微软近日在Copilot Labs推出全新AI语音生成工具Copilot Audio Expressions。该工具提供Emotive(情感表达)和Story(故事创作)两种模式,能够生成更具情感表现力的英文语音,使输出音频更接近真人发声。用户无需注册即可体验,输入文本后可选多种音色与风格,生成最长90秒的MP3...

29 08月 2025

OpenAI发布语音模型GPT-realtime

2025年8月29日,OpenAI发布全新语音模型GPT-realtime,该模型专为语音AI Agent设计,具备多模态能力,可生成自然流畅的语音,精准模仿人类语调、情感和语速。GPT-realtime支持图像理解,并与语音或文本对话融合,适用于客服、教育、金融、医疗等领域。此次发布新增Marin与Cedar两种特色语音,同时对原有8种语...

29 08月 2025

OpenAI正式推出Realtime API,语音交互迈入新阶段

OpenAI近日宣布将"Realtime API"正式投入生产环境,面向企业与开发者推出新一代语音交互解决方案。该API核心组件"gpt-realtime"采用端到端Speech-to-Speech架构,响应更快、语音更自然,支持复杂指令处理,并新增语言切换、语气调整及多种语音选项。在性能方面,gpt-realtime在多项基准测试中显著提升,工...

28 08月 2025

2026款保时捷Macan纯电升级:数字钥匙、AI语音助手与车载游戏亮相

2026款保时捷Macan纯电跨界车正式亮相,带来多项智能化升级。新车引入数字钥匙技术,支持iPhone、Apple Watch及安卓设备解锁启动,可共享给最多七人并设定权限。车内配备AI增强版语音助手,提升交互理解能力。副驾驶选装屏搭配隐私技术,支持行驶中娱乐不干扰驾驶。新车还搭载由N-Dream开发的AirConsole游...

27 08月 2025

微软开源长时自然语音合成模型VibeVoice-1.5B

科技媒体marktechpost 8月25日报道,微软发布全新开源文本转语音模型VibeVoice-1.5B,支持一次生成最长90分钟、最多4位说话者的自然语音,并具备跨语言与歌声合成功能。该模型基于Qwen2.5语言模型,结合声学与语义双分词器,采用低帧率处理与扩散解码器技术,提升语音质量与上下文连贯性。训练中通过扩展上...

22 08月 2025

FFmpeg 8.0正式发布,集成OpenAI Whisper语音识别与Vulkan加速支持

开源多媒体框架FFmpeg正式推出8.0版本,带来多项重要升级。此次更新新增OpenAI Whisper滤镜,实现视频处理中的实时语音识别,并大幅强化Vulkan视频处理能力,新增VP9、AV1编码支持及ProRes RAW硬件加速。同时,FFmpeg 8.0优化了CPU性能,支持AVX-512指令集,新增多种编解码器并扩展格式兼容性,包括VVC编码与...

22 08月 2025

鸿蒙智行智界双7新车开启预订首发语音控车与隔窗对讲功能

鸿蒙智行旗下智界品牌新款双7系列--R7与新S7车型已正式开启预订,预售价25.8万元起。新车主打"更美、更强、更颠覆"的产品定位,新增"语音控车"及"隔窗对讲"等智能功能。据智界产品总监透露,这两项功能为车型首发,其中车外语音控车方案号称"目前用户体验最优"。随着上市进入倒计时,智界宣布S7 Ultra、R7...

22 08月 2025

阿里通义发布新一代语音模型Fun-ASR

8月22日,阿里通义推出新一代端到端语音识别大模型Fun-ASR。该模型提升了上下文感知和语音转写精度,在家装、保险等多个行业场景识别准确率提升超15%。目前,该模型已应用于会议字幕、智能纪要、语音助手等场景,并将在阿里云百炼平台上线。免责声明: 本文内容由开放的智能模型自动生成,仅供参考。

22 08月 2025

钉钉联合通义实验室推出语音识别大模型 Fun-ASR,覆盖家装、畜牧等十余行业

钉钉与通义实验室语音团队联合发布新一代语音识别大模型 Fun-ASR,可精准识别互联网、家装、畜牧等十余个领域的专业术语,并已集成至钉钉会议字幕、智能纪要、语音助手等功能模块。该模型基于上亿小时音频数据训练,支持企业定制专属模型与热词导入,识别准确率在多个行业中提升超15%。通过结合企业内部...

22 08月 2025

钉钉联合通义实验室推出语音识别大模型Fun-ASR

2025年8月22日,钉钉与通义实验室语音团队宣布推出新一代语音识别大模型Fun-ASR。该模型能够识别家装、畜牧等十大行业的专业术语,并支持企业专属模型定制训练。Fun-ASR具备识别多行业术语、不同语言与口音的能力,结合上下文信息实现更精准的语音转录。目前,该模型已被集成进钉钉多个功能模块,如会议字...

22 08月 2025

特斯拉中国语音助手即将接入DeepSeek

特斯拉已为其中国市场车型更新车载语音助手的技术架构,新增DeepSeek智能对话支持以提升本地化智能交互能力。根据特斯拉官方《车机语音助手使用条款》,助手将整合字节跳动旗下"火山引擎"提供的Doubao(云雀大模型)和DeepSeek Chat服务。

21 08月 2025

OPPO无网畅聊功能升级,支持蓝牙语音通话及多媒体共享

OPPO ColorOS今日宣布无网畅聊功能迎来全新升级,用户即使在无网络状态下,也能通过蓝牙技术拨打语音电话,并发送图片、文字及语音消息。该功能适用于野外登山、高铁飞机、演唱会等多种信号弱或无网场景,帮助用户保持顺畅沟通。使用方式为在设置中开启"无网畅聊",选择欧加系列手机联系人即可发送信息。O...

21 08月 2025

谷歌Gemini Live升级:视觉引导与语音交互体验再提升

谷歌对人工智能助手Gemini Live进行多项功能升级,进一步优化实时对话体验。新功能可直接在屏幕中高亮显示用户摄像头所对准的物品,帮助快速识别工具等实物,该功能将随Pixel 10系列手机首发,并逐步覆盖安卓及iOS设备。Gemini Live还将深度整合消息、电话等常用应用,实现多任务协同操作。同时,全新音频...

21 08月 2025

谷歌推出新一代智能语音助手Gemini for Home,将于10月上线

谷歌在今日凌晨的发布会上正式发布新一代智能语音助手"Gemini for Home",该产品计划于今年10月通过早期体验计划登陆Google Nest智能音箱和显示屏,逐步替代现有的Google Assistant服务。用户仍可通过"Hey Google"唤醒助手,实现对家中智能设备的统一控制。该助手分为免费版和付费版,具体定价尚未公布。...

18 08月 2025

宇生月伴发布“交交”情感对话模型,完成新一轮融资加速语音交互革新

宇生月伴近日发布多模态口语对话情感大模型"交交",具备上下文理解、多人对话辨识、多语种方言感知、角色切换及情感表达等多项能力。该模型由公司自主研发,展现出在语音交互领域的前沿优势。此次公司完成新一轮融资,由靖亚资本和小苗朗程领投,菡源资产跟投,心流资本担任财务顾问。融资资金将用于语音...

17 08月 2025

ChatGPT语音模式新增语速调节与指令前缀功能

OpenAI 近日在其 ChatGPT 网页应用的语音模式中悄然上线两项新功能。用户现可通过滑块调节语音输出速度,范围从 0.5 倍速至 2.0 倍速不等,尽管该功能尚未正式公开。与此同时,新增的"自定义指令前缀"功能可记忆用户常用指令,避免重复输入。此外,OpenAI 还推出了升级版模型选择器,支持用户切换至新的 GP...

15 08月 2025

苹果酝酿Siri重大升级:界面重塑、语音操控更智能

据彭博社马克・古尔曼透露,苹果正全面重塑Siri视觉界面,新设计或于明年随iOS 26.4上线,覆盖iPhone与iPad。此次升级不仅限于外观,还将实现真正的应用内语音控制,用户可通过语音完成查找、编辑并发送照片,发布社交媒体内容,甚至在购物应用中浏览并加购商品。苹果还计划为Siri引入动画化形象,类似Finder...

14 08月 2025

微软透露Windows未来方向:AI驱动多模态交互,语音输入成核心

微软Windows负责人Pavan Davuluri近日在采访中阐述了操作系统的发展愿景,强调AI将深度融入计算体验,推动交互方式革新。他表示,未来的Windows将更具"环境感",通过语音、语义理解等多模态技术,实现更自然的操作。例如,用户可直接通过语音与电脑对话,系统能理解上下文并智能响应。微软此前发布的《Windo...

11 08月 2025