20
02月 2026
研究揭示大模型多轮对话可靠性骤降
2026年2月20日,微软研究院与Salesforce联合研究证实,当前顶尖大语言模型在多轮对话中可靠性显著下降。研究涵盖GPT-4.1、Gemini 2.5 Pro等15款模型,分析超20万次模拟对话。结果显示: 单轮任务成功率约90%,拆分为多轮后降至约65%;核心能力仅降15%,但不可靠性飙升112%。主因包括'过早生成'错误假设及'...
2026年2月20日,微软研究院与Salesforce联合研究证实,当前顶尖大语言模型在多轮对话中可靠性显著下降。研究涵盖GPT-4.1、Gemini 2.5 Pro等15款模型,分析超20万次模拟对话。结果显示: 单轮任务成功率约90%,拆分为多轮后降至约65%;核心能力仅降15%,但不可靠性飙升112%。主因包括'过早生成'错误假设及'...
《赛博朋克2077》2.3版本于7月17日更新,新增的"自动驾驶"功能本意是为玩家提供便捷体验,但实际效果却引发广泛吐槽。玩家反馈称,该功能不仅速度迟缓,还频繁发生碰撞事故,导致外媒The Gamer质疑其"是否在影射现实自动驾驶技术的窘境"。技术分析指出,问题可能源于游戏内车辆AI路径系统的不完善。即便在2...
不知道大家有没有听过这么一句话"北有同仁堂,南有片仔癀。"最近,无论是片仔癀的零售价还是片仔癀公司的上市股价,都可以用一飞冲天来形容。笔者在本地的美团APP查询到,片仔癀虽说不难购买,但一粒(3g)的价格高达880元,盒装(0.3g x 12粒)的价格高达近1500元。在网络渠道,还有反馈片仔癀单粒价格近两千元...
北京时间6月24日晚间,微软召开了主题为 "what's next for Windows" 的线上发布会,推出了新的Windows 11系统。这是微软六年来首次推出新的操作系统,微软方面称这是一款专为混合办公和学习而生的操作系统。在Windows 11上,微软首次将Android应用程序引入Windows。今年晚些时候,用户将能够在M...