2026年6月3日,微软宣布推出开源框架ASSERT(Adaptive Spec-driven Scoring),用于将自然语言行为规范自动转化为可执行评估流程。该框架面向AI模型、应用及智能体,支持从需求文档等文本生成测试场景、数据集、指标与计分卡。其评估流程分为四阶段:规范细化、用例生成、轨迹录制与行为评分。研究显示,ASSERT在社会评分、工具使用等维度覆盖更广,LLM判定器与人工评审一致率达80%–90%。微软强调其为辅助工具,不可替代人工判断。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信