Anthropic于5月29日发布开源工具“思维追踪”(Circuit Tracer),通过构建“归因图”以图形化方式展示AI大语言模型的决策过程。该工具由Anthropic Fellows与Decode Research团队联合开发,支持研究者交互式探索模型内部机制,标注、分享图表,并调整参数验证假设,旨在提升AI的可解释性与安全性。
目前,Circuit Tracer已作为开源库登陆GitHub,用户可通过Decode Research运营的Neuronpedia平台访问交互前端。Anthropic强调,开源此类工具将加速社区对语言模型行为的理解,弥补当前AI内部研究滞后于功能发展的现状。