【太平洋科技快讯】近日,Anthropic宣布推出一款名为“思维追踪”(Circuit Tracer)的开源工具,旨在以图形化方式展示大语言模型(LLM)的内部思维过程,提升AI的透明度和安全性。
Circuit Tracer的核心功能是通过构建“归因图”(Attribution Graph)来追踪和展示AI模型的内部运作。归因图以图形化的方式,将模型内部的特征及其之间的因果关系可视化,使研究者能够直观地理解模型如何处理输入并生成输出。
该工具不仅支持生成自定义的归因图,还提供交互式前端,使用户能够对图形进行标注、分享,并通过调整特征值观察模型输出的变化。这种交互式探索功能为研究者验证假设提供了便利,有助于深入理解模型行为。
Circuit Tracer已在GitHub平台以开源库的形式发布,并可通过Decode Research运营的Neuronpedia平台进行交互式查看。Anthropic表示,当前对AI内部结构的理解远落后于其功能进步,开源这些工具将助力更广泛的社区深入探究语言模型的内部运作,理解模型行为,并为工具的改进和扩展提供可能。
尽管Circuit Tracer具有重要的意义,但也存在一些局限性。例如,它未能解释模型如何计算注意力模式,且在重建模型激活时可能存在误差。此外,某些特征的抽象程度也可能影响对模型机制的理解。