Circuit Tracer – 深度解析 Anthropic 开源的 AI 模型内部决策追踪工具
Circuit Tracer 是什么
Circuit Tracer 是由 Anthropic 开发的一款开源工具,旨在通过图形化方式展示大语言模型(LLM)的内部思维过程,提升 AI 的透明度和安全性。它通过构建“归因图”(Attribution Graph),将模型内部的特征及其之间的因果关系可视化,帮助研究者直观理解模型如何处理输入并生成输出。
核心功能
- 归因图生成:Circuit Tracer 的核心功能是生成归因图,揭示模型决策路径,显示特征和节点间的影响关系。
- 交互式探索:该工具提供交互式前端,支持用户对归因图进行标注、分享,并通过调整特征值观察模型输出的变化。
- 支持自定义归因图:用户可以根据需要生成自定义的归因图,追踪模型的内部逻辑。
- 可视化支持:结合 Neuronpedia 交互式前端,为归因图提供强大的可视化支持。
技术原理
- 转码器(Transcoders):使用预训练的转码器生成归因图,捕捉模型内部的特征和节点之间的关系。
- 直接效应计算(Direct Effect Computation):计算每个非零转码器特征、转码器错误节点和输入标记对其他非零转码器特征和输出 logit 的直接影响。
- 图修剪(Graph Pruning):移除影响力较小的节点和边,只保留对模型决策有显著影响的部分,修剪参数由用户自定义。
- 交互式可视化界面:基于 Web 的交互式可视化界面,支持节点标注、分组和注释。
支持平台
Circuit Tracer 支持多种流行的开源模型,如 Gemma 和 Llama。用户可以通过 Neuronpedia 平台访问其交互式前端,也可以通过 GitHub 下载源码进行自定义开发。
团队介绍
Circuit Tracer 的开发得益于 Anthropic Fellows 程序参与者与专注于 AI 解释性研究的 Decode Research 团队的紧密合作。双方共同致力于提升 AI 的透明度和安全性,为研究人员提供了一个强大的工具来探索 AI 模型的内部工作机制。
项目资源
- 项目官网:https://www.anthropic.com/research/open-source-circuit-tracing
- GitHub 仓库:https://github.com/safety-research/circuit-tracer
业务场景
- 模型行为研究:通过归因图分析模型的决策过程,理解模型在生成特定输出时的内部逻辑。
- 多语言模型分析:研究多语言模型(如 Llama)的内部表示,探索跨语言处理机制。
- 多步推理研究:分析模型在多步推理任务中的行为,揭示逐步推理的过程和逻辑。
- 模型优化与改进:基于干预功能测试不同假设,验证模型的某些行为是否符合预期,优化模型结构。
- 教育与分享:基于交互式可视化界面,将复杂的模型决策过程直观展示给他人,便于教学和交流。