Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #interpretability

May 7, 2026

SAE 深入理解：从 Superposition 到机制诊断

从重构、稀疏字典、superposition 和干预验证角度理解 Sparse Autoencoder：它如何把混合 activation 转化为可检验的 feature 假设。

31 min zh-CN
Dec 3, 2025

OpenAI：用 SAE 潜在归因调试模型对齐问题

翻译自 OpenAI Alignment 博客，介绍如何利用 SAE 潜在归因（Latent Attribution）技术定位和调试大模型的对齐问题。

14 min
- ai
- alignment
- sae
- interpretability
- 翻译