Back
从重构、稀疏字典、superposition 和干预验证角度理解 Sparse Autoencoder:它如何把混合 activation 转化为可检验的 feature 假设。
sae
sparse autoencoder
interpretability
llm
mechanistic interpretability
翻译自 OpenAI Alignment 博客,介绍如何利用 SAE 潜在归因(Latent Attribution)技术定位和调试大模型的对齐问题。
ai
alignment
翻译