Back
翻译自 OpenAI Alignment 博客,介绍如何利用 SAE 潜在归因(Latent Attribution)技术定位和调试大模型的对齐问题。
ai
alignment
sae
interpretability
翻译