- KV Cache 的 Prefill、Decode、驱逐与量化:从缓存追加到误差形态
从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发,将 cache 理解为沿序列追加的可见记忆,并区分集合近似与数值近似。
22 min zh-CN - RoPE(旋转位置编码)讲义:从问题到工程实践
一份 41 页 RoPE 讲义,沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践,系统理解旋转位置编码。
9 min zh-CN - Transformer / LLM 机制型论文写作素材库
整理机制解释型 Transformer / LLM 论文的常用叙事、标题、摘要、引言、理论分析、实验验证和结论模板。
23 min zh-CN - Agent 系统设计:LLM 的固有缺陷与 Harness 工程实践
从精确计算盲区、幻觉、上下文窗口、Harness Engineering、Agent Loop 架构到工具设计——系统梳理 LLM 的固有局限,结合 Anthropic、OpenAI、LangChain 的一线工程实践,给出 Agent 系统的完整设计方案。
72 min zh-CN - Attention 01:为什么需要 Attention
从长距离依赖、固定长度瓶颈和动态信息需求出发,理解 Attention 机制到底在解决什么问题。
35 min zh-CN - Attention 02:从查资料直觉理解 Q K V
把 Attention 解释成一次软检索:Query 是你的问题,Key 是索引,Value 是内容。
29 min zh-CN - Attention 03:单头注意力的完整计算流程
从一个 3 词短句出发,手推 Attention 公式的每一步维度和数值。
35 min zh-CN - Attention 04:为什么 QKᵀ 表示词与词的关系
点积的几何意义、为什么不能用 XXᵀ、以及 Attention 学到的'关系'到底是什么。
37 min zh-CN