- 强化学习自学教程:从表格方法到大模型对齐
一份教科书级的 RL 全景教程,覆盖 Q-Learning → DQN → PPO → SAC → 离线 RL → 世界模型 → RLHF/DPO/GRPO → Agentic RL。每个概念附直觉解释、公式推导、伪代码和实例。60+ 篇论文附 arXiv 链接。
2 min zh-CN - 代码拆解:oh-my-codex 是如何实现 Ralph Loop 的
oh-my-codex 里的 Ralph loop 并不是简单的 while true。代码层面对应的是一个由提示词契约、持久化状态、Turn Hook 与后台 Watcher 共同构成的持久化执行框架。
33 min zh-CN - Transformer 逐层解剖:从 Token 到 Logits 的完整维度推导
用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits,彻底看清层与层之间传递的到底是什么。
18 min zh-CN - Transformer 的持续控制状态:KV Cache 与残差流如何塑造 Agent 决策
从现象锚定、反例缩因、toy 直觉到因果干预,拆解 system prompt、tool schema 和 plan 如何持续影响 Agent 决策。
46 min zh-CN - Tool Call Dispatch:从 Normalize 到 Gateway Adapter 的统一分发设计
从零构建双层 runtime:一层统一 OpenAI、Claude、Codex 的工具调用信封,一层用 adapter/route 把 Claude、OpenAI、Gemini 等 provider 网关串起来。
88 min zh-CN - Tool Gateway Runtime:代码中涉及的设计模式与架构模式
结合 dispatch_envelope_demo.py,说明 Adapter、Strategy、Registry、Command、State Machine、Facade 与 Anti-Corruption Layer 在实现中的对应位置,并区分经典设计模式与架构模式。
30 min zh-CN - Agent 系统设计:LLM 的固有缺陷与 Harness 工程实践
从精确计算盲区、幻觉、上下文窗口、Harness Engineering、Agent Loop 架构到工具设计——系统梳理 LLM 的固有局限,结合 Anthropic、OpenAI、LangChain 的一线工程实践,给出 Agent 系统的完整设计方案。
72 min zh-CN - CCContext 深度解析:Coding Agent 的运行内存与数据总线
基于 learn-claude-code 开源项目,从消息存储、Token 账本、原子块压缩到 Re-fetch 兜底——拆解 Coding Agent 上下文管理的核心设计。
59 min zh-CN
Blog
Page 2 - Showing 8 of 55 posts
View all posts by years →