给AI装上你自己的脑子：一个程序员的Context基础设施实践

上周看到一篇文章讨论AI为什么总是输出正确的废话。里面有个实验让我很有感触：同档次的模型、同样的搜索工具、同样的prompt，唯一区别是一个Agent接入了主人积累了一年的判断框架，另一个没有。结果前者输出insight，后者输出checklist。

我走了一条类似的路径，但更草根。没有录音转写，没有三层精炼pipeline，有的是一台服务器上跑的AI Agent、一个Obsidian wiki、和25条从自己决策历史里蒸馏出来的公理。

写下来是因为过程比我想的更有意思。

AI说正确的废话

让AI帮你做技术选型分析，它给你列一张完美的对比表：性能、生态、社区、学习曲线，每项都打了分。读完什么也没学到。

原因其实很简单：LLM的训练方式决定了它的默认输出是consensus。Next token prediction选概率最高的token，概率最高就是最多人认同的答案。RLHF再补一刀，专门惩罚有争议、有立场的输出。两层叠加，你拿到的永远是均值回归的分析。对所有人都正确，对任何人都没用。

我自己的例子：之前让Agent帮我做投资分析，出来的报告跟雪球热门帖子差不多，信息都对，但读完不会改变任何操作。后来我把自己的决策公理注入进去（“效率由瓶颈决定”、“数据优于观点”），同样的查询，它开始说”这个利好已经被price in了，过去三个月的成交量变化说明…”。这才是有立场的判断。

三套系统

我的起点很程序员：一个Obsidian笔记库，一个跑在服务器上的Hermes Agent，加上”把东西写下来就不怕丢”的朴素直觉。

公理系统：你的认知底色

起点是一个简单的问题：我用AI的时候，到底在想什么？

不是”我想让AI做什么”（那是prompt），是”我拿到AI的输出之后，用什么标准判断好不好”。后者才是真正值钱的。

我从自己的技术决策、投资判断、跟AI协作的交互里提炼了一套公理。最初43条，太多太散，做了三轮审计砍到25条。每一轮做的事情都一样：合并重叠的，删掉只适用于单一场景的，把内容重复的合成一条。

25条，五个领域：

AI/Agentic（6条）：核心是”IC→管理者心智转变”，你不是在用工具，是在管理一个超强但缺context的下属
技术决策（7条）：“基础设施优于组件”、“结果确定性优于过程确定性”
管理工作哲学（4条）：“闭环校准”，反馈频率比单次精度重要
信任与验证（3条）：“时间锚定防止幻觉”，验证时效性信息
跨域隐喻（5条）：“约束悖论”，更大的系统引入更多问题

每条公理下面有判定条件、反例、跟其他公理的交叉引用。Agent每次启动时自动加载这些公理，它就不再给consensus答案了，因为有一个明确的认知滤镜在过滤信息。

LLM Wiki：结构化知识积累

公理解决了”怎么想”，但AI还需要知道”是什么”。

Karpathy提过一个LLM Wiki的模式：用结构化markdown文件作为LLM的外部知识库，知识编译一次，之后直接用。我基于这个思路搭了自己的wiki：

wiki/
├── SCHEMA.md     # 约定和标签分类法
├── index.md      # 所有页面的目录
├── log.md        # 操作日志
├── raw/          # 不可变的原始资料
├── entities/     # 实体页（公司、产品、人）
├── concepts/     # 概念页（技术、方法论）
└── comparisons/  # 对比分析

关键在它跟RAG的区别。RAG每次查询都从原始文档重新检索、重新理解。Wiki把知识编译一次存着：矛盾已经标注，交叉引用已经建好，综合判断已经写下来了。

举个例子。我让Agent跟踪比亚迪的固态电池进展。传统做法是每次都搜一遍新闻。但在wiki模式下，我有个solid-state-battery.md页面，里面已经综合了宁德时代、比亚迪、丰田的技术路线对比，有我自己的判断（“宁德时代在硫化物路线上的先发优势是真实的”），也有标注了争议的地方。Agent拿这个页面去做分析，比从头搜索再综合快得多，也准得多。

页面之间有[[wikilinks]]。固态电池页链接到比亚迪实体页，比亚迪页链接到中国科技股分析，形成网络。Agent做分析时可以顺着链接走，不被局限在单一话题里。

目前20个页面，覆盖科技、投资、哲学、运动健康。不大，但每个页面都有我的判断，不是纯粹的信息搬运。

Skill系统：按需加载

25条公理加20个wiki页面，全塞进context window不现实。

Hermes的Skill系统解决这个问题。每个Skill是针对特定任务类型的context子集：做投资分析加载金融分析框架，写代码加载架构偏好，写博客加载写作风格和发布流程。

跟”按需加载”的思路一致，区别是我的实现更轻量。直接用文件系统组织，Agent根据任务类型自己决定加载什么。

实际运行的时候：

我说”帮我分析一下腾讯这季度财报”，Agent自动加载投资分析相关的公理和wiki里腾讯的实体页。我说”这个bug帮我看看”，它加载调试相关的公理和代码库上下文。我说”把这段分析写成博客”，它加载写作Skill和发布流程。

不需要每次都复制粘贴一堆prompt。

三套系统的关系

公理系统（怎么想）  →  被注入Agent的每次推理
                         ↑
Wiki（是什么）      →  按需加载具体领域知识
                         ↑
Skill（怎么加载）   →  根据任务类型选择加载什么

公理系统是稳定的，我的核心判断标准不会每周变。Wiki是增长的，每吸收一个新来源就多几个页面。Skill是动态的，随着工作流变化而调整。

三者形成循环：公理指导Wiki内容的筛选（什么值得记），Wiki的内容反过来验证公理（如果一条公理反复被新信息证伪，就该更新了），Skill的加载逻辑反映当前的工作重心。

不只是理解你，还要操作你的环境

我之前看到过一个更有系统的方案：从录音转写开始，经过三层精炼，最后蒸馏出axiom。那条路适合认知密度很高、每天做大量决策的人。我走的是草根路线，从”写下来的东西”开始，手动提炼，文件系统就是记忆系统。适合像我这样的程序员，决策频率没那么高，但每次决策涉及的技术上下文很深。

但不管是哪条路，有一个维度很少被提到：跟代码库的整合。Hermes Agent是一个7x24跑在服务器上的进程，能直接读写文件、执行命令、访问数据库。Context基础设施就不只是”让AI更好地理解你”，还包括”让AI更好地操作你的环境”。

我的博客发布流程就是一个Skill：build，deploy到nginx目录，验证。整个流程不需要我参与。你可以让AI帮你写文章，但发布还得自己来。Agent可以直接把整个链路跑完。

几个实操教训

公理不要太多。我从43条砍到25条，每次砍都心疼，但砍完之后Agent反而更准了。Context window里的信号密度变高了，25条每条都有独特价值，比43条有一半互相重复好。

Wiki页面要有你的判断。纯信息任何人都能搜到。如果一个Wiki页面读起来像维基百科摘要，那它没用。它应该读起来像你的笔记，有重点，有观点，有”我觉得这个不对”的地方。

别指望一次到位。公理系统经过三轮审计才稳定。Wiki的内容每次用的时候发现问题就修。Skill的加载逻辑经常调。这些系统的价值在于持续迭代。

稳定性是筛选标准。一个判断如果跨场景、跨时间反复出现并保持一致，它大概率是你认知结构的一部分。不稳定的叫情境反应，稳定的才是你自己。我用这个标准筛公理，如果一条原则上周信这周不信，那它不够格当公理。

为什么这件事值得做

AI的瓶颈已经从”不够聪明”变成”不够了解你”。

模型升级，智能就更便宜一点，你用的模型别人也能用。但你的context是只属于你的。持续投入在贬值的维度（模型智能）上，收益递减；投入在不贬值的维度（个人context）上，收益累积。

过程还有个副产品：你不得不把自己的认知显性化。把”我到底怎么判断”写下来这个过程本身，就让你更了解自己。公理系统做完三轮审计之后，我对自己技术决策偏好的理解比之前清晰了很多。这不是AI给你的东西，这是你给自己的。

25条公理，20个wiki页面，十几个Skill。不大，但是我的。每次AI用这些东西给我有立场的分析，而不是正确的废话，这个投入就值了。

本文的写作过程本身就是这套系统的证明：Agent加载了写作Skill，参考了wiki里关于Agent记忆和公理系统的内容，最后我改了一遍。

Jason's Blog