上周看到一篇文章讨论AI为什么总是输出正确的废话。里面有个实验让我很有感触:同档次的模型、同样的搜索工具、同样的prompt,唯一区别是一个Agent接入了主人积累了一年的判断框架,另一个没有。结果前者输出insight,后者输出checklist。

我走了一条类似的路径,但更草根。没有录音转写,没有三层精炼pipeline,有的是一台服务器上跑的AI Agent、一个Obsidian wiki、和25条从自己决策历史里蒸馏出来的公理。

写下来是因为过程比我想的更有意思。

AI说正确的废话

让AI帮你做技术选型分析,它给你列一张完美的对比表:性能、生态、社区、学习曲线,每项都打了分。读完什么也没学到。

原因其实很简单:LLM的训练方式决定了它的默认输出是consensus。Next token prediction选概率最高的token,概率最高就是最多人认同的答案。RLHF再补一刀,专门惩罚有争议、有立场的输出。两层叠加,你拿到的永远是均值回归的分析。对所有人都正确,对任何人都没用。

我自己的例子:之前让Agent帮我做投资分析,出来的报告跟雪球热门帖子差不多,信息都对,但读完不会改变任何操作。后来我把自己的决策公理注入进去(“效率由瓶颈决定”、“数据优于观点”),同样的查询,它开始说”这个利好已经被price in了,过去三个月的成交量变化说明…”。这才是有立场的判断。

三套系统

我的起点很程序员:一个Obsidian笔记库,一个跑在服务器上的Hermes Agent,加上”把东西写下来就不怕丢”的朴素直觉。

公理系统:你的认知底色

起点是一个简单的问题:我用AI的时候,到底在想什么?

不是”我想让AI做什么”(那是prompt),是”我拿到AI的输出之后,用什么标准判断好不好”。后者才是真正值钱的。

我从自己的技术决策、投资判断、跟AI协作的交互里提炼了一套公理。最初43条,太多太散,做了三轮审计砍到25条。每一轮做的事情都一样:合并重叠的,删掉只适用于单一场景的,把内容重复的合成一条。

25条,五个领域:

  • AI/Agentic(6条):核心是”IC→管理者心智转变”,你不是在用工具,是在管理一个超强但缺context的下属
  • 技术决策(7条):“基础设施优于组件”、“结果确定性优于过程确定性”
  • 管理工作哲学(4条):“闭环校准”,反馈频率比单次精度重要
  • 信任与验证(3条):“时间锚定防止幻觉”,验证时效性信息
  • 跨域隐喻(5条):“约束悖论”,更大的系统引入更多问题

每条公理下面有判定条件、反例、跟其他公理的交叉引用。Agent每次启动时自动加载这些公理,它就不再给consensus答案了,因为有一个明确的认知滤镜在过滤信息。

LLM Wiki:结构化知识积累

公理解决了”怎么想”,但AI还需要知道”是什么”。

Karpathy提过一个LLM Wiki的模式:用结构化markdown文件作为LLM的外部知识库,知识编译一次,之后直接用。我基于这个思路搭了自己的wiki:

wiki/
├── SCHEMA.md     # 约定和标签分类法
├── index.md      # 所有页面的目录
├── log.md        # 操作日志
├── raw/          # 不可变的原始资料
├── entities/     # 实体页(公司、产品、人)
├── concepts/     # 概念页(技术、方法论)
└── comparisons/  # 对比分析

关键在它跟RAG的区别。RAG每次查询都从原始文档重新检索、重新理解。Wiki把知识编译一次存着:矛盾已经标注,交叉引用已经建好,综合判断已经写下来了。

举个例子。我让Agent跟踪比亚迪的固态电池进展。传统做法是每次都搜一遍新闻。但在wiki模式下,我有个solid-state-battery.md页面,里面已经综合了宁德时代、比亚迪、丰田的技术路线对比,有我自己的判断(“宁德时代在硫化物路线上的先发优势是真实的”),也有标注了争议的地方。Agent拿这个页面去做分析,比从头搜索再综合快得多,也准得多。

页面之间有[[wikilinks]]。固态电池页链接到比亚迪实体页,比亚迪页链接到中国科技股分析,形成网络。Agent做分析时可以顺着链接走,不被局限在单一话题里。

目前20个页面,覆盖科技、投资、哲学、运动健康。不大,但每个页面都有我的判断,不是纯粹的信息搬运。

Skill系统:按需加载

25条公理加20个wiki页面,全塞进context window不现实。

Hermes的Skill系统解决这个问题。每个Skill是针对特定任务类型的context子集:做投资分析加载金融分析框架,写代码加载架构偏好,写博客加载写作风格和发布流程。

跟”按需加载”的思路一致,区别是我的实现更轻量。直接用文件系统组织,Agent根据任务类型自己决定加载什么。

实际运行的时候:

我说”帮我分析一下腾讯这季度财报”,Agent自动加载投资分析相关的公理和wiki里腾讯的实体页。我说”这个bug帮我看看”,它加载调试相关的公理和代码库上下文。我说”把这段分析写成博客”,它加载写作Skill和发布流程。

不需要每次都复制粘贴一堆prompt。

三套系统的关系

公理系统(怎么想)  →  被注入Agent的每次推理
                         ↑
Wiki(是什么)      →  按需加载具体领域知识
                         ↑
Skill(怎么加载)   →  根据任务类型选择加载什么

公理系统是稳定的,我的核心判断标准不会每周变。Wiki是增长的,每吸收一个新来源就多几个页面。Skill是动态的,随着工作流变化而调整。

三者形成循环:公理指导Wiki内容的筛选(什么值得记),Wiki的内容反过来验证公理(如果一条公理反复被新信息证伪,就该更新了),Skill的加载逻辑反映当前的工作重心。

不只是理解你,还要操作你的环境

我之前看到过一个更有系统的方案:从录音转写开始,经过三层精炼,最后蒸馏出axiom。那条路适合认知密度很高、每天做大量决策的人。我走的是草根路线,从”写下来的东西”开始,手动提炼,文件系统就是记忆系统。适合像我这样的程序员,决策频率没那么高,但每次决策涉及的技术上下文很深。

但不管是哪条路,有一个维度很少被提到:跟代码库的整合。Hermes Agent是一个7x24跑在服务器上的进程,能直接读写文件、执行命令、访问数据库。Context基础设施就不只是”让AI更好地理解你”,还包括”让AI更好地操作你的环境”。

我的博客发布流程就是一个Skill:build,deploy到nginx目录,验证。整个流程不需要我参与。你可以让AI帮你写文章,但发布还得自己来。Agent可以直接把整个链路跑完。

几个实操教训

公理不要太多。我从43条砍到25条,每次砍都心疼,但砍完之后Agent反而更准了。Context window里的信号密度变高了,25条每条都有独特价值,比43条有一半互相重复好。

Wiki页面要有你的判断。纯信息任何人都能搜到。如果一个Wiki页面读起来像维基百科摘要,那它没用。它应该读起来像你的笔记,有重点,有观点,有”我觉得这个不对”的地方。

别指望一次到位。公理系统经过三轮审计才稳定。Wiki的内容每次用的时候发现问题就修。Skill的加载逻辑经常调。这些系统的价值在于持续迭代。

稳定性是筛选标准。一个判断如果跨场景、跨时间反复出现并保持一致,它大概率是你认知结构的一部分。不稳定的叫情境反应,稳定的才是你自己。我用这个标准筛公理,如果一条原则上周信这周不信,那它不够格当公理。

为什么这件事值得做

AI的瓶颈已经从”不够聪明”变成”不够了解你”。

模型升级,智能就更便宜一点,你用的模型别人也能用。但你的context是只属于你的。持续投入在贬值的维度(模型智能)上,收益递减;投入在不贬值的维度(个人context)上,收益累积。

过程还有个副产品:你不得不把自己的认知显性化。把”我到底怎么判断”写下来这个过程本身,就让你更了解自己。公理系统做完三轮审计之后,我对自己技术决策偏好的理解比之前清晰了很多。这不是AI给你的东西,这是你给自己的。

25条公理,20个wiki页面,十几个Skill。不大,但是我的。每次AI用这些东西给我有立场的分析,而不是正确的废话,这个投入就值了。


本文的写作过程本身就是这套系统的证明:Agent加载了写作Skill,参考了wiki里关于Agent记忆和公理系统的内容,最后我改了一遍。