Advisor Strategy:小模型干活,大模型把关
2026 年 4 月,Anthropic 发了一个 beta 功能叫 Advisor Strategy。做法很直白:让便宜的小模型(executor)跑任务,跑不动了就调贵的大模型(advisor)拿指导。advisor 只读上下文、给建议,不碰工具、不改代码。
这不是新概念。Aider 在 2024 年 9 月就做了类似的事(Architect/Editor 模式):用 o1 做架构设计,用 DeepSeek 做代码编辑,在 Aider Benchmark 上拿到 85% 的 SOTA。Anthropic 做的事情是把它产品化——变成服务端 API,executor 可以主动请求 advisor 介入,不用人工切换。
为什么这个思路值得认真看
用 AI 写代码或做研究,成本和质量的矛盾一直存在。全用 Opus/Sonnet,效果好人人都满意,但一个复杂任务跑下来几十美元。全用 Haiku/Flash,便宜但遇到需要判断的决策点容易翻车。
Advisor Strategy 的核心赌注是:大部分 token 其实不需要大模型生成。一个典型的 agent 任务里,读文件、搜索、写简单代码占 80% 的步骤,真正需要高判断力的决策点可能只有 20%。让小模型处理那 80%,只在决策点调大模型,成本能降一个数量级,质量不掉甚至更好。
数据说话
目前已有的 benchmark 数据:
| 配置 | 基准 | 分数 | 来源 |
|---|---|---|---|
| Sonnet + Opus advisor | SWE-bench Multilingual | 74.8%(solo 72.1%) | Anthropic |
| Haiku + Opus advisor | BrowseComp | 41.2%(solo 19.7%) | Anthropic |
| o1 + DeepSeek(Aider) | Aider Benchmark | 85% SOTA | Aider |
| GPT-5 + 7B advisor | RuleArena 税务任务 | 53.6%(solo 31.2%) | UC Berkeley |
几个值得注意的点:
弱 executor 提升更大。 Haiku 单独跑 BrowseComp 只有 19.7%,加了 Opus advisor 直接翻倍到 41.2%。Sonnet 本身已经强了,加 advisor 只提了 2.7 个百分点。这说明 advisor 的价值在补短板,不是锦上添花。
UC Berkeley 发现了一个重要特性:advisor 可以跨模型迁移。 用 GPT-4o mini 训练的 7B advisor 模型,照样能提升 GPT-5 的表现。如果这个发现成立,意味着 advisor 的核心能力不在模型大小,而在”提问题的质量”。
注意:以上数据全部来自 Anthropic 或 UC Berkeley,没有第三方独立验证。 Anthropic 有商业动机让自己的产品好看。
和其他多模型策略的区别
多模型协作不止 advisor 一种。容易混淆的有几个:
- Cascade(级联):小模型先跑,跑失败了再升级到大模型。决策发生在失败之后,是被动的。
- Router(路由):系统在推理前判断这个任务该给谁。一次性决策,不再调整。
- MoE(混合专家):每个 token 都有一个 gate 决定激活哪些专家。粒度最细,但发生在模型内部,用户不可控。
Advisor 的区别在于:决策由 executor 自己做,发生在推理过程中。 executor 跑着跑着觉得”这里我需要更高层的判断”,主动调 advisor。灵活性最高,成本也最可控——只在需要的时候才花钱。
| 维度 | Advisor | Cascade | Router | MoE |
|---|---|---|---|---|
| 决策者 | executor 自己 | 系统 | 路由器 | token-level gate |
| 时机 | 推理中 | 失败后 | 推理前 | 每个 token |
| 灵活性 | 最高 | 中 | 中 | 低 |
谁在做
开源社区
Anthropic 公告后 24 小时内,社区就出了第一批实现:
- aivsomkar/advisor-strategy-skill:SKILL.md 插件,兼容 Claude Code、Cursor、Cline、Aider 等主流工具
- LiteLLM (BerriAI):API 代理层注入
advisor-tool-2026-03-01header,最完整的第三方实现 - emanueleielo/advisor-middleware:基于 DeepAgents (LangChain) 的中间件,支持原生和模拟两种模式
- Roo Code:已有 PR 合并,开发中
AI Coding 工具
| 工具 | Advisor 能力 | 说明 |
|---|---|---|
| Claude Code | ✅ 原生 | 服务端 advisor_20260301 工具类型 |
| Aider | ✅ 先驱 | Architect/Editor 模式(2024.9),真正的开拓者 |
| Cursor 2.0 | ✅ 间接 | 多 agent 并行 + Plan Mode |
| Cline | ❌ | 多 provider 但无自动升级机制 |
| Codex CLI | ❌ | 单 agent loop |
各家大厂的态度
Anthropic 是唯一做了服务端 advisor API 的厂商。OpenAI 的 GPT-5 内部有 Router,但是系统预分配,不是 executor 主动请求。Google 的 Gemini CLI 做了客户端智能路由 + Speculative Decoding。DeepSeek 走的是训练时蒸馏路线(R1 → Qwen/Llama),不是推理时协作。国产模型(Qwen、GLM、Moonshot)目前都没有协作 API。
一个判断:advisor pattern 目前是 Anthropic 的独占功能,但这个 pattern 本身是模型无关的。谁先在非 Claude 模型上验证它有效,谁就能吃到跨模型协作的红利。
我想验证的问题
Anthropic 只测了 Claude 栈(Haiku + Opus、Sonnet + Opus)。UC Berkeley 的论文用了 GPT-5,但还没人系统测试过 DeepSeek、GLM 这些国产模型做 executor 的效果。
我的实验设计:
Advisor ↓
Executor → Solo Claude-Opus DeepSeek-Chat GLM-5.1
─────────────────────────────────────────────────────────────
Claude-Haiku ■ ■ ■ ■
DeepSeek-Flash ■ ■ ■ ■
DeepSeek-Chat ■ ■ ■ ■
GLM-5.1 ■ ■ ■ ■
核心问题有三个:
- 跨模型 advisor 是否有效? DeepSeek-Flash 做 executor + Claude-Opus 做 advisor,比 DeepSeek-Flash solo 提升多少?比 Claude-Sonnet solo 呢?
- 国产模型栈内部的 advisor 效果如何? GLM-5.1 + GLM-5.1 advisor(自配合)vs GLM-5.1 + Claude-Opus advisor(跨厂商)。
- 性价比的最优组合在哪? 如果 DeepSeek-Flash + Claude-Opus advisor 的效果接近 Sonnet solo,但成本只有 1/5,那就是一条可部署的路线。
评测集已经准备好了:从 SWE-bench Verified 500 题中分层抽样 20 题(Easy 7 + Medium 7 + Hard 6),覆盖 11 个仓库,seed=42 保证可复现。
什么时候该用 advisor,什么时候不该
该用
- agent 任务步骤多、单次运行成本高。 跑一次 SWE-bench 题,executor 可能调几十次工具。全用 Opus 每题 0.1。
- 任务里”决策”和”执行”可以清晰分开。 写简单函数是执行,判断该用哪个架构是决策。advisor 只在决策点有价值。
- 你已经在用 Claude Code 或类似工具,想降本不降质。
不该用
- 简单问答。 一次交互就能解决的问题,不需要 advisor 开销。
- 对延迟敏感的场景。 advisor 调用增加一次额外的 LLM round trip,可能加几秒延迟。
- executor 模型本身够强。 如果你本来就用 Opus 跑任务,加一个 Opus advisor 的提升很有限(数据也证实了:Sonnet + Opus 只提 2.7pp)。
- 任务没有明确的”决策点”。 纯执行性任务(批量格式转换、简单搜索)里 executor 不会触发 advisor,等于白付 advisor 的 API 成本。
更大的图景
Advisor Strategy 本质上是组织管理的 AI 实现。映射到软件团队:executor 是 IC(独立贡献者),做具体的编码和测试;advisor 是 Staff Engineer,不写代码但帮 IC 做架构决策。你给一个 IC 配一个 Staff Engineer 当顾问,IC 的产出质量会上一个台阶——但 Staff Engineer 的成本只在关键节点产生。
这个 pattern 往更大的方向想:如果 advisor 能力可以被训练成一个小模型(UC Berkeley 的路线),那未来每个人都能有一个专属的”7B advisor”,成本几乎为零,但能在推理时给任何大模型提供高质量指导。到那时候,编排能力会成为比模型参数量更重要的竞争维度。
这也是为什么我在这个方向上投入精力。它指向一个结构性变化:AI 的核心资产正在从模型能力(provider 锁定)向编排能力(用户可控)转移。 谁掌握了跨模型编排,谁就不再被任何一家 provider 绑架。
相关阅读:harness-engineering | agent-architecture | model-routing-fallback