Advisor Strategy：小模型干活，大模型把关

2026 年 4 月，Anthropic 发了一个 beta 功能叫 Advisor Strategy。做法很直白：让便宜的小模型（executor）跑任务，跑不动了就调贵的大模型（advisor）拿指导。advisor 只读上下文、给建议，不碰工具、不改代码。

这不是新概念。Aider 在 2024 年 9 月就做了类似的事（Architect/Editor 模式）：用 o1 做架构设计，用 DeepSeek 做代码编辑，在 Aider Benchmark 上拿到 85% 的 SOTA。Anthropic 做的事情是把它产品化——变成服务端 API，executor 可以主动请求 advisor 介入，不用人工切换。

为什么这个思路值得认真看

用 AI 写代码或做研究，成本和质量的矛盾一直存在。全用 Opus/Sonnet，效果好人人都满意，但一个复杂任务跑下来几十美元。全用 Haiku/Flash，便宜但遇到需要判断的决策点容易翻车。

Advisor Strategy 的核心赌注是：大部分 token 其实不需要大模型生成。一个典型的 agent 任务里，读文件、搜索、写简单代码占 80% 的步骤，真正需要高判断力的决策点可能只有 20%。让小模型处理那 80%，只在决策点调大模型，成本能降一个数量级，质量不掉甚至更好。

数据说话

目前已有的 benchmark 数据：

配置	基准	分数	来源
Sonnet + Opus advisor	SWE-bench Multilingual	74.8%（solo 72.1%）	Anthropic
Haiku + Opus advisor	BrowseComp	41.2%（solo 19.7%）	Anthropic
o1 + DeepSeek（Aider）	Aider Benchmark	85% SOTA	Aider
GPT-5 + 7B advisor	RuleArena 税务任务	53.6%（solo 31.2%）	UC Berkeley

几个值得注意的点：

弱 executor 提升更大。 Haiku 单独跑 BrowseComp 只有 19.7%，加了 Opus advisor 直接翻倍到 41.2%。Sonnet 本身已经强了，加 advisor 只提了 2.7 个百分点。这说明 advisor 的价值在补短板，不是锦上添花。

UC Berkeley 发现了一个重要特性：advisor 可以跨模型迁移。 用 GPT-4o mini 训练的 7B advisor 模型，照样能提升 GPT-5 的表现。如果这个发现成立，意味着 advisor 的核心能力不在模型大小，而在”提问题的质量”。

注意：以上数据全部来自 Anthropic 或 UC Berkeley，没有第三方独立验证。 Anthropic 有商业动机让自己的产品好看。

和其他多模型策略的区别

多模型协作不止 advisor 一种。容易混淆的有几个：

Cascade（级联）：小模型先跑，跑失败了再升级到大模型。决策发生在失败之后，是被动的。
Router（路由）：系统在推理前判断这个任务该给谁。一次性决策，不再调整。
MoE（混合专家）：每个 token 都有一个 gate 决定激活哪些专家。粒度最细，但发生在模型内部，用户不可控。

Advisor 的区别在于：决策由 executor 自己做，发生在推理过程中。 executor 跑着跑着觉得”这里我需要更高层的判断”，主动调 advisor。灵活性最高，成本也最可控——只在需要的时候才花钱。

维度	Advisor	Cascade	Router	MoE
决策者	executor 自己	系统	路由器	token-level gate
时机	推理中	失败后	推理前	每个 token
灵活性	最高	中	中	低

谁在做

开源社区

Anthropic 公告后 24 小时内，社区就出了第一批实现：

aivsomkar/advisor-strategy-skill：SKILL.md 插件，兼容 Claude Code、Cursor、Cline、Aider 等主流工具
LiteLLM (BerriAI)：API 代理层注入 advisor-tool-2026-03-01 header，最完整的第三方实现
emanueleielo/advisor-middleware：基于 DeepAgents (LangChain) 的中间件，支持原生和模拟两种模式
Roo Code：已有 PR 合并，开发中

AI Coding 工具

工具	Advisor 能力	说明
Claude Code	✅ 原生	服务端 `advisor_20260301` 工具类型
Aider	✅ 先驱	Architect/Editor 模式（2024.9），真正的开拓者
Cursor 2.0	✅ 间接	多 agent 并行 + Plan Mode
Cline	❌	多 provider 但无自动升级机制
Codex CLI	❌	单 agent loop

各家大厂的态度

Anthropic 是唯一做了服务端 advisor API 的厂商。OpenAI 的 GPT-5 内部有 Router，但是系统预分配，不是 executor 主动请求。Google 的 Gemini CLI 做了客户端智能路由 + Speculative Decoding。DeepSeek 走的是训练时蒸馏路线（R1 → Qwen/Llama），不是推理时协作。国产模型（Qwen、GLM、Moonshot）目前都没有协作 API。

一个判断：advisor pattern 目前是 Anthropic 的独占功能，但这个 pattern 本身是模型无关的。谁先在非 Claude 模型上验证它有效，谁就能吃到跨模型协作的红利。

我想验证的问题

Anthropic 只测了 Claude 栈（Haiku + Opus、Sonnet + Opus）。UC Berkeley 的论文用了 GPT-5，但还没人系统测试过 DeepSeek、GLM 这些国产模型做 executor 的效果。

我的实验设计：

                    Advisor ↓
Executor →       Solo   Claude-Opus   DeepSeek-Chat   GLM-5.1
─────────────────────────────────────────────────────────────
Claude-Haiku       ■        ■             ■             ■
DeepSeek-Flash     ■        ■             ■             ■
DeepSeek-Chat      ■        ■             ■             ■
GLM-5.1            ■        ■             ■             ■

核心问题有三个：

跨模型 advisor 是否有效？ DeepSeek-Flash 做 executor + Claude-Opus 做 advisor，比 DeepSeek-Flash solo 提升多少？比 Claude-Sonnet solo 呢？
国产模型栈内部的 advisor 效果如何？ GLM-5.1 + GLM-5.1 advisor（自配合）vs GLM-5.1 + Claude-Opus advisor（跨厂商）。
性价比的最优组合在哪？ 如果 DeepSeek-Flash + Claude-Opus advisor 的效果接近 Sonnet solo，但成本只有 1/5，那就是一条可部署的路线。

评测集已经准备好了：从 SWE-bench Verified 500 题中分层抽样 20 题（Easy 7 + Medium 7 + Hard 6），覆盖 11 个仓库，seed=42 保证可复现。

什么时候该用 advisor，什么时候不该

该用

agent 任务步骤多、单次运行成本高。 跑一次 SWE-bench 题，executor 可能调几十次工具。全用 Opus 每题 $1 + ，用 H aik u + Op u s a d v i sor 可能$ 0.1。
任务里”决策”和”执行”可以清晰分开。 写简单函数是执行，判断该用哪个架构是决策。advisor 只在决策点有价值。
你已经在用 Claude Code 或类似工具，想降本不降质。

不该用

简单问答。 一次交互就能解决的问题，不需要 advisor 开销。
对延迟敏感的场景。 advisor 调用增加一次额外的 LLM round trip，可能加几秒延迟。
executor 模型本身够强。 如果你本来就用 Opus 跑任务，加一个 Opus advisor 的提升很有限（数据也证实了：Sonnet + Opus 只提 2.7pp）。
任务没有明确的”决策点”。 纯执行性任务（批量格式转换、简单搜索）里 executor 不会触发 advisor，等于白付 advisor 的 API 成本。

更大的图景

Advisor Strategy 本质上是组织管理的 AI 实现。映射到软件团队：executor 是 IC（独立贡献者），做具体的编码和测试；advisor 是 Staff Engineer，不写代码但帮 IC 做架构决策。你给一个 IC 配一个 Staff Engineer 当顾问，IC 的产出质量会上一个台阶——但 Staff Engineer 的成本只在关键节点产生。

这个 pattern 往更大的方向想：如果 advisor 能力可以被训练成一个小模型（UC Berkeley 的路线），那未来每个人都能有一个专属的”7B advisor”，成本几乎为零，但能在推理时给任何大模型提供高质量指导。到那时候，编排能力会成为比模型参数量更重要的竞争维度。

这也是为什么我在这个方向上投入精力。它指向一个结构性变化：AI 的核心资产正在从模型能力（provider 锁定）向编排能力（用户可控）转移。 谁掌握了跨模型编排，谁就不再被任何一家 provider 绑架。

Jason's Blog

Advisor Strategy：小模型干活，大模型把关

Advisor Strategy：小模型干活，大模型把关

为什么这个思路值得认真看

数据说话

和其他多模型策略的区别

谁在做

开源社区

AI Coding 工具

各家大厂的态度

我想验证的问题

什么时候该用 advisor，什么时候不该

该用

不该用

更大的图景

目录