一页压缩
Self-Evolution = Search over Future-Self Updates;update ∈ {answer, reasoning, judge, reward, task, prompt, memory, workflow, code, weights}。
答
Self-Correction判
Verifier/Judge奖
Proxy Reward题
Self-Questioning记
Memory改
Harness/Weights监
Drift Monitor
Self-Correction判
Verifier/Judge奖
Proxy Reward题
Self-Questioning记
Memory改
Harness/Weights监
Drift Monitor
阅读顺序
第 1 讲
Self-Correction
纠错一个答案:先问模型能不能发现自己错了,再问这种纠错能不能稳定超过多采样
baseline。
第 2 讲
Self-Improving 上
自己产生训练信号:从 pseudo-answer 到 reward model,再到
proposer-solver-verifier 的自训练循环。
第 3 讲
Self-Improving 下
自己改自己:从 prompt、memory、workflow
到参数、更新规则和内在动机。
第 4 讲
Harness Engineering
设计 Agent
的外壳:从规则、工具、权限、工作流、反馈、记忆到可被强模型自动优化的
Harness。
怎么读这个系列
Self-Correction 说明模型自我纠错本身并不稳定,必须和 majority vote、外部反馈、verifier baseline 比较。Self-Improving 说明训练信号可以从人类逐渐转向 AI:pseudo-answer、reward model、RLAIF、自出题与自验证会把错误信号写回模型。Harness Engineering 则说明真正的自进化往往发生在外壳层:prompt、memory、workflow、工具、代码与更新规则都可能被改。Drift Monitor 的任务就是在这些更新成为“下一个自己”之前,判断它是否带来目标漂移、遗忘或可欺骗的代理优化。