From Self-Correction To Self-Improving

一页压缩

Self-Evolution = Search over Future-Self Updates；update ∈ {answer, reasoning, judge, reward, task, prompt, memory, workflow, code, weights}。

答
Self-Correction判
Verifier/Judge奖
Proxy Reward题
Self-Questioning记
Memory改
Harness/Weights监
Drift Monitor

阅读顺序

第 1 讲 Self-Correction 纠错一个答案：先问模型能不能发现自己错了，再问这种纠错能不能稳定超过多采样 baseline。 第 2 讲 Self-Improving 上 自己产生训练信号：从 pseudo-answer 到 reward model，再到 proposer-solver-verifier 的自训练循环。 第 3 讲 Self-Improving 下 自己改自己：从 prompt、memory、workflow 到参数、更新规则和内在动机。 第 4 讲 Harness Engineering 设计 Agent 的外壳：从规则、工具、权限、工作流、反馈、记忆到可被强模型自动优化的 Harness。

怎么读这个系列

Self-Correction 说明模型自我纠错本身并不稳定，必须和 majority vote、外部反馈、verifier baseline 比较。Self-Improving 说明训练信号可以从人类逐渐转向 AI：pseudo-answer、reward model、RLAIF、自出题与自验证会把错误信号写回模型。Harness Engineering 则说明真正的自进化往往发生在外壳层：prompt、memory、workflow、工具、代码与更新规则都可能被改。Drift Monitor 的任务就是在这些更新成为“下一个自己”之前，判断它是否带来目标漂移、遗忘或可欺骗的代理优化。