← 科研空间 首页

学习路线总览

From Self-Correction To Self-Improving

这四份讲义可以压缩成一条链:纠错一个答案,判断什么是好答案,自己产生奖励/题目/训练信号,自己改 harness/memory/workflow/code/weights,最后必须监控 drift、forgetting 和 deception。

一页压缩

Self-Evolution = Search over Future-Self Updates;update ∈ {answer, reasoning, judge, reward, task, prompt, memory, workflow, code, weights}。


Self-Correction

Verifier/Judge

Proxy Reward

Self-Questioning

Memory

Harness/Weights

Drift Monitor

阅读顺序

怎么读这个系列

Self-Correction 说明模型自我纠错本身并不稳定,必须和 majority vote、外部反馈、verifier baseline 比较。Self-Improving 说明训练信号可以从人类逐渐转向 AI:pseudo-answer、reward model、RLAIF、自出题与自验证会把错误信号写回模型。Harness Engineering 则说明真正的自进化往往发生在外壳层:prompt、memory、workflow、工具、代码与更新规则都可能被改。Drift Monitor 的任务就是在这些更新成为“下一个自己”之前,判断它是否带来目标漂移、遗忘或可欺骗的代理优化。