OpenAI搞了個新活:讓ChatGPT自己“坦白從寬”。
這項剛剛公開的研究提出了懺悔訓練Confessions。
核心思路是讓模型在回答完問題后,再單獨生成一份“懺悔報告”,如實匯報自己有沒有偷工減料、鉆空子或者違反指令。

實驗直接在GPT-5-Thinking上進行,結果也確實比較有效:
- 模型犯錯后,多半會坦白。
在11/12個測試場景中,模型至少有一半概率會在“懺悔”中承認錯誤
- 模型在“懺悔”中比在“原回答”里誠實得多。
比如模型故意答錯了題,在原回答里可能裝沒事,但在坦白報告里會主動說 “我剛才故意答錯了”。
- 加強訓練后更誠實了。
雖然GPT-5-Thinking出廠就自帶一定的承認錯誤能力,,但專門訓練后,懺悔準確性又提高了。
- 不影響原任務的表現。
訓練模型 “坦白”,不會讓它原本的回答問題、寫代碼能力變差,相當于額外學會了一個誠實技能。