RCF-051:收尾七件事 Step 5 新增品質自評欄位(2026-05-21)
觸發條件
Condition 1:修改 HARD STOP 規則(收尾七件事 step 5)
問題
reflection-log 只有定性觀察(Tim 可改善 / Claude 加強優化),無量化維度,無法跨 session 比較品質趨勢。IMP 計數只追蹤系統缺口,不反映單次對話執行品質。
考慮過的方案
| 方案 | 結論 |
|---|---|
| A 不強制格式、非強制試行 | ❌ 數據不一致,10 次分析失效(部分 session 有寫、部分沒寫,無法計算平均) |
| B 修改 step 5 強制執行(本案) | ✅ 採用 |
| C 不做(IMP 計數替代) | ❌ IMP 是系統缺口計數,無單次對話粒度,無法回答「這次對話執行品質如何」 |
選擇理由
試行有效性的前提是數據一致性;非強制 = 數據缺口 = 試行無效。方案 B 確保每次對話都有可比較的數值,10 次後才能做有意義的分析。
評分公式(rubric v1.0)
- 查照嚴謹度(50分) = 50 × (IAUD 合規層通過項 / 5)
- 規則遵守(50分) = 50 − (HARD STOP 違反次數 × 15) − (IMP 新增數 × 5),下限 0
- 總分 /10 = (查照嚴謹度 + 規則遵守) / 10
| 分數 | 對應情境 |
|---|---|
| 10 | 5/5 IAUD + 0 HARD STOP 違反 + 0 IMP 新增 |
| 8-9 | 4/5 IAUD 或 1 IMP 新增 |
| 6-7 | 3/5 IAUD 或 1 HARD STOP 違反 |
| 4-5 | 2/5 IAUD 或 2+ HARD STOP 違反 |
| 1-3 | 重大 HARD STOP(未收尾/跳查照/未 push) |
設計說明:
- 查照嚴謹度基於 IAUD 合規層 5 項客觀通過記錄,不依賴主觀判斷
- 規則遵守基於對話中可觀察事件(HARD STOP 違反 = Tim 指出或品質自查發現;IMP 新增 = 本次對話記錄新缺口)
- 捨棄「Tim 滿意度信號」維度:主觀且難以一致量化
- 捨棄「收尾完整度」維度:reflection-log 寫在步驟 5,步驟 6-7 尚未完成,無法在寫入時評估
試行管理
試行期:從 2026-05-21 起連續 10 次對話
觸發分析:Tim 說「分析品質自評」→ Claude Grep 本次輸出品質自評 → 統計分布(平均值 / 最低值 / 集中區間)→ 輸出至 daily-log.md 當日條目
試行結果判斷標準:
- 升規(品質指標有鑑別力):平均 ≤ 8.0(說明評分有識別出真實問題)
- 廢除(無鑑別力):分布集中 ≥ 8.5(說明幾乎每次都高分,無法區分好壞)
- 修正 rubric(量表偏移):10 次全在 9-10(說明公式門檻設定偏低,需調整係數)
版本追蹤:每條 reflection-log 品質自評須標注 (rubric v1.0),未來 rubric 版本更新時可區分計算
影響範圍
CLAUDE.md收尾七件事 step 5(HARD STOP)reports/reflection-log.mdheader(rubric 說明)dev/tasks.md(新增 10 次分析追蹤任務)- 未影響任何部門 CLAUDE.md(收尾七件事已指針化,自動繼承主文件修改)