📚職涯停看聽・知識庫 ← 總部儀表板

📅最後更新：2026/06/08

📑 目錄

觸發條件
問題
考慮過的方案
選擇理由
評分公式（rubric v1.0）
試行管理
影響範圍

RCF-051：收尾七件事 Step 5 新增品質自評欄位（2026-05-21）

觸發條件

Condition 1：修改 HARD STOP 規則（收尾七件事 step 5）

問題

reflection-log 只有定性觀察（Tim 可改善 / Claude 加強優化），無量化維度，無法跨 session 比較品質趨勢。IMP 計數只追蹤系統缺口，不反映單次對話執行品質。

考慮過的方案

方案	結論
A 不強制格式、非強制試行	❌ 數據不一致，10 次分析失效（部分 session 有寫、部分沒寫，無法計算平均）
B 修改 step 5 強制執行（本案）	✅ 採用
C 不做（IMP 計數替代）	❌ IMP 是系統缺口計數，無單次對話粒度，無法回答「這次對話執行品質如何」

選擇理由

試行有效性的前提是數據一致性；非強制 = 數據缺口 = 試行無效。方案 B 確保每次對話都有可比較的數值，10 次後才能做有意義的分析。

評分公式（rubric v1.0）

查照嚴謹度（50分） = 50 × (IAUD 合規層通過項 / 5)
規則遵守（50分） = 50 − (HARD STOP 違反次數 × 15) − (IMP 新增數 × 5)，下限 0
總分 /10 = (查照嚴謹度 + 規則遵守) / 10

分數	對應情境
10	5/5 IAUD + 0 HARD STOP 違反 + 0 IMP 新增
8-9	4/5 IAUD 或 1 IMP 新增
6-7	3/5 IAUD 或 1 HARD STOP 違反
4-5	2/5 IAUD 或 2+ HARD STOP 違反
1-3	重大 HARD STOP（未收尾/跳查照/未 push）

設計說明：

查照嚴謹度基於 IAUD 合規層 5 項客觀通過記錄，不依賴主觀判斷
規則遵守基於對話中可觀察事件（HARD STOP 違反 = Tim 指出或品質自查發現；IMP 新增 = 本次對話記錄新缺口）
捨棄「Tim 滿意度信號」維度：主觀且難以一致量化
捨棄「收尾完整度」維度：reflection-log 寫在步驟 5，步驟 6-7 尚未完成，無法在寫入時評估

試行管理

試行期：從 2026-05-21 起連續 10 次對話 觸發分析：Tim 說「分析品質自評」→ Claude Grep 本次輸出品質自評 → 統計分布（平均值 / 最低值 / 集中區間）→ 輸出至 daily-log.md 當日條目

試行結果判斷標準：

升規（品質指標有鑑別力）：平均 ≤ 8.0（說明評分有識別出真實問題）
廢除（無鑑別力）：分布集中 ≥ 8.5（說明幾乎每次都高分，無法區分好壞）
修正 rubric（量表偏移）：10 次全在 9-10（說明公式門檻設定偏低，需調整係數）

版本追蹤：每條 reflection-log 品質自評須標注 （rubric v1.0），未來 rubric 版本更新時可區分計算

影響範圍

CLAUDE.md 收尾七件事 step 5（HARD STOP）
reports/reflection-log.md header（rubric 說明）
dev/tasks.md（新增 10 次分析追蹤任務）
未影響任何部門 CLAUDE.md（收尾七件事已指針化，自動繼承主文件修改）

← 返回決策記錄