Phase 4 Plus Complete Report

作用:把 Phase 4 工程冻结之后新增的主线、图件、写作规则和 gate 约束,整理成一份可以直接给导师或合作者阅读的完整当前态报告。 默认 live 入口:results/paper_ready_master_results/paper_ready_results_body.md 当前 package:ADVISOR_PACKAGE_PHASE4_PLUS_20260421


1. Report Scope

这份报告不重写整个三阶段历史,而是专门回答四个问题:

  1. Phase 4 之后到底新增了什么?
  2. 当前哪些结果已经进入默认写作层?
  3. 当前哪些边界必须明确保留?
  4. 当前为什么不应该因为“还可以继续做”就重开 heavy experiments?

2. Phase 4 已经结束,项目进入了后续整合层

这一步很重要,因为 meeting 后的若干 runbook 本来就是阶段性快照。当前真正应当优先服从的是 live summary、paper-ready master results 和 evidence gate,而不是旧文档中更保守的未完成表述。

Phase 4 Plus delivery status matrix


3. Cross-country mainline 现在已经足以构成主结果桥

当前这层证据已经足够支持 a usable cross-country bridge,但还不够支持 a final pooled inference table

Cross-country bridge rows

MTUS wave-1 country deltas

Phase 3 country CI forest

Phase 3 A1 delta by country

当前必须保留的 bridge 边界

  1. UK / USA 是 stable references。
  2. MTUS 仍然只能写成 wave-1 partial evidence
  3. UK stronger lane 只能作为 signal row,不能替代 UK frozen pooled anchor。
  4. pooled 现在是 writable bridge,不是 final pooled baseline table。

4. 机制主线已经成熟,但必须继续写成 stay-versus-transition 语言

当前最重要的解释不是“总 accuracy 高”,而是:

strong aggregate predictability still reflects routine persistence more than solved transition modeling.

Figure 6 transition analysis

Figure 11 deep transition

Figure 12 order versus bag

Figure 5 bootstrap confidence intervals

Figure 8 input-information effect


5. Group B 已经进入可写层,但写法必须带边界和层级

ZA econstat_broad=employed remains a structural coverage boundary because it skipped under both quick and full settings.

Group B writing ladder

Figure 10 dimension importance

Figure 13 role timelines

Figure 14 role comparison

Supplementary Figure 1 deep models by income

当前正确用法是:Figure 10 负责当前 bootstrap-backed stratification anchor,Figure 13 / Figure 14 负责 communication layer,supplementary income figure 负责说明复杂模型 lift 只在更难 subgroup 上局部出现。


6. pooled 与 MTUS 现在已经是 comparison-ready bridge,而不是 prose 空白

这层不是缺 prose,而是 evidence tier 还没被允许升格成 final pooled inference。所以 package 需要把已有桥接证据完整展示出来,而不是用“缺一张终表”来掩盖已有成果。

Phase 2 sample-size delta shift

Phase 2 pooled support versus delta

Phase 3 grouped distribution boxplots


7. next-layer 已经是结果层,不再是伪待办

Next-layer support and boundary evidence

Figure 7 imputation robustness

Supplementary Figure 2 multitask comparison

Supplementary Figure 3 error rate by group


8. 当前 package 的图件系统已经足够丰富,而且是分层组织的

下面这些历史图件不再承担当前主故事,但它们仍然属于必须被保留的图像系统,因为它们解释了早期发现来自哪里、为什么后来叙事会发生迁移。

Figure 1 A-class performance

Figure 2 B-class heatmap

Figure 3 E2B waterfall

Figure 4 E1 model comparison

Figure 9 unified model comparison


9. 为什么当前不该重开 heavy experiments

Evidence gate decision

当前最关键的判断规则是:默认交付已经 ready、cheap sync gap 已关闭,而 heavy experiments 只有在需要更强 claim 时才应该重新打开。


10. 当前最稳的 safe claims

11. 当前必须避免的 claims

12. 推荐图件顺序

13. 当前交付层建议

  1. 默认先用 PHASE4_PLUS_PROJECT_OVERVIEW.pdf 让导师快速把握状态变化。
  2. 若要看完整逻辑,再读本文件对应的 PDF。
  3. 若要系统看图件与索引,再读 PHASE4_PLUS_VISUALIZATION_ATLAS.pdf
  4. 若要抽图进邮件、PPT 或批注文档,可直接从 ORIGINAL_FIGURES/ 取图。