项目:
Yucheng_Project
阶段:Phase 3(MTUS cross-national)
对齐基准:PHASE1_COMPLETE_REPORT.md的“主图 + 稳健性图 + 对表图”结构
更新时间:2026-04-03
Phase 3 的可视化已从“主表完整但图证不足”扩展为一套 12 张 的成体系图组,而且这套图组是基于补齐 KR 两个 A1 fine 补跑后重新生成的完整 summary,不是旧版 38 条 A1 记录的残缺版本。
当前这套图链已经覆盖:
也就是说,Phase 3 不仅主表完整,图链也已经能够独立支撑完整叙事。
目录:results/phase3_figures/
| 图号 | 文件 | 在主报告中的位置 | 作用 |
|---|---|---|---|
| P3-F1 | phase3_fig1_a1_delta_by_country.png |
A1 主线 | 各国 A1 delta(SGD vs Transformer) |
| P3-F2 | phase3_fig2_fine_vs_coarse_transformer.png |
敏感性 | fine vs coarse 的国家级对照 |
| P3-F3 | phase3_fig3_b1_group_delta_scatter.png |
B1 grouped | age/sex 分组点云分布 |
| P3-F4 | phase3_fig4_cross_phase_transformer_vs_persistence.png |
统一对表 | Phase1/2/3 主线对照 |
| P3-F5 | phase3_fig5_a1_seed_stability.png |
A1 主线 | Transformer seed 稳定性 |
| P3-F6 | phase3_fig6_a1_quick_vs_full_transformer.png |
quick/full | A1 quick -> full uplift |
| P3-F7 | phase3_fig7_b1_country_groupby_heatmap.png |
B1 grouped | country x group_by 热力图 |
| P3-F8 | phase3_fig8_b1_specific_group_heatmaps.png |
B1 grouped | specific subgroup 热力图 |
| P3-F9 | phase3_fig9_b1_quick_vs_full_delta.png |
quick/full | B1 quick -> full uplift |
| P3-F10 | phase3_fig10_sample_size_vs_delta.png |
稳健性 | sample size 与 delta 的关系 |
| P3-F11 | phase3_fig11_a1_country_ci_forest.png |
A1 主线 | country mean + seed + CI 的 forest-style 视图 |
| P3-F12 | phase3_fig12_b1_distribution_boxplots.png |
B1 grouped | age_bin/sex 的 grouped full-run 分布箱线图 |
生成脚本:generate_phase2_phase3_figures.py
Phase 3 的图链看上去比 Phase 1 更“克制”,但这不是因为工作量更小,而是因为最终汇报层把大量 country / seed / group 结果压缩进了更少但更聚焦的图里。
就当前 results/ 目录而言,Phase 3 的核心足迹至少包括:
105 个 phase3_mtus_a1 JSON;522 个 phase3_mtus_b1 JSON;11 个 phase3_cross_country CSV;12 张 phase3_figures PNG。也就是说,12 张最终图对应的不是 12 个实验,而是 627 个 MTUS 结果 JSON 加上一层 cross-country summary / master table 汇总。
这也是为什么 Phase 3 的可视化策略必须更“精选”:
旧版 Phase 3 的最大问题,并不是“没有结果”,而是:
这次补齐后的提升很明确:
现在这 12 张图已经足以回答导师最可能追问的核心问题:
如果进一步把图链与 full summary 合并来看,这套“完整性”现在还能被更精确地量化:A1 Transformer 的 country mean 已达到 7/7 国家为正,而 age_bin/sex 的 grouped full-run 切片已达到 35/35 个 country×group cells 为正。因此,这 12 张图现在承担的已经不是“试着讲故事”,而是把正式结论压缩成最可审阅的证据链。
如果继续往前推进,重点也只会落在表达层,而不会改变“当前版本已经完整”的判断:
这些内容属于投稿版式层的表达优化,不影响当前版本作为正式阶段性汇报材料的完整性。
如果拿 Phase 1 的 17+ 张图作标准,Phase 3 现在仍然更精简;但两者的任务也不同:
因此更准确的判断是:
下述表述可直接用于邮件摘要、封面说明或口头汇报:
Phase 3 已形成完整的 12 图主链,并且全部基于最新的完整 summary 重生成,KR 的两个 A1 fine 补跑也已正式进入汇总。
这些图共同支持一个清晰结论:在 7 国 full runs 下,Transformer 相对 persistence 的正增益不仅在总体样本中成立,在age_bin和sex分组中也保持稳定,而且 fine 比 coarse 更能承载项目主叙事。