项目:
Yucheng_Project
阶段:Phase 2(US / ATUS)
对齐基准:PHASE1_COMPLETE_REPORT.md的“图表嵌入 + 章节叙事 + 方法解释”风格
更新时间:2026-04-03
Phase 2 的可视化已经不再是“有几张零散图”,而是形成了一套可以直接嵌入正式主报告的 10 图链:
换句话说,Phase 2 已具备与 Phase 1 同口径的“图驱动叙事”能力。虽然总图量仍少于 Phase 1,但证据结构已经足以支撑导师审阅、阶段性讨论,以及对 negative delta / sample-size effect 的更成熟解释。
目录:results/phase2_figures/
| 图号 | 文件 | 在主报告中的位置 | 作用 |
|---|---|---|---|
| P2-F1 | phase2_fig1_us_baseline_activity_location.png |
A1 baseline | US activity/location 基准总览 |
| P2-F2 | phase2_fig2_us_stratified_activity.png |
B1 grouped | quick vs pooled 的分组对照 |
| P2-F3 | phase2_fig3_us_pooled_group_delta.png |
pooled 复核 | 各分组 delta(按通道拆开) |
| P2-F4 | phase2_fig4_uk_vs_us_activity_baseline.png |
跨阶段对表 | UK vs US activity 主线对照 |
| P2-F5 | phase2_fig5_us_baseline_macrof1_delta.png |
A1 baseline | baseline 的 Macro-F1 与 delta 分解 |
| P2-F6 | phase2_fig6_us_pooled_delta_heatmap.png |
pooled 复核 | pooled heatmap,突出位置与活动通道差异 |
| P2-F7 | phase2_fig7_us_methodology_sensitivity.png |
稳健性 | fine/coarse、10/30min、weekday/full |
| P2-F8 | phase2_fig8_us_sample_size_delta_shift.png |
pooled 复核 | sample-size correction 证据图 |
| P2-F9 | phase2_fig9_us_pooled_delta_uncertainty.png |
pooled 复核 | 用 grouped n_test 形成的保守 support-width 区间 |
| P2-F10 | phase2_fig10_us_pooled_support_vs_delta.png |
pooled 复核 | 全部 pooled 切片的 support-size map |
生成脚本:generate_phase2_phase3_figures.py
如果只看可视化报告,很容易把“10 张图”误读成“工作量大概也就 10 组实验”。这并不准确。Phase 2 的图链本质上是最终汇报层,它压缩的是一串更长的 US 结果矩阵。
当前 results/ 中与 Phase 2 直接相关的结果层至少包括:
49 个原始实验 JSON(其中 41 个完成结果 + 8 个 skipped_small_group 占位);2 个 tracker JSON;6 个 phase2_summary CSV + 1 个 summary 说明 Markdown;10 张正式 PNG 图;其中,证据层现在可以明确拆成四层:
income/sex/age_bin/is_weekend/survey_period 的 activity/location grouped 矩阵;results/phase2_summary/,把 JSON 结果统一汇总成可被绘图脚本直接复用的表层。因此,这 10 张图不是 10 次运行,而是对 US baseline、grouped quick、pooled grouped、full-support、methodology sensitivity 与 UK-US 对表的最终压缩表达。
旧版 Phase 2 的问题不是“完全没图”,而是图不够成体系:
这次补齐后的优势在于:
目前这 10 张图已经能回答导师最可能追问的几个问题:
如果再把图链和 summary 层一起量化,当前 Phase 2 的“证据已经完整”并不是泛泛而谈:pooled activity 的 grouped layer 现在已经是 11 个切片里 10 个为正,均值约 +0.33pp;真正需要谨慎书写的,只剩像 income_low 这样贴近零附近的小残差,而不再是 quick 阶段那种视觉上非常夸张的大负值。
如果继续往前推进,重点也只会落在表达层,而不会改变“当前版本已经完整”的判断:
这些内容属于投稿版式层的表达优化,不影响当前版本作为正式阶段性汇报材料的完整性。
下述表述可直接用于邮件摘要、封面说明或口头汇报:
Phase 2 已形成完整的 10 图主链:baseline、误差分解、quick-vs-pooled 分组对照、pooled delta、heatmap、方法稳健性、样本量修正、pooled support-width、support-size map,以及 UK-US 主线对表。
这些图共同支持一个稳定结论:US 中 persistence 依旧强,Transformer 的额外增益在 quick 阶段未必立即显形,但在 pooled 与更充分样本下会呈现出更稳定的正向证据。