Phase 3 完整技术报告:MTUS 多国外部效度验证

项目:Yucheng_Project
阶段:Phase 3(MTUS cross-national validation)
数据:MTUS 7 国 full runs + 3 seeds
主任务:activity fine / coarse + B1 age_bin / sex
结果规模:A1 fine 42 条完整记录,B1 full 105 条完整记录
加权测试规模:31,425,108 个 test windows
可视化:12 张
更新时间:2026-04-03
状态:Phase 3 实验、汇总、对表、图链与 Markdown 已全部补齐 实验足迹:627 个 MTUS 结果 JSON + 11 个 cross-country CSV + 12 张最终主图


目录

  1. 执行摘要
  2. Phase 3 在整个项目中的角色:从可迁移性走向外部效度
  3. 实验矩阵、完成度与数据完整性修正
  4. A1 主线结果:跨国 baseline 与模型额外增益
  5. quick 到 full:为什么正式批次比 quick 更有说服力
  6. B1 分组结果:群体层面的稳定正增益是否存在
  7. 敏感性分析:fine 为什么比 coarse 更适合作为主叙事
  8. 与 Phase 1 / Phase 2 的统一对表:三阶段主叙事终于闭环
  9. 可视化资产与报告成熟度评估
  10. 方法论反思与边界条件
  11. 可复现性与交付收尾
  12. 结论:Phase 3 现在能支撑怎样的论文叙事
  13. 附录:图表索引与关键文件

1) 执行摘要

Phase 3 的意义,不是“再多跑几个国家”,而是要回答:当我们把 Phase 1 的框架真正推进到多国条件下,它还能不能站住

当前这份增强版报告基于已经刷新后的完整 summary,而不是旧版不完整汇总。最关键的结果可以概括为五条:

  1. A1 fine 已形成完整的 42 条记录。此前 summary 只统计到 38 条;KR 的 s42s123 两个补跑现已正式纳入 phase3_a1_activity_summary.csv,并同步刷新了主图与 uk_us_mtus_master_table.csv
  2. 在 MTUS 7 国 full runs 中,Transformer 对 persistence 的加权增益为 +0.44pp,显著高于 SGD 的 +0.09pp。 这说明在更强的跨国异质环境中,深度序列模型依然能学到一部分惯性之外的额外结构。
  3. Transformer 在 7 国 A1 主线上全部为正增益。 其中国别强度排序大致为 ZA(+0.76pp)> NL(+0.58pp)> KR(+0.55pp)> ES(+0.32pp)> IT(+0.27pp)> FR(+0.19pp)> CA(+0.15pp)。
  4. B1 的 age_binsex 两条主分组线,在 full runs 下也全部转为稳定正增益。 换句话说,Phase 3 的模型优势不是只在总体样本里存在,而是能够进入社会分层切片。
  5. fine 始终比 coarse 更有信息量。 coarse 的加权增益只有 +0.16pp,明显低于 fine 的 +0.44pp。这意味着 coarse 可以作为稳健性补充,但不应取代 fine 成为主叙事。

用一句更适合论文的方式总结:

Phase 3 证明,persistence 仍然是强基线,但它不是跨国条件下的绝对天花板;在足够样本、合理 harmonization 与正式 full runs 条件下,Transformer 可以稳定地给出小而真实的正增益。


2) Phase 3 在整个项目中的角色:从可迁移性走向外部效度

2.1 三阶段的逻辑递进

如果把整个项目按“论证强度”理解,那么三阶段的角色可以总结为:

因此,Phase 3 的评价标准并不是“分数是否高于 UK”,而是:

  1. 在更复杂、更异质、更不统一的多国条件下,核心机制是否仍然成立;
  2. Transformer 相对 persistence 的优势是否还有稳定痕迹;
  3. 这些优势是否只存在于总体样本,还是也能进入分组切片;
  4. fine/coarse、quick/full、country/group 这些层次是否能形成一致的解释链。

2.2 为什么 Phase 3 必须主动收窄主线

Phase 3 并没有试图把 Phase 1 的全部多通道 richness 原封不动搬到 MTUS 上。相反,它做了一个更成熟的取舍:

这种“收窄”不是退让,而是保证外部效度研究能够站得住的前提。Phase 3 的价值正在于:在最小共识口径上把结论做扎实,而不是在多国数据质量不一致的前提下制造表面上的华丽对称。


3) 实验矩阵、完成度与数据完整性修正

3.1 正式运行范围

Phase 3 覆盖的国家为:

每个国家采用三组随机种子:

主矩阵包含:

3.1.1 为什么最终主文只放 12 张图,但背后远不止 12 个实验

Phase 3 的最终呈现采用的是“正式汇报层压缩”逻辑。也就是说,主文中的 12 张图不是 12 次实验,而是对多国、多 seed、多 group 结果矩阵的精选投影。

从当前 results/ 目录回看,Phase 3 的核心产物至少包括:

层级 结果足迹 说明
phase3_mtus_a1 105 个 JSON 含 A1 fine / coarse、国家、seed、模型等正式运行结果
phase3_mtus_b1 522 个 JSON 含 grouped matrices、quick/full、country/group 组合结果
phase3_cross_country 11 个 CSV A1/B1 summary、coarse summary、master table 等汇总层
phase3_figures 12 张 PNG 最终正式图链

因此,Phase 3 在导师包里看起来是“12 张图 + 一份主报告”,并不是因为工作量有限,而是因为627 个结果 JSON 与 11 个 cross-country CSV 被主动压缩成一条可读、可判、可复核的 12 图主链。这正是正式汇报材料应有的组织方式,而不是实验执行量的上限。

3.2 KR 补跑已经真正“入表”

Phase 3 的一个关键修正是:KR 的 A1-fine s42s123 补跑文件不仅存在,而且已经正式写入 summary。

已核验文件:

这一步之所以重要,是因为旧版 summary 只有 38 条 A1 fine 记录,容易造成“文档说补齐了,但汇总表并没补齐”的尴尬。现在这个问题已经修正:

3.3 Phase 3 的完成度对照

工作包 内容 状态
WP1 MTUS data audit
WP2 loader + harmonization
WP3 mapping freeze
WP4 A1 baseline matrix
WP5 B1 grouped matrix
WP6 UK-US-MTUS integrated comparison
WP7 narrative packaging
WP8 repro & handoff

3.4 为什么这次“补齐 summary”对报告质量很关键

Phase 3 本来就承担“最后一环”的角色,因此它不能允许“主文说 7 国 3 seeds 全部完成,但 summary 仍然漏两条”的轻微不一致。即便这个问题对最终结论幅度影响未必巨大,它也会削弱报告的可信度。

现在这一修正完成后,Phase 3 报告终于具备了一个正式项目应有的状态:


4) A1 主线结果:跨国 baseline 与模型额外增益

4.1 加权总体:正式 full runs 下的主结论

先看 Phase 3 最核心的加权主表:

模型 加权 Accuracy 加权 Persistence Δ vs Persistence 加权 Macro-F1 总 n_test
SGD 83.73% 83.65% +0.09pp 74.83% 31,425,108
Transformer 84.09% 83.65% +0.44pp 75.77% 31,425,108

这个结果和旧版写法最大的不同,是它现在基于完整 42 条 A1 fine 记录。更新后的 Phase 3 不再是“接近完成”,而是已经真正完成了正式汇总。

发现 4.1.1

在多国条件下,persistence 依然极强。这说明我们在 Phase 1 和 Phase 2 里看到的惯性结构,在跨国场景里并没有消失。

发现 4.1.2

与此同时,Transformer 仍然能够给出 +0.44pp 的稳定正增益,而 SGD 只有 +0.09pp。这意味着:

4.2 各国 A1 增益:不是某一国特例,而是 7 国全为正

Phase 3 Figure 1: A1 country deltas

国家 SGD mean Δ Transformer mean Δ
CA +0.03pp +0.15pp
ES +0.04pp +0.32pp
FR -0.00pp +0.19pp
IT +0.03pp +0.27pp
KR +0.16pp +0.55pp
NL +0.05pp +0.58pp
ZA +0.14pp +0.76pp

发现 4.2.1

Transformer 在 7 国 A1 主线上全部为正增益,这一点非常重要。因为 Phase 3 的真正目标从来不是“某一国分数特别高”,而是证明在跨国异质条件下,正增益的方向仍然保留下来

发现 4.2.2

国别差异并不小。ZA、NL、KR 的 Transformer uplift 最强,说明这些国家的数据里保留了更多 fine-grained、非纯惯性、但又可被序列模型利用的结构。

发现 4.2.3

FR 的 SGD 近乎零甚至略负,而 Transformer 仍为正。这强化了一个贯穿整个项目的结论:一旦离开单国、进入更异质的数据条件,浅层模型更容易失稳,而 Transformer 的优势会更明显地体现为“更接近惯性上限,或略微超出它”。

4.3 seed 稳定性:增益不是偶然 seed 的产物

Phase 3 Figure 5: seed stability

如果一个跨国结果只在某个随机种子上有效,那么它的论文价值非常有限。因此,这张图专门用来回答“是不是 seed 偶然”的质疑。

发现 4.3.1

Transformer 在各国的增益并不是靠单个 seed 撑起来的。无论是 CA 这种小幅正值国家,还是 ZA / KR / NL 这种较强 uplift 国家,seed 间波动都没有把均值拖回到零附近。

发现 4.3.2

这使得 Phase 3 的论证层级上升了一档:

这对导师和审稿人都很重要,因为它意味着 Phase 3 的主结论不是某次训练的偶然波动。

4.4 country-level CI forest:国家排序与不确定性一起看,主结论更稳

Phase 3 Figure 11: country CI forest

如果只给出均值柱状图,读者仍可能追问:这些国家差异到底稳不稳,还是只是 3 个 seed 的偶然起伏?这张 forest-style 图把国家均值、seed 点位与近似 95% CI 放进同一张图里,因此它比单纯的柱状图更接近论文级表达。

发现 4.4.1

所有国家的 Transformer mean delta 都仍然位于零线上方,而且 seed 点位没有把任何国家的均值拉回零以下。也就是说,“7 国全为正”不是口号,而是在均值、seed 与区间三层上都一致成立的结构。

发现 4.4.2

ZA、NL、KR 依旧形成最强 uplift 梯队,CA 则保持最小但稳定的正值。这个排序很重要,因为它表明国别差异并不是“有没有增益”的差异,而是“增益幅度有多大”的差异。换句话说,Phase 3 的国家异质性是强弱差异,不是方向分裂


5) quick 到 full:为什么正式批次比 quick 更有说服力

5.1 quick -> full 的国家级提升

Phase 3 Figure 6: quick vs full A1

国家 quick Δ full Δ uplift
CA +0.14pp +0.15pp +0.01pp
ES +0.19pp +0.32pp +0.13pp
FR +0.06pp +0.19pp +0.13pp
IT +0.00pp +0.27pp +0.26pp
KR +0.06pp +0.55pp +0.49pp
NL +0.07pp +0.58pp +0.51pp
ZA +0.26pp +0.76pp +0.50pp

发现 5.1.1

full runs 在几乎所有国家上都明显提升了 Transformer 相对 persistence 的增益,其中 KR、NL、ZA 的提升最明显。这再次支持了一个贯穿 Phase 2 到 Phase 3 的关键方法论判断:

quick 的作用是快速筛方向,而不是替代正式结论。

发现 5.1.2

尤其在 KR、NL、ZA 这些 uplift 较高国家,quick 只能告诉我们“有正值苗头”,而 full 才让这个苗头长成足以写进正式报告的稳定模式。

5.2 sample size 与 delta 的关系

Phase 3 Figure 10: sample size vs delta

这张图是 Phase 3 报告里非常关键的一张补充图,因为它把“规模与增益”的关系显式画出来了。

发现 5.2.1

A1 国家层面的结果显示,较大的 test windows 往往伴随着更稳定、也更容易显形的正 delta。但这不是线性单调关系,而是“有足够规模后,增益更不容易被噪声淹没”。

发现 5.2.2

B1 的 grouped scatter 更能说明问题:即便是 group cut 后的切片,只要样本量达到一定规模,Transformer 相对 persistence 的正值仍可以保留下来。

这正是 Phase 3 对 Phase 2 的一个强修正:


6) B1 分组结果:群体层面的稳定正增益是否存在

6.1 grouped delta 的整体分布

Phase 3 Figure 3: B1 grouped scatter

这张图先给出最核心的视觉印象:age_binsex 两个维度,在 full runs 下的点云都已经整体位于零线上方。

6.2 按分组维度汇总

维度 full runs mean Δ 解释
age_bin 63 +0.37pp 年龄切片中仍可学到额外序列结构
sex 42 +0.39pp 性别切片也保留了正增益

发现 6.2.1

这意味着 Transformer 的优势不只是“大样本总体平均出来的”,而是能够真正穿透到群体层面的切片中。

6.3 按国家与维度汇总

Phase 3 Figure 7: country x dimension heatmap

国家 age_bin mean Δ sex mean Δ
CA +0.12pp +0.13pp
ES +0.34pp +0.33pp
FR +0.18pp +0.18pp
IT +0.26pp +0.24pp
KR +0.54pp +0.57pp
NL +0.54pp +0.57pp
ZA +0.64pp +0.71pp

发现 6.3.1

各国的 grouped uplift 梯度与 A1 主线非常一致:ZA、KR、NL 依旧最强。这说明国别差异并不是某个单独实验环节的偶然,而是贯穿总体与分组两层分析的一致结构。

发现 6.3.2

sex 的 mean delta 略高于 age_bin,但差距并不大。这表明 Phase 3 可以把两者都作为稳定分组主线,而无需强行选一个、放弃另一个。

6.4 更细的 subgroup 热力图

Phase 3 Figure 8: specific group heatmaps

按具体 subgroup 聚合后,平均 delta 如下:

分组维度 subgroup mean Δ
age_bin young +0.41pp
age_bin middle +0.41pp
age_bin old +0.31pp
sex female +0.38pp
sex male +0.40pp

发现 6.4.1

old 的平均 uplift 略低于 young / middle,但仍然稳稳为正。这意味着 Phase 3 不需要用“只有年轻组有效”这种脆弱叙事来支撑自己;它可以更稳妥地说:不同 subgroup 的增益幅度有差异,但方向高度一致。

发现 6.4.2

malefemale 的 uplift 也都为正,且差距不大。这使得 Phase 3 在 grouped 层面可以避免陷入过度性别化解读,而把重点放在“正增益跨组保留”这个更稳的结论上。

6.5 quick -> full 的 grouped 修正更能说明问题

Phase 3 Figure 9: B1 quick vs full

几个最有代表性的修正如下:

国家-维度 quick Δ full Δ uplift
KR-age_bin -0.49pp +0.54pp +1.03pp
NL-age_bin -0.21pp +0.54pp +0.76pp
ZA-age_bin -0.07pp +0.64pp +0.71pp
NL-sex -0.12pp +0.57pp +0.68pp
KR-sex -0.04pp +0.57pp +0.61pp

发现 6.5.1

如果只看 quick,B1 中很多国家和切片会显得“不稳定甚至略负”;但一旦进入正式 full runs,这些结果系统性地转为正值。这个模式与 Phase 2 高度呼应,但在 Phase 3 中被放大得更清楚:

6.6 full-run distribution boxplots:不只是均值为正,而是整团分布都压在零线上方

Phase 3 Figure 12: B1 distribution boxplots

前面的 heatmap 与 quick/full 对照已经说明 grouped uplift 是存在的,但它们更偏向“均值视角”。这张 boxplot 则把每个国家在 age_binsex 维度下的 full-run delta 分布直接展开,回答的问题是:这些正值是不是只靠个别 subgroup 或个别 seed 撑起来的?

发现 6.6.1

无论 age_bin 还是 sex,各国 boxplot 的中位数都位于零线上方,而且点云分布没有大面积穿回零线以下。这意味着 Phase 3 grouped 结论已经不只是“均值略正”,而是整团 full-run 分布都在支持正增益方向

发现 6.6.2

ZA、NL、KR 的箱体整体更高,和 A1 主线中的国家排序保持一致;CA、FR 的分布更贴近零线,但仍为正。这个一致性非常关键,因为它说明国别梯度不是某一张图、某一个维度、某一次 seed 的偶然产物,而是在总体与 grouped 层面同步出现的结构。


7) 敏感性分析:fine 为什么比 coarse 更适合作为主叙事

Phase 3 Figure 2: fine vs coarse

7.1 各国 fine / coarse 对照

国家 fine Δ coarse Δ gap
CA +0.15pp +0.02pp +0.13pp
ES +0.32pp +0.10pp +0.23pp
FR +0.19pp +0.11pp +0.07pp
IT +0.27pp +0.10pp +0.17pp
KR +0.55pp +0.23pp +0.32pp
NL +0.58pp +0.11pp +0.47pp
ZA +0.76pp +0.22pp +0.54pp

7.2 加权层面的结论

在更新后的 uk_us_mtus_master_table.csv 中:

发现 7.2.1

coarse 仍然是正的,这很好,因为它说明结论对 label aggregation 不是完全脆弱的。

发现 7.2.2

但 coarse 显著弱于 fine,这同样重要。它说明:

这与 Phase 2 的结论完全一致:coarse 是稳健性,不是主线替代品。


8) 与 Phase 1 / Phase 2 的统一对表:三阶段主叙事终于闭环

Phase 3 Figure 4: cross-phase baseline

8.1 三阶段主线对表(activity, fine)

Phase 数据范围 Persistence SGD Transformer Transformer Δ
Phase 1 UK 88.76% 90.95% 91.00% +2.24pp
Phase 2 US 88.76% 86.48% 88.56% -0.20pp
Phase 3 MTUS-7 full 83.65% 83.73% 84.09% +0.44pp

8.2 这张表告诉我们的不是“谁更高”,而是“主线如何演化”

第一层:Phase 1

Phase 1 在 UK 上建立了完整叙事:

第二层:Phase 2

Phase 2 在 US 上告诉我们:

第三层:Phase 3

Phase 3 则完成了最重要的一步:

8.3 为什么 Phase 3 的绝对 accuracy 更低并不是坏消息

跨国汇总的绝对准确率低于 UK/US,是完全正常的:

因此,Phase 3 的正确解读不是“为什么分数降了”,而是:

在如此复杂的外部条件下,Transformer 还能不能稳定保留正增益?

当前答案是:能,而且相关证据已经形成完整、可复核的链条。


9) 可视化资产与报告成熟度评估

9.1 当前 Phase 3 图组

增强后的 Phase 3 图组共有 12 张:

  1. phase3_fig1_a1_delta_by_country.png
  2. phase3_fig2_fine_vs_coarse_transformer.png
  3. phase3_fig3_b1_group_delta_scatter.png
  4. phase3_fig4_cross_phase_transformer_vs_persistence.png
  5. phase3_fig5_a1_seed_stability.png
  6. phase3_fig6_a1_quick_vs_full_transformer.png
  7. phase3_fig7_b1_country_groupby_heatmap.png
  8. phase3_fig8_b1_specific_group_heatmaps.png
  9. phase3_fig9_b1_quick_vs_full_delta.png
  10. phase3_fig10_sample_size_vs_delta.png
  11. phase3_fig11_a1_country_ci_forest.png
  12. phase3_fig12_b1_distribution_boxplots.png

9.2 这套图链现在覆盖了什么

与之前“只有 4 张主链图”的状态相比,现在这套图链已经形成较完整的叙事层次:

这意味着 Phase 3 现在不再只是“表格结果足够”,而是已经拥有一套可以支撑导师讨论甚至论文初稿结果段的视觉结构。

9.3 与 Phase 1 的功能对照

如果和 Phase 1 的 17+ 张图相比,Phase 3 的图量仍然更精简;但它已经具备独立支撑外部效度论证所需的核心证据链。

更准确地说:

因此,Phase 3 在当前版本下已经具备独立成章的证据密度,可作为三阶段项目的外部效度主报告。


10) 方法论反思与边界条件

10.1 为什么 Phase 3 不应再执着于 income_bin

Phase 3 的正式 grouped 主线收敛到 age_binsex,不是因为 income_bin 不重要,而是因为它在多国下的稳定覆盖不足,难以作为主叙事支柱。

更稳妥的写法应该是:

10.2 为什么 Phase 3 只保留 activity

这同样是一个有意识的研究设计,而不是功能“缩水”:

10.3 persistence 现在应该怎么写

经过三阶段之后,关于 persistence 的表述已经可以更成熟:

这其实就是整篇论文最核心的方法论句子之一。


11) 可复现性与交付收尾

11.1 关键脚本

11.2 当前交付件

11.3 这次收尾后的“完成判据”

当前可以用以下标准判断 Phase 3 是否真正完成:

  1. A1 fine summary 为 42 条记录,不再漏掉 KR 两个补跑 seed;
  2. B1 full summary 为 105 条记录
  3. uk_us_mtus_master_table.csv 已基于最新 summary 重生成;
  4. results/phase3_figures/ 下 12 张图均已生成;
  5. 本报告中的表与图均与最新 summary 数值一致;
  6. A1 Transformer 的 country mean 已达到 7/7 国家为正,而 age_bin/sex 的 grouped full-run 切片达到 35/35 个 country×group cells 为正

这些判据现在都已经满足。

如果再用这次全项目 closure audit 的口径往回看,Phase 3 现在已经把“总体正值、国家不分裂、grouped 不塌陷、fine 保持主线”这四个判断同时锁定。因此它现在更像一个需要被压缩呈现的大项目收尾,而不是一个还要继续试错的实验草稿。


12) 结论:Phase 3 现在能支撑怎样的论文叙事

Phase 3 的最终价值,并不是把 UK / US 的故事简单复读一遍,而是把整个项目提升到一个更强的论证层次:

  1. 惯性是跨国普遍事实。不论 UK、US 还是 MTUS 多国,persistence 始终强。
  2. Transformer 的额外增益在跨国条件下依然存在。它不大,但真实、稳定、跨 seed、跨国别、跨 grouped slices。
  3. negative quick delta 不能被直接解释成 ceiling。Phase 2 提醒了我们这一点,Phase 3 则在 full runs 中把它系统性地验证出来。
  4. fine 比 coarse 更能承载论文主叙事。因为真正值得讨论的那部分可学习复杂性,恰恰存在于 fine-grained activity 里。

如果要用一句适合写入论文 Results 总结段的话来概括:

Across heterogeneous national contexts, persistence remains the dominant baseline for next-slot activity prediction, yet Transformer models retain a small but stable positive margin over persistence in both aggregate and grouped analyses, indicating that everyday behavioral sequences contain weak but genuine learnable structure beyond inertia.

这一定义性句子对应的 summary、图链与跨阶段对表已经齐备,因此可以作为本阶段最凝练、也最稳妥的结论表述。


13) 附录:图表索引与关键文件

13.1 图表索引

编号 文件 对应章节 作用
P3-F1 results/phase3_figures/phase3_fig1_a1_delta_by_country.png §4 各国 A1 delta
P3-F2 results/phase3_figures/phase3_fig2_fine_vs_coarse_transformer.png §7 fine/coarse 敏感性
P3-F3 results/phase3_figures/phase3_fig3_b1_group_delta_scatter.png §6 B1 grouped 分布
P3-F4 results/phase3_figures/phase3_fig4_cross_phase_transformer_vs_persistence.png §8 Phase1/2/3 主线对表
P3-F5 results/phase3_figures/phase3_fig5_a1_seed_stability.png §4 A1 seed 稳定性
P3-F6 results/phase3_figures/phase3_fig6_a1_quick_vs_full_transformer.png §5 quick -> full 修正
P3-F7 results/phase3_figures/phase3_fig7_b1_country_groupby_heatmap.png §6 country x dimension 热力图
P3-F8 results/phase3_figures/phase3_fig8_b1_specific_group_heatmaps.png §6 具体 subgroup 热力图
P3-F9 results/phase3_figures/phase3_fig9_b1_quick_vs_full_delta.png §6 B1 quick -> full 修正
P3-F10 results/phase3_figures/phase3_fig10_sample_size_vs_delta.png §5 样本量与 delta
P3-F11 results/phase3_figures/phase3_fig11_a1_country_ci_forest.png §4 各国 mean + seed + CI forest
P3-F12 results/phase3_figures/phase3_fig12_b1_distribution_boxplots.png §6 grouped full-run boxplots

13.2 关键数据文件

13.3 相关支撑文档


文档版本:v3.0
生成日期:2026-04-03
状态:Phase 3 Markdown Enhanced — Advisor Ready
图表:12 张已嵌入主文
备注:本版已纳入 KR s42/s123 补跑并重生成全部 summary / master table / figures