项目:
Yucheng_Project
阶段:Phase 3(MTUS cross-national validation)
数据:MTUS 7 国 full runs + 3 seeds
主任务:activityfine / coarse + B1age_bin/sex
结果规模:A1 fine 42 条完整记录,B1 full 105 条完整记录
加权测试规模:31,425,108 个 test windows
可视化:12 张
更新时间:2026-04-03
状态:Phase 3 实验、汇总、对表、图链与 Markdown 已全部补齐 实验足迹:627 个 MTUS 结果 JSON + 11 个 cross-country CSV + 12 张最终主图
Phase 3 的意义,不是“再多跑几个国家”,而是要回答:当我们把 Phase 1 的框架真正推进到多国条件下,它还能不能站住。
当前这份增强版报告基于已经刷新后的完整 summary,而不是旧版不完整汇总。最关键的结果可以概括为五条:
s42、s123 两个补跑现已正式纳入 phase3_a1_activity_summary.csv,并同步刷新了主图与 uk_us_mtus_master_table.csv。age_bin 与 sex 两条主分组线,在 full runs 下也全部转为稳定正增益。 换句话说,Phase 3 的模型优势不是只在总体样本里存在,而是能够进入社会分层切片。用一句更适合论文的方式总结:
Phase 3 证明,persistence 仍然是强基线,但它不是跨国条件下的绝对天花板;在足够样本、合理 harmonization 与正式 full runs 条件下,Transformer 可以稳定地给出小而真实的正增益。
如果把整个项目按“论证强度”理解,那么三阶段的角色可以总结为:
因此,Phase 3 的评价标准并不是“分数是否高于 UK”,而是:
Phase 3 并没有试图把 Phase 1 的全部多通道 richness 原封不动搬到 MTUS 上。相反,它做了一个更成熟的取舍:
activity;age_bin 与 sex 这两个最稳维度;这种“收窄”不是退让,而是保证外部效度研究能够站得住的前提。Phase 3 的价值正在于:在最小共识口径上把结论做扎实,而不是在多国数据质量不一致的前提下制造表面上的华丽对称。
Phase 3 覆盖的国家为:
CAESFRITKRNLZA每个国家采用三组随机种子:
421232026主矩阵包含:
age_bin + sex):(3 + 2) groups × 7 国 × 3 seeds = 105 条记录Phase 3 的最终呈现采用的是“正式汇报层压缩”逻辑。也就是说,主文中的 12 张图不是 12 次实验,而是对多国、多 seed、多 group 结果矩阵的精选投影。
从当前 results/ 目录回看,Phase 3 的核心产物至少包括:
| 层级 | 结果足迹 | 说明 |
|---|---|---|
phase3_mtus_a1 |
105 个 JSON | 含 A1 fine / coarse、国家、seed、模型等正式运行结果 |
phase3_mtus_b1 |
522 个 JSON | 含 grouped matrices、quick/full、country/group 组合结果 |
phase3_cross_country |
11 个 CSV | A1/B1 summary、coarse summary、master table 等汇总层 |
phase3_figures |
12 张 PNG | 最终正式图链 |
因此,Phase 3 在导师包里看起来是“12 张图 + 一份主报告”,并不是因为工作量有限,而是因为627 个结果 JSON 与 11 个 cross-country CSV 被主动压缩成一条可读、可判、可复核的 12 图主链。这正是正式汇报材料应有的组织方式,而不是实验执行量的上限。
Phase 3 的一个关键修正是:KR 的 A1-fine s42 与 s123 补跑文件不仅存在,而且已经正式写入 summary。
已核验文件:
results/phase3_mtus_a1/kr/a1_full_activity_sgd_transformer_s42.jsonresults/phase3_mtus_a1/kr/a1_full_activity_sgd_transformer_s123.jsonresults/phase3_mtus_a1/kr/a1_full_activity_sgd_transformer_s2026.json这一步之所以重要,是因为旧版 summary 只有 38 条 A1 fine 记录,容易造成“文档说补齐了,但汇总表并没补齐”的尴尬。现在这个问题已经修正:
phase3_a1_activity_summary.csv:38 -> 42phase3_a1_activity_summary.md:已同步刷新uk_us_mtus_master_table.csv:已同步刷新| 工作包 | 内容 | 状态 |
|---|---|---|
| WP1 | MTUS data audit | ✅ |
| WP2 | loader + harmonization | ✅ |
| WP3 | mapping freeze | ✅ |
| WP4 | A1 baseline matrix | ✅ |
| WP5 | B1 grouped matrix | ✅ |
| WP6 | UK-US-MTUS integrated comparison | ✅ |
| WP7 | narrative packaging | ✅ |
| WP8 | repro & handoff | ✅ |
Phase 3 本来就承担“最后一环”的角色,因此它不能允许“主文说 7 国 3 seeds 全部完成,但 summary 仍然漏两条”的轻微不一致。即便这个问题对最终结论幅度影响未必巨大,它也会削弱报告的可信度。
现在这一修正完成后,Phase 3 报告终于具备了一个正式项目应有的状态:
先看 Phase 3 最核心的加权主表:
| 模型 | 加权 Accuracy | 加权 Persistence | Δ vs Persistence | 加权 Macro-F1 | 总 n_test |
|---|---|---|---|---|---|
| SGD | 83.73% | 83.65% | +0.09pp | 74.83% | 31,425,108 |
| Transformer | 84.09% | 83.65% | +0.44pp | 75.77% | 31,425,108 |
这个结果和旧版写法最大的不同,是它现在基于完整 42 条 A1 fine 记录。更新后的 Phase 3 不再是“接近完成”,而是已经真正完成了正式汇总。
在多国条件下,persistence 依然极强。这说明我们在 Phase 1 和 Phase 2 里看到的惯性结构,在跨国场景里并没有消失。
与此同时,Transformer 仍然能够给出 +0.44pp 的稳定正增益,而 SGD 只有 +0.09pp。这意味着:

| 国家 | SGD mean Δ | Transformer mean Δ |
|---|---|---|
| CA | +0.03pp | +0.15pp |
| ES | +0.04pp | +0.32pp |
| FR | -0.00pp | +0.19pp |
| IT | +0.03pp | +0.27pp |
| KR | +0.16pp | +0.55pp |
| NL | +0.05pp | +0.58pp |
| ZA | +0.14pp | +0.76pp |
Transformer 在 7 国 A1 主线上全部为正增益,这一点非常重要。因为 Phase 3 的真正目标从来不是“某一国分数特别高”,而是证明在跨国异质条件下,正增益的方向仍然保留下来。
国别差异并不小。ZA、NL、KR 的 Transformer uplift 最强,说明这些国家的数据里保留了更多 fine-grained、非纯惯性、但又可被序列模型利用的结构。
FR 的 SGD 近乎零甚至略负,而 Transformer 仍为正。这强化了一个贯穿整个项目的结论:一旦离开单国、进入更异质的数据条件,浅层模型更容易失稳,而 Transformer 的优势会更明显地体现为“更接近惯性上限,或略微超出它”。

如果一个跨国结果只在某个随机种子上有效,那么它的论文价值非常有限。因此,这张图专门用来回答“是不是 seed 偶然”的质疑。
Transformer 在各国的增益并不是靠单个 seed 撑起来的。无论是 CA 这种小幅正值国家,还是 ZA / KR / NL 这种较强 uplift 国家,seed 间波动都没有把均值拖回到零附近。
这使得 Phase 3 的论证层级上升了一档:
这对导师和审稿人都很重要,因为它意味着 Phase 3 的主结论不是某次训练的偶然波动。

如果只给出均值柱状图,读者仍可能追问:这些国家差异到底稳不稳,还是只是 3 个 seed 的偶然起伏?这张 forest-style 图把国家均值、seed 点位与近似 95% CI 放进同一张图里,因此它比单纯的柱状图更接近论文级表达。
所有国家的 Transformer mean delta 都仍然位于零线上方,而且 seed 点位没有把任何国家的均值拉回零以下。也就是说,“7 国全为正”不是口号,而是在均值、seed 与区间三层上都一致成立的结构。
ZA、NL、KR 依旧形成最强 uplift 梯队,CA 则保持最小但稳定的正值。这个排序很重要,因为它表明国别差异并不是“有没有增益”的差异,而是“增益幅度有多大”的差异。换句话说,Phase 3 的国家异质性是强弱差异,不是方向分裂。

| 国家 | quick Δ | full Δ | uplift |
|---|---|---|---|
| CA | +0.14pp | +0.15pp | +0.01pp |
| ES | +0.19pp | +0.32pp | +0.13pp |
| FR | +0.06pp | +0.19pp | +0.13pp |
| IT | +0.00pp | +0.27pp | +0.26pp |
| KR | +0.06pp | +0.55pp | +0.49pp |
| NL | +0.07pp | +0.58pp | +0.51pp |
| ZA | +0.26pp | +0.76pp | +0.50pp |
full runs 在几乎所有国家上都明显提升了 Transformer 相对 persistence 的增益,其中 KR、NL、ZA 的提升最明显。这再次支持了一个贯穿 Phase 2 到 Phase 3 的关键方法论判断:
quick 的作用是快速筛方向,而不是替代正式结论。
尤其在 KR、NL、ZA 这些 uplift 较高国家,quick 只能告诉我们“有正值苗头”,而 full 才让这个苗头长成足以写进正式报告的稳定模式。

这张图是 Phase 3 报告里非常关键的一张补充图,因为它把“规模与增益”的关系显式画出来了。
A1 国家层面的结果显示,较大的 test windows 往往伴随着更稳定、也更容易显形的正 delta。但这不是线性单调关系,而是“有足够规模后,增益更不容易被噪声淹没”。
B1 的 grouped scatter 更能说明问题:即便是 group cut 后的切片,只要样本量达到一定规模,Transformer 相对 persistence 的正值仍可以保留下来。
这正是 Phase 3 对 Phase 2 的一个强修正:

这张图先给出最核心的视觉印象:age_bin 与 sex 两个维度,在 full runs 下的点云都已经整体位于零线上方。
| 维度 | full runs | mean Δ | 解释 |
|---|---|---|---|
age_bin |
63 | +0.37pp | 年龄切片中仍可学到额外序列结构 |
sex |
42 | +0.39pp | 性别切片也保留了正增益 |
这意味着 Transformer 的优势不只是“大样本总体平均出来的”,而是能够真正穿透到群体层面的切片中。

| 国家 | age_bin mean Δ |
sex mean Δ |
|---|---|---|
| CA | +0.12pp | +0.13pp |
| ES | +0.34pp | +0.33pp |
| FR | +0.18pp | +0.18pp |
| IT | +0.26pp | +0.24pp |
| KR | +0.54pp | +0.57pp |
| NL | +0.54pp | +0.57pp |
| ZA | +0.64pp | +0.71pp |
各国的 grouped uplift 梯度与 A1 主线非常一致:ZA、KR、NL 依旧最强。这说明国别差异并不是某个单独实验环节的偶然,而是贯穿总体与分组两层分析的一致结构。
sex 的 mean delta 略高于 age_bin,但差距并不大。这表明 Phase 3 可以把两者都作为稳定分组主线,而无需强行选一个、放弃另一个。

按具体 subgroup 聚合后,平均 delta 如下:
| 分组维度 | subgroup | mean Δ |
|---|---|---|
age_bin |
young | +0.41pp |
age_bin |
middle | +0.41pp |
age_bin |
old | +0.31pp |
sex |
female | +0.38pp |
sex |
male | +0.40pp |
old 的平均 uplift 略低于 young / middle,但仍然稳稳为正。这意味着 Phase 3 不需要用“只有年轻组有效”这种脆弱叙事来支撑自己;它可以更稳妥地说:不同 subgroup 的增益幅度有差异,但方向高度一致。
male 与 female 的 uplift 也都为正,且差距不大。这使得 Phase 3 在 grouped 层面可以避免陷入过度性别化解读,而把重点放在“正增益跨组保留”这个更稳的结论上。

几个最有代表性的修正如下:
| 国家-维度 | quick Δ | full Δ | uplift |
|---|---|---|---|
KR-age_bin |
-0.49pp | +0.54pp | +1.03pp |
NL-age_bin |
-0.21pp | +0.54pp | +0.76pp |
ZA-age_bin |
-0.07pp | +0.64pp | +0.71pp |
NL-sex |
-0.12pp | +0.57pp | +0.68pp |
KR-sex |
-0.04pp | +0.57pp | +0.61pp |
如果只看 quick,B1 中很多国家和切片会显得“不稳定甚至略负”;但一旦进入正式 full runs,这些结果系统性地转为正值。这个模式与 Phase 2 高度呼应,但在 Phase 3 中被放大得更清楚:

前面的 heatmap 与 quick/full 对照已经说明 grouped uplift 是存在的,但它们更偏向“均值视角”。这张 boxplot 则把每个国家在 age_bin 与 sex 维度下的 full-run delta 分布直接展开,回答的问题是:这些正值是不是只靠个别 subgroup 或个别 seed 撑起来的?
无论 age_bin 还是 sex,各国 boxplot 的中位数都位于零线上方,而且点云分布没有大面积穿回零线以下。这意味着 Phase 3 grouped 结论已经不只是“均值略正”,而是整团 full-run 分布都在支持正增益方向。
ZA、NL、KR 的箱体整体更高,和 A1 主线中的国家排序保持一致;CA、FR 的分布更贴近零线,但仍为正。这个一致性非常关键,因为它说明国别梯度不是某一张图、某一个维度、某一次 seed 的偶然产物,而是在总体与 grouped 层面同步出现的结构。

| 国家 | fine Δ | coarse Δ | gap |
|---|---|---|---|
| CA | +0.15pp | +0.02pp | +0.13pp |
| ES | +0.32pp | +0.10pp | +0.23pp |
| FR | +0.19pp | +0.11pp | +0.07pp |
| IT | +0.27pp | +0.10pp | +0.17pp |
| KR | +0.55pp | +0.23pp | +0.32pp |
| NL | +0.58pp | +0.11pp | +0.47pp |
| ZA | +0.76pp | +0.22pp | +0.54pp |
在更新后的 uk_us_mtus_master_table.csv 中:
coarse 仍然是正的,这很好,因为它说明结论对 label aggregation 不是完全脆弱的。
但 coarse 显著弱于 fine,这同样重要。它说明:
这与 Phase 2 的结论完全一致:coarse 是稳健性,不是主线替代品。

| Phase | 数据范围 | Persistence | SGD | Transformer | Transformer Δ |
|---|---|---|---|---|---|
| Phase 1 | UK | 88.76% | 90.95% | 91.00% | +2.24pp |
| Phase 2 | US | 88.76% | 86.48% | 88.56% | -0.20pp |
| Phase 3 | MTUS-7 full | 83.65% | 83.73% | 84.09% | +0.44pp |
Phase 1 在 UK 上建立了完整叙事:
Phase 2 在 US 上告诉我们:
Phase 3 则完成了最重要的一步:
跨国汇总的绝对准确率低于 UK/US,是完全正常的:
因此,Phase 3 的正确解读不是“为什么分数降了”,而是:
在如此复杂的外部条件下,Transformer 还能不能稳定保留正增益?
当前答案是:能,而且相关证据已经形成完整、可复核的链条。
增强后的 Phase 3 图组共有 12 张:
phase3_fig1_a1_delta_by_country.pngphase3_fig2_fine_vs_coarse_transformer.pngphase3_fig3_b1_group_delta_scatter.pngphase3_fig4_cross_phase_transformer_vs_persistence.pngphase3_fig5_a1_seed_stability.pngphase3_fig6_a1_quick_vs_full_transformer.pngphase3_fig7_b1_country_groupby_heatmap.pngphase3_fig8_b1_specific_group_heatmaps.pngphase3_fig9_b1_quick_vs_full_delta.pngphase3_fig10_sample_size_vs_delta.pngphase3_fig11_a1_country_ci_forest.pngphase3_fig12_b1_distribution_boxplots.png与之前“只有 4 张主链图”的状态相比,现在这套图链已经形成较完整的叙事层次:
这意味着 Phase 3 现在不再只是“表格结果足够”,而是已经拥有一套可以支撑导师讨论甚至论文初稿结果段的视觉结构。
如果和 Phase 1 的 17+ 张图相比,Phase 3 的图量仍然更精简;但它已经具备独立支撑外部效度论证所需的核心证据链。
更准确地说:
因此,Phase 3 在当前版本下已经具备独立成章的证据密度,可作为三阶段项目的外部效度主报告。
income_binPhase 3 的正式 grouped 主线收敛到 age_bin 与 sex,不是因为 income_bin 不重要,而是因为它在多国下的稳定覆盖不足,难以作为主叙事支柱。
更稳妥的写法应该是:
income_bin 在单国或部分国家中仍值得做补充分析;age_bin / sex 放在同一层级;activity这同样是一个有意识的研究设计,而不是功能“缩水”:
activity 是最稳定的共通通道;activity + persistence + delta + grouped stability,跨阶段叙事就已经足够强。经过三阶段之后,关于 persistence 的表述已经可以更成熟:
这其实就是整篇论文最核心的方法论句子之一。
run_phase3_full.shsummarize_phase3.pyrun_phase3_compare_uk_us_mtus.pygenerate_phase2_phase3_figures.pyPHASE3_REPRO_GUIDE.mdresults/phase3_cross_country/phase3_a1_activity_summary.csvresults/phase3_cross_country/phase3_b1_activity_summary.csvresults/phase3_cross_country/phase3_a1_activity_coarse_summary.csvresults/phase3_cross_country/phase3_b1_activity_coarse_summary.csvresults/phase3_cross_country/uk_us_mtus_master_table.csvPHASE3_FINAL_REPORT.mdPHASE3_VISUALIZATION_REPORT.md当前可以用以下标准判断 Phase 3 是否真正完成:
uk_us_mtus_master_table.csv 已基于最新 summary 重生成;results/phase3_figures/ 下 12 张图均已生成;age_bin/sex 的 grouped full-run 切片达到 35/35 个 country×group cells 为正。这些判据现在都已经满足。
如果再用这次全项目 closure audit 的口径往回看,Phase 3 现在已经把“总体正值、国家不分裂、grouped 不塌陷、fine 保持主线”这四个判断同时锁定。因此它现在更像一个需要被压缩呈现的大项目收尾,而不是一个还要继续试错的实验草稿。
Phase 3 的最终价值,并不是把 UK / US 的故事简单复读一遍,而是把整个项目提升到一个更强的论证层次:
如果要用一句适合写入论文 Results 总结段的话来概括:
Across heterogeneous national contexts, persistence remains the dominant baseline for next-slot activity prediction, yet Transformer models retain a small but stable positive margin over persistence in both aggregate and grouped analyses, indicating that everyday behavioral sequences contain weak but genuine learnable structure beyond inertia.
这一定义性句子对应的 summary、图链与跨阶段对表已经齐备,因此可以作为本阶段最凝练、也最稳妥的结论表述。
| 编号 | 文件 | 对应章节 | 作用 |
|---|---|---|---|
| P3-F1 | results/phase3_figures/phase3_fig1_a1_delta_by_country.png |
§4 | 各国 A1 delta |
| P3-F2 | results/phase3_figures/phase3_fig2_fine_vs_coarse_transformer.png |
§7 | fine/coarse 敏感性 |
| P3-F3 | results/phase3_figures/phase3_fig3_b1_group_delta_scatter.png |
§6 | B1 grouped 分布 |
| P3-F4 | results/phase3_figures/phase3_fig4_cross_phase_transformer_vs_persistence.png |
§8 | Phase1/2/3 主线对表 |
| P3-F5 | results/phase3_figures/phase3_fig5_a1_seed_stability.png |
§4 | A1 seed 稳定性 |
| P3-F6 | results/phase3_figures/phase3_fig6_a1_quick_vs_full_transformer.png |
§5 | quick -> full 修正 |
| P3-F7 | results/phase3_figures/phase3_fig7_b1_country_groupby_heatmap.png |
§6 | country x dimension 热力图 |
| P3-F8 | results/phase3_figures/phase3_fig8_b1_specific_group_heatmaps.png |
§6 | 具体 subgroup 热力图 |
| P3-F9 | results/phase3_figures/phase3_fig9_b1_quick_vs_full_delta.png |
§6 | B1 quick -> full 修正 |
| P3-F10 | results/phase3_figures/phase3_fig10_sample_size_vs_delta.png |
§5 | 样本量与 delta |
| P3-F11 | results/phase3_figures/phase3_fig11_a1_country_ci_forest.png |
§4 | 各国 mean + seed + CI forest |
| P3-F12 | results/phase3_figures/phase3_fig12_b1_distribution_boxplots.png |
§6 | grouped full-run boxplots |
results/phase3_cross_country/phase3_a1_activity_summary.csvresults/phase3_cross_country/phase3_b1_activity_summary.csvresults/phase3_cross_country/phase3_a1_activity_coarse_summary.csvresults/phase3_cross_country/phase3_b1_activity_coarse_summary.csvresults/phase3_cross_country/uk_us_mtus_master_table.csvPHASE3_VISUALIZATION_REPORT.mdPHASE3_REPRO_GUIDE.mdPHASE3_RESPONSE_TO_FEEDBACK.md文档版本:v3.0
生成日期:2026-04-03
状态:Phase 3 Markdown Enhanced — Advisor Ready
图表:12 张已嵌入主文
备注:本版已纳入 KRs42/s123补跑并重生成全部 summary / master table / figures