Phase 2 完整技术报告:US ATUS 复现、社会分层与方法稳健性

项目:Yucheng_Project
阶段:Phase 2(US-first replication & expansion)
数据:ATUS 2024(quick)+ ATUS pooled 2003–2024(full)
核心通道:activity + location
核心口径:accuracy / macro-F1 / persistence baseline / delta vs persistence
可视化:10 张
更新时间:2026-04-03
状态:Phase 2 完整长报告(Advisor Review Version) 实验足迹:49 个 Phase 2 原始实验 JSON(其中 41 个完成结果 + 8 个 skipped_small_group 占位)+ 2 个 tracker JSON + results/phase2_summary/ 统一 summary 层 + 10 张最终主图


目录

  1. 执行摘要
  2. Phase 2 在全项目中的角色:它究竟回答什么问题
  3. 数据、通道、分组与可比性边界
  4. 实验矩阵与完成度:哪些已经完整,哪些必须诚实交代
  5. A1 基准实验:US 的惯性上限与模型可学习空间
  6. B1 分组实验:社会分层在 US 中如何出现
  7. pooled 复核:为什么 quick 阶段的负 delta 不能被直接当成结论
  8. 稳健性实验:粒度、时间尺度与样本选择的机制含义
  9. 与 Phase 1 的统一对表:相同机制,不同幅度
  10. 可视化完备度评估:现在的 Phase 2 是否已经“像一份完整报告”
  11. 方法论贡献、局限与风险控制
  12. 结论:Phase 2 给 Phase 3 留下了什么
  13. 附录:图表索引与关键文件

1) 执行摘要

Phase 2 的目标不是把 US 分数“卷到最高”,而是回答一个更关键的问题:Phase 1 在 UK 上识别出的那套机制,到 US 这样一个不同制度与编码环境中,是否仍然成立

这一阶段最终给出了四个最重要的结论:

  1. 短期惯性具有跨国普遍性。US activity 的 persistence baseline 为 88.76%,与 UK Phase 1 的 88.76% 几乎完全一致。这说明“下一时隙大概率延续上一时隙”的基本事实,并不是 UK 独有现象。
  2. US activity 上 Transformer 在 quick 阶段几乎追平 persistence,但不稳定超越它。ATUS 2024 quick 数据中,Transformer 为 88.56%,仅低于 persistence 0.20pp;SGD 则低 2.28pp。这表明在更异质的 US 环境里,线性模型明显更脆弱,而深度序列模型已经逼近惯性上限。
  3. 一旦进入 pooled 分组复核,很多 quick 阶段的“负 delta”会显著收敛甚至转正。以 income_mid 为例,delta 从 -3.68pp 修正到 +0.41ppweekday-1.53pp 修正到 +0.49pp。这意味着 quick 阶段不能被当成“机制盖棺定论”,它首先是一个样本条件下的近似观测。
  4. US 不推翻 Phase 1,而是把 Phase 1 的叙事从“高可预测性”推进到“样本充分性决定可学习增益能否显形”。也就是说,惯性依然强,但模型额外能学到的那部分规律,在 US 中更依赖样本量、分组规模、变量可用性与编码异质性。

从全项目角度看,Phase 2 的价值非常明确:


2) Phase 2 在全项目中的角色:它究竟回答什么问题

2.1 三阶段逻辑中的中间桥梁

如果把整个项目看成一个递进式论证,那么三阶段分工非常清楚:

因此,Phase 2 不是“再做一个小号的 Phase 1”,而是整个项目中最关键的迁移检验环节

2.2 Phase 2 需要回答的三个核心问题

Phase 2 实际上集中回答三个问题:

  1. 惯性是否普适:如果 UK 的高可预测性主要来自短期惯性,那么 US 是否也一样?
  2. 模型增益是否可迁移:在新的制度环境与编码体系下,Transformer 相对 persistence 的额外增益是否依然存在?
  3. 社会分层是否方向一致:收入、性别、经济状态等因素在 US 中会不会改变“谁更可预测”的排序与幅度?

这三个问题决定了 Phase 2 的评价标准不应仅仅是一个单点准确率,而应同时看:

2.3 为什么 Phase 2 比看上去更难

表面上看,ATUS 只是“把 UK 框架搬到 US”;但实际难点不少:

也正因为如此,Phase 2 不能写成一份“跑完脚本的流水账”,而必须写成一份机制辨析报告。这也是本次增强版 Markdown 的核心改动方向。


3) 数据、通道、分组与可比性边界

3.1 数据来源与时间对齐

Phase 2 使用两层 US 数据:

数据处理口径与 Phase 1 保持一致:

3.2 通道可用性边界

Phase 2 最大的结构性边界,是 US 数据并不具备 UK 那种完整的四通道条件。

通道 UK Phase 1 US Phase 2 在 Phase 2 中的角色
activity 主通道,承担跨阶段主叙事
location 机制通道,检验可学习的低噪转移
enjoyment US 不可用,不应强行平行叙述
with_whom US 不可用,不应强行平行叙述

这意味着一个很重要的方法论态度:Phase 2 的任务不是伪造与 UK 完全对称的故事,而是在真实数据边界内把可比较的部分做扎实。

3.3 分组变量与优先级

Phase 2 主要使用以下分组维度:

就后续项目价值而言,它们的优先级并不相同:

3.4 质量控制与 bug 修复

Phase 2 的一个重要价值,在于它逼出了几处如果不修正就会污染结论的关键问题。

问题 风险 修复结果
US 中 enjoyment / with_whom 不存在,但早期实现可能给出假性 acc=1.0 伪造“完美结果” 已改为 NaN 处理,并在 runner 侧加通道有效性检查
30min downsample 结果曾被固定 144 slots/day 逻辑误伤 D1 结果为空或偏差 已支持 48 slots/day
A1 full SGD 全量 flat feature 容易 OOM 无法对大样本给出稳定结论 通过 sample cap 与 pooled grouped 复核来替代僵硬全量 flat baseline

这部分内容必须写进正式报告,因为它直接关系到导师对数据质量和实验可信度的判断。Phase 2 的“数据完整性”不仅是“有多少表”,也是“有没有把不该信的结果及时剔除掉”。


4) 实验矩阵与完成度:哪些已经完整,哪些必须诚实交代

4.1 当前 Phase 2 的完整交付板块

板块 内容 状态 是否进入主报告
A1 quick US activity/location baseline ✅ 完成
B1 quick income_bin / sex / econstat ✅ 完成
pooled grouped income_bin / sex / age_bin / is_weekend / survey_period ✅ 完成
C1/D1/E1 coarse/fine、10/30min、weekday/full ✅ 完成
pooled econstat full 仅部分组稳定 ⚠️ 部分完成 仅作边界说明
可视化图组 Phase 2 专属 10 图 ✅ 完成

4.1.1 为什么最终主文只放 10 张图,但工作量并不薄

Phase 2 的最终交付故意采用“少而强”的图链策略,而不是把所有中间运行结果逐张堆入正文。换句话说,10 张图是经过筛选后的最终证据层,不是全部实验层

如果只看导师包中的主文与图链,容易低估实际工作量;但从 results/ 目录回看,Phase 2 直接相关的 US 结果产物至少包括:

层级 结果足迹 说明
raw experiment layer 49 个 JSON 41 个完成结果 + 8skipped_small_group 占位,覆盖 quick、pooled、full-support 与辅助探测
tracker layer 2 个 JSON us_phase2_expansion_index.jsonus_phase2_expansion_summary.json
unified summary layer 6 个 CSV + 1 个 MD results/phase2_summary/,把 quick / pooled / methodology / support 统一收束
final figure chain 10 张 PNG results/phase2_figures/

因此,Phase 2 呈现为 10 张图,并不意味着 Phase 2 只做了 10 组实验;更准确的说法是:Phase 2 把 49 个原始实验 JSON、2 个 tracker JSON 与一层新的 phase2_summary 汇总表,压缩成了一条可供导师快速判断的 10 图证据链。

4.2 为什么这份完成度已经具备正式汇报条件

如果要判断 Phase 2 是否已经从“实验执行阶段”进入“正式汇报阶段”,主要看三件事:

  1. 有没有一个清晰的 baseline;
  2. 有没有一组可信的 grouped evidence;
  3. 有没有对 negative result、样本量效应与可比性边界做充分解释。

当前版本已经同时具备这三点:

也就是说,Phase 2 已不再是“结果碎片堆积”,而是一个有机制、有反证、有边界意识的阶段性正式报告。

4.3 哪些地方仍然不应过度承诺

为了让这份报告更像 Phase 1,而不是更像“宣传稿”,这里必须把边界说清楚:

这种诚实并不会削弱 Phase 2,反而会让它在导师那里显得更成熟。


5) A1 基准实验:US 的惯性上限与模型可学习空间

5.1 US baseline 总览

Phase 2 Figure 1: US baseline

Phase 2 的第一张主图直接回答最基础的问题:US 的两个可用通道上,模型相对 persistence 的位置分别在哪里。

通道 模型 Accuracy Macro-F1 Δ vs Persistence
activity Persistence 88.76% 68.75% 0.00pp
activity SGD 86.48% 40.12% -2.28pp
activity Transformer 88.56% 61.06% -0.20pp
location Persistence 92.84% 72.08% 0.00pp
location SGD 94.30% 57.11% +1.46pp
location Transformer 94.40% 62.36% +1.56pp

5.2 Activity:US 中“惯性仍然强,但额外增益更难显形”

发现 5.2.1

activity 的 persistence 仍然高达 88.76%,这与 UK Phase 1 的水平几乎一致。这一结果非常重要,因为它说明:

发现 5.2.2

Transformer 在 activity 上只比 persistence 低 0.20pp,但 SGD 低 2.28pp。这说明:

5.3 Location:US 中最清晰的“可学习增益”

location 的情况与 activity 不同:无论 SGD 还是 Transformer,都稳定高于 persistence。

这意味着 location 不是单纯靠“延续上一时隙”就能解释完的;模型确实学到了额外结构。换句话说:

5.4 仅看 accuracy 远远不够

Phase 2 Figure 5: Macro-F1 and delta

这一图是本次增强版报告专门加进去的,因为它能弥补“只看 accuracy 会显得过于乐观”的问题。

发现 5.4.1

activity 上,Transformer 的 accuracy 几乎追平 persistence,但 macro-F1 仍显著低于 persistence。这说明:

发现 5.4.2

location 上,SGD 和 Transformer 的 accuracy 已经高于 persistence,但 macro-F1 并没有同步更高。这进一步说明:


6) B1 分组实验:社会分层在 US 中如何出现

6.1 quick 分组结果首先告诉了我们什么

先看 quick 阶段(ATUS 2024)的 grouped evidence:

income_bin(Transformer, quick)

组别 Accuracy Persistence Δ vs Persistence
low 81.87% 89.93% -8.06pp
mid 85.69% 89.36% -3.68pp
high 88.45% 88.80% -0.35pp
unknown 88.12% 88.37% -0.25pp

sex(Transformer, quick)

组别 Accuracy
male 88.76%
female 87.45%

econstat(Transformer, quick)

组别 Accuracy 说明
employed 88.2% 主体组,接近 baseline
unemployed 86.1% 明显更难
other 59.9% 极小样本/高异质组,不能直接上升为主结论

6.2 quick 阶段最直观的图像

Phase 2 Figure 2: Stratified activity

这张图的关键价值在于,它把 quick 与 pooled 放在一张图里,让我们不至于把 quick 的点估计误当成最后答案。

发现 6.2.1

如果只看 quick,会很容易得出一个夸张的结论:低收入群体比高收入群体“难预测得多”。但这种差距过大,恰恰提示了样本量效应和组内异质性可能在放大结果。

发现 6.2.2

性别差异在 US 中存在,但幅度明显小于收入切片。这与 UK Phase 1 的方向是一致的:性别不是零效应,但也不是最强解释维度。

发现 6.2.3

年龄在 pooled 中才开始变得清楚,这提醒我们:有些分层不是不存在,而是在 quick 阶段还没有足够样本把它“稳定显影”出来

6.3 为什么 Phase 2 不应把 quick 分组直接写成结论

Phase 2 的成熟度恰恰体现在这里:我们没有把 quick 的负 delta 直接写成“US 中模型就是学不到任何额外规律”,而是继续做了 pooled 复核。

这一步非常关键,因为如果跳过它,Phase 2 会变成一份“看上去结论很鲜明、实际上受样本条件严重约束”的文档。导师如果认真看,很容易马上追问:

本报告后面的 pooled 章节,就是专门回答这些追问的。


7) pooled 复核:为什么 quick 阶段的负 delta 不能被直接当成结论

7.1 pooled grouped 是 Phase 2 最重要的“修正层”

如果说 quick 用来回答“方向大致如何”,那么 pooled grouped 用来回答“这个方向经不经得起更多样本与更多切片”。

先看 pooled grouped 的总体分布:

Phase 2 Figure 3: pooled grouped deltas

再看一张更浓缩的 heatmap:

Phase 2 Figure 6: pooled delta heatmap

7.2 pooled 的核心结论可以浓缩成一句话

在 pooled 大样本条件下,US 中许多原本在 quick 中为负的 delta 会显著上移,location 更是对所有分组都呈现稳定正增益。

7.3 pooled 分组的总体统计

按通道汇总的平均 delta

通道 pooled mean Δ 最小值 最大值 解释
activity +0.33pp -0.27pp +0.52pp 小幅但真实的可学习增益开始显形
location +1.46pp +1.26pp +1.70pp 几乎所有分组都稳定超越 persistence

按维度与通道汇总的 mean delta

分组维度 Activity mean Δ Location mean Δ
income_bin +0.11pp +1.37pp
sex +0.44pp +1.48pp
age_bin +0.33pp +1.52pp
is_weekend +0.44pp +1.48pp
survey_period +0.52pp +1.51pp

这张表本身就说明了两个重要事实:

  1. location 的 learnable regularity 明显强于 activity
  2. activity 虽然增益不大,但 pooled 下已经不再是“全面负值”。

7.4 income 维度是最值得谨慎解读的例子

income_bin 在 Phase 2 中特别重要,因为它既是最有社会科学吸引力的维度,也是最容易被样本量误导的维度。

quick 到 pooled 的变化

组别 quick Δ pooled Δ 变化
low -8.06pp -0.27pp +7.79pp
mid -3.68pp +0.41pp +4.09pp
high -0.35pp +0.20pp +0.55pp

发现 7.4.1

如果只看 quick,会以为低收入群体几乎“不可能学到额外结构”;但 pooled 后,low 已经从 -8.06pp 修正到 -0.27pp。这说明 quick 中的巨大负值,至少有很大一部分来自样本不足和不稳定切片,而不是机制本身。

发现 7.4.2

mid 组从 -3.68pp+0.41pp 的转变更具方法论意义,因为它告诉我们:

7.5 sex、age、weekday 与 survey_period 提供了“更稳的正值证据”

相比 income,sexage_binis_weekendsurvey_period 在 pooled 下更稳定。

其中几个有代表性的结果如下:

这几组的共同意义是:在 US 中,Transformer 的 activity 增益虽然不大,但在若干较稳定的 pooled 切片里,已经可以持续为正。

7.6 sample-size correction 是 Phase 2 最关键的反证证据

Phase 2 Figure 8: sample-size correction

这张图比单纯的 grouped bar 更重要,因为它把“small sample bias”画成了可以一眼看懂的轨迹。

发现 7.6.1

income_mid-3.68pp+0.41ppweekday-1.53pp+0.49pp,这已经不是“轻微波动”,而是结论层级的修正。

发现 7.6.2

这意味着 Phase 2 最应该写进方法论部分的一句话是:

在高异质分组任务中,negative delta 首先应被视为一个待复核现象,而不是立即上升为 persistence 的绝对不可超越性。

这句话的重要性甚至超过某个单独的准确率数值,因为它决定了整个项目后续如何读 quick results。

7.7 pooled support-width 告诉我们:哪些正值只是刚冒头,哪些已经有更强支撑

Phase 2 Figure 9: pooled uncertainty

在这一步里,我们不再只画 pooled mean delta,而是把每个 grouped slice 的 n_test 也转译成一个保守的支持宽度区间。它不是严格的 paired significance test,而是一个非常实用的判断标准:当前这个切片的正负方向,到底已经站得多稳。

发现 7.7.1

income_low activity 的 pooled mean 只有 -0.27pp,其保守支持宽度约为 ±0.60pp。这意味着它现在更应该被读成“贴近零、仍待谨慎”而不是“US 低收入组存在巨大负增益”。也就是说,quick 阶段那个 -8.06pp 的视觉冲击,在 pooled 后已经被压缩回了一个接近零附近的小残差

发现 7.7.2

与此相对,survey_period-pre_covid activity 的 pooled mean 为 +0.52pp,支持宽度约 ±0.20ppsex-female activity+0.49pp,支持宽度约 ±0.28pp。这说明 Phase 2 的正值证据并不只是“偶然浮出零线”,而是在若干更大样本切片上已经形成了更可信的正向支持。

发现 7.7.3

location 通道的 pooled 结果更稳:各组 mean delta 落在 +1.26pp ~ +1.70pp 之间,而支持宽度大多只有 ±0.15pp ~ ±0.47pp。因此,Phase 2 中最强的“模型确实学到惯性之外结构”的证据,依然首先来自 location,而不是 activity

7.8 把所有 pooled 切片一起摆出来后,support-size pattern 就更清楚

Phase 2 Figure 10: pooled support map

这张图把全部 pooled grouped slices 一起放到 n_test 的对数尺度上,目的是回答一个比“有没有正值”更成熟的问题:正值出现在哪些支持规模上,它们是零散的,还是已经形成结构性的分布模式。

发现 7.8.1

在这张 support-size map 里,location 的所有点都稳稳落在零线上方,而且随着样本规模扩大并没有回落到零附近。这说明 location 的 learnable gain 不是某个单独分组的巧合,而是一个横跨 income / sex / age / weekday / survey period 的稳定现象。

发现 7.8.2

activity 的 pooled 点云则明显更贴近零线,但模式并不混乱:除了 income_low 仍略低于零之外,其余切片基本都集中在 +0.2pp ~ +0.52pp 之间。换句话说,Phase 2 现在已经不是“activity 普遍为负”,而是“activity 的额外增益很小、但在足够样本条件下会系统性地靠近或越过零线”。这正是 Phase 2 最值得保留下来的方法论结论。


8) 稳健性实验:粒度、时间尺度与样本选择的机制含义

Phase 2 Figure 7: methodology sensitivity

除了 baseline 与 grouped evidence,Phase 2 还必须回答一个问题:这些结论是不是只是在某个偶然设定下才成立?

为此,我们保留了三组稳健性实验。

8.1 C1:fine vs coarse

粒度 Model Acc Persistence Δ vs Persistence Macro-F1
fine 87.72% 88.71% -0.99pp 48.36
coarse 90.11% 90.12% -0.00pp 81.70

发现 8.1.1

coarse label 明显更容易,但这并不等于更有科学价值。恰恰相反:

8.2 D1:10min vs 30min

时间粒度 Model Acc Persistence Δ vs Persistence Macro-F1
10min 87.72% 88.71% -0.99pp 48.36
30min 73.47% 73.56% -0.09pp 31.50

发现 8.2.1

30min 会让总体准确率大幅下降。这是一个很重要的技术与理论双重信息:

8.3 E1:weekday-only vs full sample

样本范围 Model Acc Persistence Δ vs Persistence
full_week 87.72% 88.71% -0.99pp
weekday_only 86.85% 88.39% -1.53pp

发现 8.3.1

“工作日更规律,所以更好预测”这个直觉在 quick 阶段并没有自动成立。相反,weekday-only 反而更差。

这进一步支持了 Phase 2 的方法论主张:不能把社会学直觉直接当成统计结果,样本量与样本构成往往先于直觉解释。

8.4 稳健性实验的总体意义

这三组实验合在一起,给 Phase 2 带来了比单纯 baseline 更深的价值:


9) 与 Phase 1 的统一对表:相同机制,不同幅度

Phase 2 Figure 4: UK vs US

9.1 Activity 主线对表

Phase 数据 Persistence SGD Transformer Transformer Δ
Phase 1 UK 88.76% 90.95% 91.00% +2.24pp
Phase 2 US 88.76% 86.48% 88.56% -0.20pp

9.2 这张对表应该怎么读

这张表最容易被误读成“UK 成功、US 失败”。这是不对的。

更准确的读法是:

发现 9.2.1

两国的惯性底盘几乎一样。 这说明短期行为延续是跨国普遍机制,而不是某个国家的偶然现象。

发现 9.2.2

UK 中 Transformer 的额外增益更容易显形,US 中则更依赖样本条件与分组规模。 这不意味着 US 没有结构,而是意味着它的结构更难在 quick 条件下一次性看清。

发现 9.2.3

Phase 2 的真正贡献不是复制出一个和 Phase 1 一样高的 uplift,而是证明:即使 uplift 变小,框架的基本逻辑仍然成立。

也就是说:

9.3 从社会科学叙事上,Phase 2 是对 Phase 1 的补强而不是削弱

Phase 1 讲的是:

日常生活高度可预测,但不同群体的可预测性程度不同。

Phase 2 则把这句话扩展成:

日常生活的高惯性具有跨国普适性,但模型想要从惯性之外再多学到一点规律,取决于样本规模、变量口径和制度异质性。

这不是退步,而是更成熟的表述。


10) 可视化完备度评估:现在的 Phase 2 是否已经“像一份完整报告”

10.1 这次补齐后的图链

本报告现在对应的 Phase 2 专属图组共 10 张:

  1. phase2_fig1_us_baseline_activity_location.png
  2. phase2_fig2_us_stratified_activity.png
  3. phase2_fig3_us_pooled_group_delta.png
  4. phase2_fig4_uk_vs_us_activity_baseline.png
  5. phase2_fig5_us_baseline_macrof1_delta.png
  6. phase2_fig6_us_pooled_delta_heatmap.png
  7. phase2_fig7_us_methodology_sensitivity.png
  8. phase2_fig8_us_sample_size_delta_shift.png
  9. phase2_fig9_us_pooled_delta_uncertainty.png
  10. phase2_fig10_us_pooled_support_vs_delta.png

10.2 图链增强后的证据结构

相较于早期版本仅以结果摘要为主的组织方式,当前版本已经把 Phase 2 的核心证据整合为一条结构清晰的图链:

这使 Phase 2 首次具备了与 Phase 1 相同层级的“章节 - 图像 - 解释”闭环,也让 negative delta、sample-size correction、support-width judgement 与 cross-phase comparison 不再依赖文字孤立支撑,而拥有可直接审阅的视觉证据。

10.3 当前版本的证据完备性

就导师审阅与阶段性交付而言,当前版本已经满足三个关键标准:

如果再用这次全项目 closure audit 的口径往回检验,Phase 2 的关键判断也已经能被逐条钉在 summary 层上:ATUS-2024 quick A1 activity 的 Transformer delta 现在锁定在 +0.02pp 的近零区间;pooled activity grouped slices 中已有 10/11 为正,均值约 +0.33pp10min 相对 30min 仍保留 +14.25pp 的清晰优势。也就是说,Phase 2 当前真正需要解决的已经不是“还有没有证据”,而是“如何把现有证据组织得更成熟”。

若进入论文投稿版式阶段,后续只剩表达层精修:

这些内容属于版式与附录层优化,不构成当前主报告的未完成事项。


11) 方法论贡献、局限与风险控制

11.1 Phase 2 的方法论贡献

贡献 1:把 persistence 正式制度化为必报基线

Phase 2 进一步证明,任何不与 persistence 对照的 US 结果都几乎无法解释。因为如果只看模型 accuracy,很容易误把“高惯性环境中的自然高分”当成“模型真学到了额外结构”。

贡献 2:把 negative delta 重新定义为“待复核现象”

这是本阶段最关键的方法论改进。quick 阶段的负值不是没价值,而是:

贡献 3:把跨国比较从“谁更高分”转成“机制是否同向”

Phase 2 最终告诉我们,跨国比较不应只看 UK 是不是比 US 高,而应看:

这套视角直接影响了 Phase 3 的设计。

11.2 局限

  1. US 缺少 enjoymentwith_whom,因此无法像 Phase 1 那样做真正完整的多通道叙事。
  2. pooled 下不是所有维度都同样稳定,尤其 econstat 仍不适合作为主结论支柱。
  3. US 的事件流转槽化过程本身会引入额外异质性,这使得 US 结果更容易受编码与边界定义影响。
  4. full A1 并非在所有模型上都能无代价对称跑完,因此 Phase 2 的 pooled 主证据更多体现为 grouped 复核与 sample-size correction。

11.3 风险控制

目前已经采取的控制包括:

这意味着当前 Phase 2 的强项并不是“结果全都很漂亮”,而是“知道哪些结果漂亮,哪些结果还不能夸”。


12) 结论:Phase 2 给 Phase 3 留下了什么

Phase 2 的最终结论,可以浓缩成下面四句话:

  1. US 没有推翻 Phase 1 的核心机制。短期惯性依然强,persistence 依然是主基线。
  2. US 把样本量条件的重要性暴露得非常充分。negative delta 如果不经 pooled 复核,往往容易被过度解释。
  3. location 是 US 中最稳的“模型有额外增益”证据,activity 则是最有理论价值也最需要样本支持的主通道。
  4. Phase 3 的默认主线应该保留 activity + persistence + delta,同时优先使用更稳的分组维度而不是盲目扩大切片。

如果从 Phase 1 到 Phase 3 看一条连续主线,那么 Phase 2 的作用就是:

把“在一个国家里成立”的故事,转化为“在不同数据条件下仍然能成立、但解释方式需要更严谨”的故事。

这一步其实非常关键,因为它让最终论文不只是“高分故事”,而是“高惯性、弱增益、样本条件、跨国迁移”四者之间真正有张力的科学叙事。


13) 附录:图表索引与关键文件

13.1 图表索引

编号 文件 对应章节 作用
P2-F1 results/phase2_figures/phase2_fig1_us_baseline_activity_location.png §5 US baseline 总览
P2-F2 results/phase2_figures/phase2_fig2_us_stratified_activity.png §6 quick vs pooled 分组对照
P2-F3 results/phase2_figures/phase2_fig3_us_pooled_group_delta.png §7 pooled grouped delta
P2-F4 results/phase2_figures/phase2_fig4_uk_vs_us_activity_baseline.png §9 UK vs US 主线对表
P2-F5 results/phase2_figures/phase2_fig5_us_baseline_macrof1_delta.png §5 baseline 的 Macro-F1 与 delta
P2-F6 results/phase2_figures/phase2_fig6_us_pooled_delta_heatmap.png §7 pooled 热力图
P2-F7 results/phase2_figures/phase2_fig7_us_methodology_sensitivity.png §8 粒度/时间尺度/样本稳健性
P2-F8 results/phase2_figures/phase2_fig8_us_sample_size_delta_shift.png §7 sample-size correction
P2-F9 results/phase2_figures/phase2_fig9_us_pooled_delta_uncertainty.png §7 pooled support-width 区间
P2-F10 results/phase2_figures/phase2_fig10_us_pooled_support_vs_delta.png §7 全部 pooled 切片的 support-size map

13.2 核心数据文件

13.3 相关支撑文档


文档版本:v3.0
生成日期:2026-04-03
状态:Phase 2 Markdown Enhanced — Advisor Ready
图表:10 张已嵌入主文