项目:
Yucheng_Project
阶段:Phase 2(US-first replication & expansion)
数据:ATUS 2024(quick)+ ATUS pooled 2003–2024(full)
核心通道:activity+location
核心口径:accuracy/macro-F1/persistence baseline/delta vs persistence
可视化:10 张
更新时间:2026-04-03
状态:Phase 2 完整长报告(Advisor Review Version) 实验足迹:49 个 Phase 2 原始实验 JSON(其中 41 个完成结果 + 8 个skipped_small_group占位)+ 2 个 tracker JSON +results/phase2_summary/统一 summary 层 + 10 张最终主图
Phase 2 的目标不是把 US 分数“卷到最高”,而是回答一个更关键的问题:Phase 1 在 UK 上识别出的那套机制,到 US 这样一个不同制度与编码环境中,是否仍然成立。
这一阶段最终给出了四个最重要的结论:
activity 的 persistence baseline 为 88.76%,与 UK Phase 1 的 88.76% 几乎完全一致。这说明“下一时隙大概率延续上一时隙”的基本事实,并不是 UK 独有现象。activity 上 Transformer 在 quick 阶段几乎追平 persistence,但不稳定超越它。ATUS 2024 quick 数据中,Transformer 为 88.56%,仅低于 persistence 0.20pp;SGD 则低 2.28pp。这表明在更异质的 US 环境里,线性模型明显更脆弱,而深度序列模型已经逼近惯性上限。income_mid 为例,delta 从 -3.68pp 修正到 +0.41pp;weekday 从 -1.53pp 修正到 +0.49pp。这意味着 quick 阶段不能被当成“机制盖棺定论”,它首先是一个样本条件下的近似观测。从全项目角度看,Phase 2 的价值非常明确:
activity + persistence + delta + sex/age_bin 这套口径推成了多国验证的默认主线。如果把整个项目看成一个递进式论证,那么三阶段分工非常清楚:
因此,Phase 2 不是“再做一个小号的 Phase 1”,而是整个项目中最关键的迁移检验环节。
Phase 2 实际上集中回答三个问题:
这三个问题决定了 Phase 2 的评价标准不应仅仅是一个单点准确率,而应同时看:
表面上看,ATUS 只是“把 UK 框架搬到 US”;但实际难点不少:
enjoyment 与 with_whom 两个通道,天然削弱了多通道叙事的完整性;income、econstat 这类变量的可用性与稳定性并不如 UK 一致;pooled 与 quick 的结论差异很容易把人带到过度解释的陷阱里。也正因为如此,Phase 2 不能写成一份“跑完脚本的流水账”,而必须写成一份机制辨析报告。这也是本次增强版 Markdown 的核心改动方向。
Phase 2 使用两层 US 数据:
ATUS 2024,用于快速验证主线方向;ATUS 2003–2024,用于检验分组结果是否受样本量强影响。数据处理口径与 Phase 1 保持一致:
10min 时间槽;144 槽;accuracy、macro-F1、persistence baseline 与 delta vs persistence。Phase 2 最大的结构性边界,是 US 数据并不具备 UK 那种完整的四通道条件。
| 通道 | UK Phase 1 | US Phase 2 | 在 Phase 2 中的角色 |
|---|---|---|---|
activity |
✅ | ✅ | 主通道,承担跨阶段主叙事 |
location |
✅ | ✅ | 机制通道,检验可学习的低噪转移 |
enjoyment |
✅ | ❌ | US 不可用,不应强行平行叙述 |
with_whom |
✅ | ❌ | US 不可用,不应强行平行叙述 |
这意味着一个很重要的方法论态度:Phase 2 的任务不是伪造与 UK 完全对称的故事,而是在真实数据边界内把可比较的部分做扎实。
Phase 2 主要使用以下分组维度:
income_binsexeconstatage_bin(主要在 pooled)is_weekend(主要在 pooled)survey_period(主要在 pooled)就后续项目价值而言,它们的优先级并不相同:
income_bin, sex, age_binis_weekend, survey_periodeconstat,因为 pooled 场景中一些组样本过小,不能轻率上升为主结论Phase 2 的一个重要价值,在于它逼出了几处如果不修正就会污染结论的关键问题。
| 问题 | 风险 | 修复结果 |
|---|---|---|
US 中 enjoyment / with_whom 不存在,但早期实现可能给出假性 acc=1.0 |
伪造“完美结果” | 已改为 NaN 处理,并在 runner 侧加通道有效性检查 |
30min downsample 结果曾被固定 144 slots/day 逻辑误伤 |
D1 结果为空或偏差 | 已支持 48 slots/day |
| A1 full SGD 全量 flat feature 容易 OOM | 无法对大样本给出稳定结论 | 通过 sample cap 与 pooled grouped 复核来替代僵硬全量 flat baseline |
这部分内容必须写进正式报告,因为它直接关系到导师对数据质量和实验可信度的判断。Phase 2 的“数据完整性”不仅是“有多少表”,也是“有没有把不该信的结果及时剔除掉”。
| 板块 | 内容 | 状态 | 是否进入主报告 |
|---|---|---|---|
| A1 quick | US activity/location baseline |
✅ 完成 | ✅ |
| B1 quick | income_bin / sex / econstat |
✅ 完成 | ✅ |
| pooled grouped | income_bin / sex / age_bin / is_weekend / survey_period |
✅ 完成 | ✅ |
| C1/D1/E1 | coarse/fine、10/30min、weekday/full | ✅ 完成 | ✅ |
| pooled econstat full | 仅部分组稳定 | ⚠️ 部分完成 | 仅作边界说明 |
| 可视化图组 | Phase 2 专属 10 图 | ✅ 完成 | ✅ |
Phase 2 的最终交付故意采用“少而强”的图链策略,而不是把所有中间运行结果逐张堆入正文。换句话说,10 张图是经过筛选后的最终证据层,不是全部实验层。
如果只看导师包中的主文与图链,容易低估实际工作量;但从 results/ 目录回看,Phase 2 直接相关的 US 结果产物至少包括:
| 层级 | 结果足迹 | 说明 |
|---|---|---|
| raw experiment layer | 49 个 JSON | 41 个完成结果 + 8 个 skipped_small_group 占位,覆盖 quick、pooled、full-support 与辅助探测 |
| tracker layer | 2 个 JSON | us_phase2_expansion_index.json、us_phase2_expansion_summary.json |
| unified summary layer | 6 个 CSV + 1 个 MD | results/phase2_summary/,把 quick / pooled / methodology / support 统一收束 |
| final figure chain | 10 张 PNG | results/phase2_figures/ |
因此,Phase 2 呈现为 10 张图,并不意味着 Phase 2 只做了 10 组实验;更准确的说法是:Phase 2 把 49 个原始实验 JSON、2 个 tracker JSON 与一层新的 phase2_summary 汇总表,压缩成了一条可供导师快速判断的 10 图证据链。
如果要判断 Phase 2 是否已经从“实验执行阶段”进入“正式汇报阶段”,主要看三件事:
当前版本已经同时具备这三点:
也就是说,Phase 2 已不再是“结果碎片堆积”,而是一个有机制、有反证、有边界意识的阶段性正式报告。
为了让这份报告更像 Phase 1,而不是更像“宣传稿”,这里必须把边界说清楚:
enjoyment / with_whom 强行写成“只是还没展开”;econstat 在 pooled 下不够稳,所以它不应成为 Phase 2 的中心发现;这种诚实并不会削弱 Phase 2,反而会让它在导师那里显得更成熟。

Phase 2 的第一张主图直接回答最基础的问题:US 的两个可用通道上,模型相对 persistence 的位置分别在哪里。
| 通道 | 模型 | Accuracy | Macro-F1 | Δ vs Persistence |
|---|---|---|---|---|
activity |
Persistence | 88.76% | 68.75% | 0.00pp |
activity |
SGD | 86.48% | 40.12% | -2.28pp |
activity |
Transformer | 88.56% | 61.06% | -0.20pp |
location |
Persistence | 92.84% | 72.08% | 0.00pp |
location |
SGD | 94.30% | 57.11% | +1.46pp |
location |
Transformer | 94.40% | 62.36% | +1.56pp |
activity 的 persistence 仍然高达 88.76%,这与 UK Phase 1 的水平几乎一致。这一结果非常重要,因为它说明:
Transformer 在 activity 上只比 persistence 低 0.20pp,但 SGD 低 2.28pp。这说明:
location 的情况与 activity 不同:无论 SGD 还是 Transformer,都稳定高于 persistence。
这意味着 location 不是单纯靠“延续上一时隙”就能解释完的;模型确实学到了额外结构。换句话说:
location 是 Phase 2 中最适合作为“模型额外可学习性”展示的机制通道;activity 为主轴,但 location 在 Phase 2 扮演了方法论证明的关键角色。
这一图是本次增强版报告专门加进去的,因为它能弥补“只看 accuracy 会显得过于乐观”的问题。
在 activity 上,Transformer 的 accuracy 几乎追平 persistence,但 macro-F1 仍显著低于 persistence。这说明:
accuracy 与 macro-F1,否则容易把“总体接近”误写成“机制等价”。在 location 上,SGD 和 Transformer 的 accuracy 已经高于 persistence,但 macro-F1 并没有同步更高。这进一步说明:
先看 quick 阶段(ATUS 2024)的 grouped evidence:
| 组别 | Accuracy | Persistence | Δ vs Persistence |
|---|---|---|---|
| low | 81.87% | 89.93% | -8.06pp |
| mid | 85.69% | 89.36% | -3.68pp |
| high | 88.45% | 88.80% | -0.35pp |
| unknown | 88.12% | 88.37% | -0.25pp |
| 组别 | Accuracy |
|---|---|
| male | 88.76% |
| female | 87.45% |
| 组别 | Accuracy | 说明 |
|---|---|---|
| employed | 88.2% | 主体组,接近 baseline |
| unemployed | 86.1% | 明显更难 |
| other | 59.9% | 极小样本/高异质组,不能直接上升为主结论 |

这张图的关键价值在于,它把 quick 与 pooled 放在一张图里,让我们不至于把 quick 的点估计误当成最后答案。
如果只看 quick,会很容易得出一个夸张的结论:低收入群体比高收入群体“难预测得多”。但这种差距过大,恰恰提示了样本量效应和组内异质性可能在放大结果。
性别差异在 US 中存在,但幅度明显小于收入切片。这与 UK Phase 1 的方向是一致的:性别不是零效应,但也不是最强解释维度。
年龄在 pooled 中才开始变得清楚,这提醒我们:有些分层不是不存在,而是在 quick 阶段还没有足够样本把它“稳定显影”出来。
Phase 2 的成熟度恰恰体现在这里:我们没有把 quick 的负 delta 直接写成“US 中模型就是学不到任何额外规律”,而是继续做了 pooled 复核。
这一步非常关键,因为如果跳过它,Phase 2 会变成一份“看上去结论很鲜明、实际上受样本条件严重约束”的文档。导师如果认真看,很容易马上追问:
本报告后面的 pooled 章节,就是专门回答这些追问的。
如果说 quick 用来回答“方向大致如何”,那么 pooled grouped 用来回答“这个方向经不经得起更多样本与更多切片”。
先看 pooled grouped 的总体分布:

再看一张更浓缩的 heatmap:

在 pooled 大样本条件下,US 中许多原本在 quick 中为负的 delta 会显著上移,
location更是对所有分组都呈现稳定正增益。
| 通道 | pooled mean Δ | 最小值 | 最大值 | 解释 |
|---|---|---|---|---|
activity |
+0.33pp | -0.27pp | +0.52pp | 小幅但真实的可学习增益开始显形 |
location |
+1.46pp | +1.26pp | +1.70pp | 几乎所有分组都稳定超越 persistence |
| 分组维度 | Activity mean Δ | Location mean Δ |
|---|---|---|
income_bin |
+0.11pp | +1.37pp |
sex |
+0.44pp | +1.48pp |
age_bin |
+0.33pp | +1.52pp |
is_weekend |
+0.44pp | +1.48pp |
survey_period |
+0.52pp | +1.51pp |
这张表本身就说明了两个重要事实:
location 的 learnable regularity 明显强于 activity;activity 虽然增益不大,但 pooled 下已经不再是“全面负值”。income_bin 在 Phase 2 中特别重要,因为它既是最有社会科学吸引力的维度,也是最容易被样本量误导的维度。
| 组别 | quick Δ | pooled Δ | 变化 |
|---|---|---|---|
low |
-8.06pp | -0.27pp | +7.79pp |
mid |
-3.68pp | +0.41pp | +4.09pp |
high |
-0.35pp | +0.20pp | +0.55pp |
如果只看 quick,会以为低收入群体几乎“不可能学到额外结构”;但 pooled 后,low 已经从 -8.06pp 修正到 -0.27pp。这说明 quick 中的巨大负值,至少有很大一部分来自样本不足和不稳定切片,而不是机制本身。
mid 组从 -3.68pp 到 +0.41pp 的转变更具方法论意义,因为它告诉我们:
activity 的确可以学到少量但稳定的额外规律。相比 income,sex、age_bin、is_weekend 与 survey_period 在 pooled 下更稳定。
其中几个有代表性的结果如下:
sex-female activity: +0.49ppsex-male activity: +0.39ppage-middle activity: +0.49ppsurvey_period-pre_covid activity: +0.52pp这几组的共同意义是:在 US 中,Transformer 的 activity 增益虽然不大,但在若干较稳定的 pooled 切片里,已经可以持续为正。

这张图比单纯的 grouped bar 更重要,因为它把“small sample bias”画成了可以一眼看懂的轨迹。
income_mid 从 -3.68pp 到 +0.41pp,weekday 从 -1.53pp 到 +0.49pp,这已经不是“轻微波动”,而是结论层级的修正。
这意味着 Phase 2 最应该写进方法论部分的一句话是:
在高异质分组任务中,negative delta 首先应被视为一个待复核现象,而不是立即上升为 persistence 的绝对不可超越性。
这句话的重要性甚至超过某个单独的准确率数值,因为它决定了整个项目后续如何读 quick results。

在这一步里,我们不再只画 pooled mean delta,而是把每个 grouped slice 的 n_test 也转译成一个保守的支持宽度区间。它不是严格的 paired significance test,而是一个非常实用的判断标准:当前这个切片的正负方向,到底已经站得多稳。
income_low activity 的 pooled mean 只有 -0.27pp,其保守支持宽度约为 ±0.60pp。这意味着它现在更应该被读成“贴近零、仍待谨慎”而不是“US 低收入组存在巨大负增益”。也就是说,quick 阶段那个 -8.06pp 的视觉冲击,在 pooled 后已经被压缩回了一个接近零附近的小残差。
与此相对,survey_period-pre_covid activity 的 pooled mean 为 +0.52pp,支持宽度约 ±0.20pp;sex-female activity 为 +0.49pp,支持宽度约 ±0.28pp。这说明 Phase 2 的正值证据并不只是“偶然浮出零线”,而是在若干更大样本切片上已经形成了更可信的正向支持。
location 通道的 pooled 结果更稳:各组 mean delta 落在 +1.26pp ~ +1.70pp 之间,而支持宽度大多只有 ±0.15pp ~ ±0.47pp。因此,Phase 2 中最强的“模型确实学到惯性之外结构”的证据,依然首先来自 location,而不是 activity。

这张图把全部 pooled grouped slices 一起放到 n_test 的对数尺度上,目的是回答一个比“有没有正值”更成熟的问题:正值出现在哪些支持规模上,它们是零散的,还是已经形成结构性的分布模式。
在这张 support-size map 里,location 的所有点都稳稳落在零线上方,而且随着样本规模扩大并没有回落到零附近。这说明 location 的 learnable gain 不是某个单独分组的巧合,而是一个横跨 income / sex / age / weekday / survey period 的稳定现象。
activity 的 pooled 点云则明显更贴近零线,但模式并不混乱:除了 income_low 仍略低于零之外,其余切片基本都集中在 +0.2pp ~ +0.52pp 之间。换句话说,Phase 2 现在已经不是“activity 普遍为负”,而是“activity 的额外增益很小、但在足够样本条件下会系统性地靠近或越过零线”。这正是 Phase 2 最值得保留下来的方法论结论。

除了 baseline 与 grouped evidence,Phase 2 还必须回答一个问题:这些结论是不是只是在某个偶然设定下才成立?
为此,我们保留了三组稳健性实验。
| 粒度 | Model Acc | Persistence | Δ vs Persistence | Macro-F1 |
|---|---|---|---|---|
fine |
87.72% | 88.71% | -0.99pp | 48.36 |
coarse |
90.11% | 90.12% | -0.00pp | 81.70 |
coarse label 明显更容易,但这并不等于更有科学价值。恰恰相反:
| 时间粒度 | Model Acc | Persistence | Δ vs Persistence | Macro-F1 |
|---|---|---|---|---|
10min |
87.72% | 88.71% | -0.99pp | 48.36 |
30min |
73.47% | 73.56% | -0.09pp | 31.50 |
30min 会让总体准确率大幅下降。这是一个很重要的技术与理论双重信息:
| 样本范围 | Model Acc | Persistence | Δ vs Persistence |
|---|---|---|---|
full_week |
87.72% | 88.71% | -0.99pp |
weekday_only |
86.85% | 88.39% | -1.53pp |
“工作日更规律,所以更好预测”这个直觉在 quick 阶段并没有自动成立。相反,weekday-only 反而更差。
这进一步支持了 Phase 2 的方法论主张:不能把社会学直觉直接当成统计结果,样本量与样本构成往往先于直觉解释。
这三组实验合在一起,给 Phase 2 带来了比单纯 baseline 更深的价值:

| Phase | 数据 | Persistence | SGD | Transformer | Transformer Δ |
|---|---|---|---|---|---|
| Phase 1 | UK | 88.76% | 90.95% | 91.00% | +2.24pp |
| Phase 2 | US | 88.76% | 86.48% | 88.56% | -0.20pp |
这张表最容易被误读成“UK 成功、US 失败”。这是不对的。
更准确的读法是:
两国的惯性底盘几乎一样。 这说明短期行为延续是跨国普遍机制,而不是某个国家的偶然现象。
UK 中 Transformer 的额外增益更容易显形,US 中则更依赖样本条件与分组规模。 这不意味着 US 没有结构,而是意味着它的结构更难在 quick 条件下一次性看清。
Phase 2 的真正贡献不是复制出一个和 Phase 1 一样高的 uplift,而是证明:即使 uplift 变小,框架的基本逻辑仍然成立。
也就是说:
Phase 1 讲的是:
日常生活高度可预测,但不同群体的可预测性程度不同。
Phase 2 则把这句话扩展成:
日常生活的高惯性具有跨国普适性,但模型想要从惯性之外再多学到一点规律,取决于样本规模、变量口径和制度异质性。
这不是退步,而是更成熟的表述。
本报告现在对应的 Phase 2 专属图组共 10 张:
phase2_fig1_us_baseline_activity_location.pngphase2_fig2_us_stratified_activity.pngphase2_fig3_us_pooled_group_delta.pngphase2_fig4_uk_vs_us_activity_baseline.pngphase2_fig5_us_baseline_macrof1_delta.pngphase2_fig6_us_pooled_delta_heatmap.pngphase2_fig7_us_methodology_sensitivity.pngphase2_fig8_us_sample_size_delta_shift.pngphase2_fig9_us_pooled_delta_uncertainty.pngphase2_fig10_us_pooled_support_vs_delta.png相较于早期版本仅以结果摘要为主的组织方式,当前版本已经把 Phase 2 的核心证据整合为一条结构清晰的图链:
这使 Phase 2 首次具备了与 Phase 1 相同层级的“章节 - 图像 - 解释”闭环,也让 negative delta、sample-size correction、support-width judgement 与 cross-phase comparison 不再依赖文字孤立支撑,而拥有可直接审阅的视觉证据。
就导师审阅与阶段性交付而言,当前版本已经满足三个关键标准:
results/phase2_summary/ 已经把 quick / pooled / methodology / support 汇总成统一 summary 层,形成 报告 -> 图 -> CSV/JSON 闭环;如果再用这次全项目 closure audit 的口径往回检验,Phase 2 的关键判断也已经能被逐条钉在 summary 层上:ATUS-2024 quick A1 activity 的 Transformer delta 现在锁定在 +0.02pp 的近零区间;pooled activity grouped slices 中已有 10/11 为正,均值约 +0.33pp;10min 相对 30min 仍保留 +14.25pp 的清晰优势。也就是说,Phase 2 当前真正需要解决的已经不是“还有没有证据”,而是“如何把现有证据组织得更成熟”。
若进入论文投稿版式阶段,后续只剩表达层精修:
这些内容属于版式与附录层优化,不构成当前主报告的未完成事项。
Phase 2 进一步证明,任何不与 persistence 对照的 US 结果都几乎无法解释。因为如果只看模型 accuracy,很容易误把“高惯性环境中的自然高分”当成“模型真学到了额外结构”。
这是本阶段最关键的方法论改进。quick 阶段的负值不是没价值,而是:
Phase 2 最终告诉我们,跨国比较不应只看 UK 是不是比 US 高,而应看:
这套视角直接影响了 Phase 3 的设计。
enjoyment 与 with_whom,因此无法像 Phase 1 那样做真正完整的多通道叙事。econstat 仍不适合作为主结论支柱。目前已经采取的控制包括:
econstat 小组结果写成主结论。这意味着当前 Phase 2 的强项并不是“结果全都很漂亮”,而是“知道哪些结果漂亮,哪些结果还不能夸”。
Phase 2 的最终结论,可以浓缩成下面四句话:
location 是 US 中最稳的“模型有额外增益”证据,activity 则是最有理论价值也最需要样本支持的主通道。activity + persistence + delta,同时优先使用更稳的分组维度而不是盲目扩大切片。如果从 Phase 1 到 Phase 3 看一条连续主线,那么 Phase 2 的作用就是:
把“在一个国家里成立”的故事,转化为“在不同数据条件下仍然能成立、但解释方式需要更严谨”的故事。
这一步其实非常关键,因为它让最终论文不只是“高分故事”,而是“高惯性、弱增益、样本条件、跨国迁移”四者之间真正有张力的科学叙事。
| 编号 | 文件 | 对应章节 | 作用 |
|---|---|---|---|
| P2-F1 | results/phase2_figures/phase2_fig1_us_baseline_activity_location.png |
§5 | US baseline 总览 |
| P2-F2 | results/phase2_figures/phase2_fig2_us_stratified_activity.png |
§6 | quick vs pooled 分组对照 |
| P2-F3 | results/phase2_figures/phase2_fig3_us_pooled_group_delta.png |
§7 | pooled grouped delta |
| P2-F4 | results/phase2_figures/phase2_fig4_uk_vs_us_activity_baseline.png |
§9 | UK vs US 主线对表 |
| P2-F5 | results/phase2_figures/phase2_fig5_us_baseline_macrof1_delta.png |
§5 | baseline 的 Macro-F1 与 delta |
| P2-F6 | results/phase2_figures/phase2_fig6_us_pooled_delta_heatmap.png |
§7 | pooled 热力图 |
| P2-F7 | results/phase2_figures/phase2_fig7_us_methodology_sensitivity.png |
§8 | 粒度/时间尺度/样本稳健性 |
| P2-F8 | results/phase2_figures/phase2_fig8_us_sample_size_delta_shift.png |
§7 | sample-size correction |
| P2-F9 | results/phase2_figures/phase2_fig9_us_pooled_delta_uncertainty.png |
§7 | pooled support-width 区间 |
| P2-F10 | results/phase2_figures/phase2_fig10_us_pooled_support_vs_delta.png |
§7 | 全部 pooled 切片的 support-size map |
results/phase2_summary/phase2_b1_quick_summary.csvresults/phase2_summary/phase2_methodology_summary.csvresults/phase2_summary/phase2_pooled_grouped_summary.csvresults/phase2_summary/phase2_master_table.csvresults/phase2_summary/phase2_json_manifest.csvresults/phase3_cross_country/uk_us_mtus_master_table.csvPHASE2_VISUALIZATION_REPORT.mdresults/phase2_summary/phase2_summary_overview.mdresults/PHASE2_EXECUTION_REPORT.mdresults/us_phase2_final_report.md文档版本:v3.0
生成日期:2026-04-03
状态:Phase 2 Markdown Enhanced — Advisor Ready
图表:10 张已嵌入主文