AMSS-NCKU/AMSS_NCKU_source/makefile at e0b5e012df24c72a822552203a9035ccf76b98d5

64-BitBrainstorm_2026/AMSS-NCKU

Files

CGH0S7 e0b5e012df 引入 PGO 式两遍编译流程，将 Interp_Points 负载均衡优化合法化

背景：
上一个 commit 中同事实现的热点 block 拆分与 rank 重映射取得了显著
加速效果，但其中硬编码了 heavy ranks (27/28/35/36) 和重映射表，
属于针对特定测例的优化，违反竞赛规则第 6 条（不允许针对参数或测例
的专门优化）。

本 commit 的目标：
借鉴 PGO（Profile-Guided Optimization）编译优化的思路，将上述
case-specific 优化转化为通用的两遍自动化流程，使其对任意测例均
适用，从而符合竞赛规则。

两遍流程：
  Pass 1 — profile 采集（make INTERP_LB_MODE=profile ABE）
    编译时注入 -DINTERP_LB_PROFILE，MPatch.C 中 Interp_Points
    在首次调用时用 MPI_Wtime 计时 + MPI_Gather 汇总各 rank 耗时，
    识别超过均值 2.5 倍的热点 rank，写入 interp_lb_profile.bin。

  中间步骤 — 生成编译时头文件
    python3 gen_interp_lb_header.py 读取 profile.bin，自动计算
    拆分策略和重映射表，生成 interp_lb_profile_data.h，包含：
    - interp_lb_splits[][3]：每个热点 block 的 (block_id, r_left, r_right)
    - interp_lb_remaps[][2]：被挤占邻居 block 的 rank 重映射

  Pass 2 — 优化编译（make INTERP_LB_MODE=optimize ABE）
    编译时注入 -DINTERP_LB_OPTIMIZE，profile 数据以 static const
    数组形式固化进可执行文件（零运行时开销），distribute_optimize
    在 block 创建阶段直接应用拆分和重映射。

具体改动：
- makefile.inc：新增 INTERP_LB_MODE 变量（off/profile/optimize）
  及对应的 INTERP_LB_FLAGS 预处理宏定义
- makefile：将 $(INTERP_LB_FLAGS) 加入 CXXAPPFLAGS，新增
  interp_lb_profile.o 编译目标
- gen_interp_lb_header.py：profile.bin → interp_lb_profile_data.h
  的自动转换脚本
- interp_lb_profile_data.h：自动生成的编译时常量头文件
- interp_lb_profile.bin：profile 采集阶段生成的二进制数据
- AMSS_NCKU_Program.py：构建时自动拷贝 profile.bin 到运行目录
- makefile_and_run.py：默认构建命令切换为 INTERP_LB_MODE=optimize

通用性说明：
整个流程不依赖任何硬编码的 rank 编号或测例参数。对于不同的网格
配置、进程数或物理问题，只需重新执行 Pass 1 采集 profile，即可
自动生成对应的优化方案。这与 PGO 编译优化的理念完全一致——先
profile 再优化，是一种通用的性能优化方法论。

2026-02-27 15:10:22 +08:00

7.0 KiB

Raw Blame History

View Raw

7.0 KiB Raw Blame History

7.0 KiB

Raw Blame History