perf(restrict3): shrink X-pass ii sweep to required overlap window

- compute fi_min/fi_max from output i-range and derive ii_lo/ii_hi - replace full ii sweep (-1:extf(1)) with windowed sweep in Z/Y precompute passes - keep stencil math unchanged; add bounds sanity check for ii window
2026-03-02 16:08:13 +08:00
parent 2a977ce82e
commit 485667ef4c
1 changed files with 42 additions and 29 deletions
--- a/AMSS_NCKU_source/prolongrestrict_cell.f90
+++ b/AMSS_NCKU_source/prolongrestrict_cell.f90
@@ -2355,6 +2355,7 @@ end do
  real*8 :: tmp_xz_plane(-1:extf(1), 6)
  real*8 :: tmp_x_line(-1:extf(1))
  integer :: fi, fj, fk, ii, jj, kk
+  integer :: fi_min, fi_max, ii_lo, ii_hi

  if(wei.ne.3)then
     write(*,*)"prolongrestrict.f90::restrict3: this routine only surport 3 dimension"
@@ -2436,6 +2437,18 @@ end do

  call symmetry_bd(2,extf,funf,funff,SoA)

+  ! 仅计算 X 向最终写回所需的窗口：
+  ! func(i,j,k) 只访问 tmp_x_line(fi-2:fi+3)
+  fi_min = 2*(imino + lbc(1) - 1) - 1 - lbf(1) + 1
+  fi_max = 2*(imaxo + lbc(1) - 1) - 1 - lbf(1) + 1
+  ii_lo = fi_min - 2
+  ii_hi = fi_max + 3
+  if(ii_lo < -1 .or. ii_hi > extf(1))then
+      write(*,*)"restrict3: invalid ii window",ii_lo,ii_hi
+      write(*,*)"imino,imaxo,lbc(1),lbf(1),extf(1) = ",imino,imaxo,lbc(1),lbf(1),extf(1)
+      stop
+  endif
+
 !~~~~~~> restriction start...
 do k = kmino, kmaxo
    fk = 2*(k + lbc(3) - 1) - 1 - lbf(3) + 1
@@ -2446,7 +2459,7 @@ do k = kmino, kmaxo
        ! 优化点 1: 显式展开 Z 方向计算，减少循环开销
        ! 确保 ii 循环是最内层且连续访问
        !DIR$ VECTOR ALWAYS
-        do ii = -1, extf(1)
+        do ii = ii_lo, ii_hi
            ! 预计算当前 j 对应的 6 行在 Z 方向的压缩结果
            ! 这里直接硬编码 jj 的偏移，彻底消除一层循环
            tmp_xz_plane(ii, 1) = C1*(funff(ii,fj-2,fk-2)+funff(ii,fj-2,fk+3)) + &
@@ -2471,7 +2484,7 @@ do k = kmino, kmaxo

        ! 优化点 2: 同样向量化 Y 方向压缩
        !DIR$ VECTOR ALWAYS
-        do ii = -1, extf(1)
+        do ii = ii_lo, ii_hi
            tmp_x_line(ii) = C1*(tmp_xz_plane(ii, 1) + tmp_xz_plane(ii, 6)) + &
                            C2*(tmp_xz_plane(ii, 2) + tmp_xz_plane(ii, 5)) + &
                            C3*(tmp_xz_plane(ii, 3) + tmp_xz_plane(ii, 4))