Stabilize device AMR restrict across regrid

2026-04-30 20:01:18 +08:00
parent be9033f449
commit b1974ef146
3 changed files with 247 additions and 0 deletions
--- a/AMSS_NCKU_source/bssn_class.C
+++ b/AMSS_NCKU_source/bssn_class.C
@@ -583,6 +583,148 @@ void bssn_cuda_download_level_state(MyList<Patch> *PatL, MyList<var> *vars, int
  }
 }
 void bssn_cuda_download_level_state_if_present(MyList<Patch> *PatL, MyList<var> *vars, int myrank)
 {
  MyList<Patch> *Pp = PatL;
  while (Pp)
  {
    MyList<Block> *BP = Pp->data->blb;
    while (BP)
    {
      Block *cg = BP->data;
      if (myrank == cg->rank && bssn_cuda_has_resident_state(cg))
      {
        double *state_out[BSSN_CUDA_STATE_COUNT];
        if (!fill_bssn_cuda_views(cg, vars, state_out))
        {
          cout << "CUDA BSSN state list mismatch on resident state conditional download" << endl;
          MPI_Abort(MPI_COMM_WORLD, 1);
        }
        if (bssn_cuda_download_resident_state_if_present(cg, cg->shape, state_out))
        {
          cout << "CUDA resident state conditional download failed" << endl;
          MPI_Abort(MPI_COMM_WORLD, 1);
        }
      }
      if (BP == Pp->data->ble)
        break;
      BP = BP->next;
    }
    Pp = Pp->next;
  }
 }
 void bssn_cuda_release_level_state(MyList<Patch> *PatL, int myrank)
 {
  MyList<Patch> *Pp = PatL;
  while (Pp)
  {
    MyList<Block> *BP = Pp->data->blb;
    while (BP)
    {
      Block *cg = BP->data;
      if (myrank == cg->rank && bssn_cuda_has_resident_state(cg))
        bssn_cuda_release_step_ctx(cg);
      if (BP == Pp->data->ble)
        break;
      BP = BP->next;
    }
    Pp = Pp->next;
  }
 }
 void bssn_cuda_flush_level_before_regrid(MyList<Patch> *PatL,
                                         MyList<var> *corL,
                                         MyList<var> *oldL,
                                         MyList<var> *stateL,
                                         MyList<var> *preL,
                                         int myrank)
 {
  bssn_cuda_download_level_state_if_present(PatL, corL, myrank);
  bssn_cuda_download_level_state_if_present(PatL, oldL, myrank);
  bssn_cuda_download_level_state_if_present(PatL, stateL, myrank);
  bssn_cuda_download_level_state_if_present(PatL, preL, myrank);
  bssn_cuda_release_level_state(PatL, myrank);
 }
 bool bssn_cuda_regrid_flush_enabled()
 {
  static int enabled = -1;
  if (enabled < 0)
  {
    const char *env = getenv("AMSS_CUDA_AMR_RESTRICT_DEVICE");
    enabled = (env && atoi(env) != 0) ? 1 : 0;
  }
  return enabled != 0;
 }
 bool bssn_cuda_will_regrid_onelevel(cgh *GH, int lev, int Symmetry, int BH_num, double **Porg0)
 {
  if (!GH || lev < GH->movls || lev >= GH->levels || !GH->PatL[lev])
    return false;
  if (!GH->PatL[lev]->data || !GH->PatL[lev]->data->blb || !GH->PatL[lev]->data->blb->data)
    return true;
  const int do_every = 2;
  const double dX = GH->PatL[lev]->data->blb->data->getdX(0);
  const double dY = GH->PatL[lev]->data->blb->data->getdX(1);
  const double dZ = GH->PatL[lev]->data->blb->data->getdX(2);
  for (int grd = 0; grd < GH->grids[lev]; grd++)
  {
    int bhi = 0;
    for (bhi = 0; bhi < BH_num; bhi++)
    {
      if (feq(GH->Porgls[lev][bhi][0], GH->handle[lev][grd][0], 2 * do_every * dX) &&
          feq(GH->Porgls[lev][bhi][1], GH->handle[lev][grd][1], 2 * do_every * dY) &&
          feq(GH->Porgls[lev][bhi][2], GH->handle[lev][grd][2], 2 * do_every * dZ))
        break;
    }
    if (bhi == BH_num)
    {
      if (feq(0, GH->bbox[lev][grd][0], dX / 2) &&
          feq(0, GH->bbox[lev][grd][1], dY / 2) &&
          feq(0, GH->bbox[lev][grd][2], dZ / 2))
        continue;
      if (BH_num == 1)
        bhi = 0;
      else
        return true;
    }
    double rr = (Porg0[bhi][0] - GH->handle[lev][grd][0]) / dX;
    int flag = (rr > 0) ? int(rr + 0.5) / do_every : int(rr - 0.5) / do_every;
    rr = flag * do_every * dX;
    if (Symmetry == 2 && GH->bbox[lev][grd][0] + rr < 0)
      rr = -GH->bbox[lev][grd][0];
    if (fabs(rr) > dX / 2)
      return true;
    rr = (Porg0[bhi][1] - GH->handle[lev][grd][1]) / dY;
    flag = (rr > 0) ? int(rr + 0.5) / do_every : int(rr - 0.5) / do_every;
    rr = flag * do_every * dY;
    if (Symmetry == 2 && GH->bbox[lev][grd][1] + rr < 0)
      rr = -GH->bbox[lev][grd][1];
    if (fabs(rr) > dY / 2)
      return true;
    rr = (Porg0[bhi][2] - GH->handle[lev][grd][2]) / dZ;
    flag = (rr > 0) ? int(rr + 0.5) / do_every : int(rr - 0.5) / do_every;
    rr = flag * do_every * dZ;
    if (Symmetry > 0 && GH->bbox[lev][grd][2] + rr < 0)
      rr = -GH->bbox[lev][grd][1];
    if (fabs(rr) > dZ / 2)
      return true;
  }
  return false;
 }
 bool bssn_cuda_should_flush_before_regrid(cgh *GH, int lev, int Symmetry, int BH_num, double **Porg0)
 {
  return bssn_cuda_regrid_flush_enabled() &&
         bssn_cuda_will_regrid_onelevel(GH, lev, Symmetry, BH_num, Porg0);
 }
 void bssn_cuda_sync_level_bh_fields(MyList<Patch> *PatL,
                                    int myrank,
                                    var *forx, var *fory, var *forz)
@@ -2839,6 +2981,14 @@ void bssn_class::Evolve(int Steps)
 #if (REGLEV == 1)
    STEP_TIMER_DECL(timer_regrid);
 #if USE_CUDA_BSSN
    for (int il = 0; il < GH->levels; il++)
      if (bssn_cuda_should_flush_before_regrid(GH, il, Symmetry, BH_num, Porg0))
        bssn_cuda_flush_level_before_regrid(GH->PatL[il],
                                            SynchList_cor, OldStateList,
                                            StateList, SynchList_pre,
                                            myrank);
 #endif
    GH->Regrid(Symmetry, BH_num, Porgbr, Porg0,
               SynchList_cor, OldStateList, StateList, SynchList_pre,
               fgt(PhysTime - dT_mon, StartTime, dT_mon / 2), ErrorMonitor);
@@ -3075,6 +3225,13 @@ void bssn_class::RecursiveStep(int lev)
 #if (REGLEV == 0)
  STEP_TIMER_DECL(timer_regrid_onelevel);
 #if USE_CUDA_BSSN
  if (bssn_cuda_should_flush_before_regrid(GH, lev, Symmetry, BH_num, Porg0))
    bssn_cuda_flush_level_before_regrid(GH->PatL[lev],
                                        SynchList_cor, OldStateList,
                                        StateList, SynchList_pre,
                                        myrank);
 #endif
  if (GH->Regrid_Onelevel(lev, Symmetry, BH_num, Porgbr, Porg0,
                      SynchList_cor, OldStateList, StateList, SynchList_pre,
                      fgt(PhysTime - dT_lev, StartTime, dT_lev / 2), ErrorMonitor))
@@ -3261,6 +3418,13 @@ void bssn_class::ParallelStep()
  delete[] tporg;
  delete[] tporgo;
 #if (REGLEV == 0)
 #if USE_CUDA_BSSN
  if (bssn_cuda_should_flush_before_regrid(GH, GH->mylev, Symmetry, BH_num, Porg0))
    bssn_cuda_flush_level_before_regrid(GH->PatL[GH->mylev],
                                        SynchList_cor, OldStateList,
                                        StateList, SynchList_pre,
                                        myrank);
 #endif
  if (GH->Regrid_Onelevel(GH->mylev, Symmetry, BH_num, Porgbr, Porg0,
                      SynchList_cor, OldStateList, StateList, SynchList_pre,
                      fgt(PhysTime - dT_lev, StartTime, dT_lev / 2), ErrorMonitor))
@@ -3432,6 +3596,13 @@ void bssn_class::ParallelStep()
      if (lev + 1 >= GH->movls)
      {
        //	       GH->Regrid_Onelevel_aux(lev,Symmetry,BH_num,Porgbr,Porg0,
 #if USE_CUDA_BSSN
        if (bssn_cuda_should_flush_before_regrid(GH, lev + 1, Symmetry, BH_num, Porg0))
          bssn_cuda_flush_level_before_regrid(GH->PatL[lev + 1],
                                              SynchList_cor, OldStateList,
                                              StateList, SynchList_pre,
                                              myrank);
 #endif
        if (GH->Regrid_Onelevel(lev + 1, Symmetry, BH_num, Porgbr, Porg0,
                            SynchList_cor, OldStateList, StateList, SynchList_pre,
                            fgt(PhysTime - dT_levp1, StartTime, dT_levp1 / 2), ErrorMonitor))
@@ -3451,6 +3622,13 @@ void bssn_class::ParallelStep()
    // for this level
    if (YN == 1)
    {
 #if USE_CUDA_BSSN
      if (bssn_cuda_should_flush_before_regrid(GH, lev, Symmetry, BH_num, Porg0))
        bssn_cuda_flush_level_before_regrid(GH->PatL[lev],
                                            SynchList_cor, OldStateList,
                                            StateList, SynchList_pre,
                                            myrank);
 #endif
      if (GH->Regrid_Onelevel(lev, Symmetry, BH_num, Porgbr, Porg0,
                          SynchList_cor, OldStateList, StateList, SynchList_pre,
                          fgt(PhysTime - dT_lev, StartTime, dT_lev / 2), ErrorMonitor))
@@ -3474,6 +3652,13 @@ void bssn_class::ParallelStep()
        if (YN == 1)
        {
          //	   GH->Regrid_Onelevel_aux(lev-2,Symmetry,BH_num,Porgbr,Porg0,
 #if USE_CUDA_BSSN
          if (bssn_cuda_should_flush_before_regrid(GH, lev - 1, Symmetry, BH_num, Porg0))
            bssn_cuda_flush_level_before_regrid(GH->PatL[lev - 1],
                                                SynchList_cor, OldStateList,
                                                StateList, SynchList_pre,
                                                myrank);
 #endif
          if (GH->Regrid_Onelevel(lev - 1, Symmetry, BH_num, Porgbr, Porg0,
                              SynchList_cor, OldStateList, StateList, SynchList_pre,
                              fgt(PhysTime - dT_lev, StartTime, dT_levm1 / 2), ErrorMonitor))
@@ -3494,6 +3679,13 @@ void bssn_class::ParallelStep()
        if (i % 4 == 3)
        {
          //	   GH->Regrid_Onelevel_aux(lev-2,Symmetry,BH_num,Porgbr,Porg0,
 #if USE_CUDA_BSSN
          if (bssn_cuda_should_flush_before_regrid(GH, lev - 1, Symmetry, BH_num, Porg0))
            bssn_cuda_flush_level_before_regrid(GH->PatL[lev - 1],
                                                SynchList_cor, OldStateList,
                                                StateList, SynchList_pre,
                                                myrank);
 #endif
          if (GH->Regrid_Onelevel(lev - 1, Symmetry, BH_num, Porgbr, Porg0,
                              SynchList_cor, OldStateList, StateList, SynchList_pre,
                              fgt(PhysTime - dT_lev, StartTime, dT_levm1 / 2), ErrorMonitor))
--- a/AMSS_NCKU_source/bssn_rhs_cuda.cu
+++ b/AMSS_NCKU_source/bssn_rhs_cuda.cu
@@ -6404,6 +6404,45 @@ static void download_resident_state(void *block_tag, int *ex, double **state_hos
    }
 }
 static bool download_resident_state_if_present(void *block_tag, int *ex, double **state_host_out)
 {
    auto it = g_step_ctx.find(block_tag);
    if (it == g_step_ctx.end()) return false;
    StepContext &ctx = it->second;
    const int bank = find_resident_bank(ctx, state_host_out);
    if (bank < 0 || !ctx.resident_valid[bank])
        return false;
    const size_t all = (size_t)ex[0] * ex[1] * ex[2];
    const size_t bytes = all * sizeof(double);
    mark_resident_current_bank(ctx, bank);
    if (resident_host_subset_clean(ctx, bank, BSSN_STATE_COUNT, nullptr))
        return true;
    static int direct_download = -1;
    if (direct_download < 0) {
        const char *env = getenv("AMSS_CUDA_DIRECT_STATE_DOWNLOAD");
        direct_download = env ? ((atoi(env) != 0) ? 1 : 0) : 1;
    }
    if (direct_download) {
        for (int i = 0; i < BSSN_STATE_COUNT; ++i) {
            CUDA_CHECK(cudaMemcpyAsync(state_host_out[i], ctx.d_resident[bank][i],
                                       bytes, cudaMemcpyDeviceToHost));
        }
        CUDA_CHECK(cudaDeviceSynchronize());
    } else {
        CUDA_CHECK(cudaMemcpy(g_buf.h_stage, ctx.d_resident_mem[bank],
                              (size_t)BSSN_STATE_COUNT * bytes,
                              cudaMemcpyDeviceToHost));
        for (int i = 0; i < BSSN_STATE_COUNT; ++i) {
            std::memcpy(state_host_out[i], g_buf.h_stage + (size_t)i * all, bytes);
        }
    }
    set_resident_host_clean(ctx, bank, true);
    return true;
 }
 static void copy_state_subset(void *block_tag,
                              int *ex,
                              int subset_count,
@@ -7056,6 +7095,18 @@ int bssn_cuda_download_resident_state(void *block_tag,
    return 0;
 }
 extern "C"
 int bssn_cuda_download_resident_state_if_present(void *block_tag,
                                                int *ex,
                                                double **state_host_out)
 {
    init_gpu_dispatch();
    CUDA_CHECK(cudaSetDevice(g_dispatch.my_device));
    if (!block_tag || !ex || !state_host_out) return 1;
    download_resident_state_if_present(block_tag, ex, state_host_out);
    return 0;
 }
 extern "C"
 int bssn_cuda_download_constraint_outputs(int *ex,
                                          double **constraint_host_out)
--- a/AMSS_NCKU_source/bssn_rhs_cuda.h
+++ b/AMSS_NCKU_source/bssn_rhs_cuda.h
@@ -73,6 +73,10 @@ int bssn_cuda_download_resident_state(void *block_tag,
                                      int *ex,
                                      double **state_host_out);
 int bssn_cuda_download_resident_state_if_present(void *block_tag,
                                                int *ex,
                                                double **state_host_out);
 int bssn_cuda_download_constraint_outputs(int *ex,
                                          double **constraint_host_out);