refactor(Parallel): streamline MPI communication by consolidating request handling and memory management

2026-03-01 16:20:51 +08:00
parent 83c826eb49
commit 01410de05a
1 changed files with 453 additions and 288 deletions
--- a/AMSS_NCKU_source/Parallel.C
+++ b/AMSS_NCKU_source/Parallel.C
@@ -3893,66 +3893,105 @@ void Parallel::transfer(MyList<Parallel::gridseg> **src, MyList<Parallel::gridse
  int node;
-  MPI_Request *reqs;
+  MPI_Request *reqs = new MPI_Request[2 * cpusize];
-  MPI_Status *stats;
+  MPI_Status *stats = new MPI_Status[2 * cpusize];
-  reqs = new MPI_Request[2 * cpusize];
+  int *req_node = new int[2 * cpusize];
-  stats = new MPI_Status[2 * cpusize];
+  int *req_is_recv = new int[2 * cpusize];
  int *completed = new int[2 * cpusize];
  int req_no = 0;
  int pending_recv = 0;
-  double **send_data, **rec_data;
+  double **send_data = new double *[cpusize];
-  send_data = new double *[cpusize];
+  double **rec_data = new double *[cpusize];
-  rec_data = new double *[cpusize];
+  int *send_lengths = new int[cpusize];
-  int length;
+  int *recv_lengths = new int[cpusize];
  for (node = 0; node < cpusize; node++)
  {
    send_data[node] = rec_data[node] = 0;
-    if (node == myrank)
+    send_lengths[node] = recv_lengths[node] = 0;
  }
  // Post receives first so peers can progress rendezvous early.
  for (node = 0; node < cpusize; node++)
  {
-      if (length = data_packer(0, src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry))
+    if (node == myrank) continue;
    recv_lengths[node] = data_packer(0, src[node], dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
    if (recv_lengths[node] > 0)
    {
-        rec_data[node] = new double[length];
+      rec_data[node] = new double[recv_lengths[node]];
      if (!rec_data[node])
      {
        cout << "out of memory when new in short transfer, place 1" << endl;
        MPI_Abort(MPI_COMM_WORLD, 1);
      }
-        data_packer(rec_data[node], src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
+      MPI_Irecv((void *)rec_data[node], recv_lengths[node], MPI_DOUBLE, node, 1, MPI_COMM_WORLD, reqs + req_no);
      req_node[req_no] = node;
      req_is_recv[req_no] = 1;
      req_no++;
      pending_recv++;
    }
  }
-    else
+
  // Local transfer on this rank.
  recv_lengths[myrank] = data_packer(0, src[myrank], dst[myrank], myrank, PACK, VarList1, VarList2, Symmetry);
  if (recv_lengths[myrank] > 0)
  {
-      // send from this cpu to cpu#node
+    rec_data[myrank] = new double[recv_lengths[myrank]];
-      if (length = data_packer(0, src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry))
+    if (!rec_data[myrank])
      {
        send_data[node] = new double[length];
        if (!send_data[node])
    {
      cout << "out of memory when new in short transfer, place 2" << endl;
      MPI_Abort(MPI_COMM_WORLD, 1);
    }
-        data_packer(send_data[node], src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
+    data_packer(rec_data[myrank], src[myrank], dst[myrank], myrank, PACK, VarList1, VarList2, Symmetry);
        MPI_Isend((void *)send_data[node], length, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, reqs + req_no++);
  }
-      // receive from cpu#node to this cpu
+
-      if (length = data_packer(0, src[node], dst[node], node, UNPACK, VarList1, VarList2, Symmetry))
+  // Pack and post sends.
  for (node = 0; node < cpusize; node++)
  {
-        rec_data[node] = new double[length];
+    if (node == myrank) continue;
-        if (!rec_data[node])
+
    send_lengths[node] = data_packer(0, src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
    if (send_lengths[node] > 0)
    {
      send_data[node] = new double[send_lengths[node]];
      if (!send_data[node])
      {
        cout << "out of memory when new in short transfer, place 3" << endl;
        MPI_Abort(MPI_COMM_WORLD, 1);
      }
-        MPI_Irecv((void *)rec_data[node], length, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, reqs + req_no++);
+      data_packer(send_data[node], src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
      MPI_Isend((void *)send_data[node], send_lengths[node], MPI_DOUBLE, node, 1, MPI_COMM_WORLD, reqs + req_no);
      req_node[req_no] = node;
      req_is_recv[req_no] = 0;
      req_no++;
    }
  }
  }
  // wait for all requests to complete
  MPI_Waitall(req_no, reqs, stats);
-  for (node = 0; node < cpusize; node++)
+  // Unpack as soon as receive completes to reduce pure wait time.
-    if (rec_data[node])
+  while (pending_recv > 0)
-      data_packer(rec_data[node], src[node], dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
+  {
    int outcount = 0;
    MPI_Waitsome(req_no, reqs, &outcount, completed, stats);
    if (outcount == MPI_UNDEFINED) break;
    for (int i = 0; i < outcount; i++)
    {
      int idx = completed[i];
      if (idx >= 0 && req_is_recv[idx])
      {
        int recv_node = req_node[idx];
        data_packer(rec_data[recv_node], src[recv_node], dst[recv_node], recv_node, UNPACK, VarList1, VarList2, Symmetry);
        pending_recv--;
      }
    }
  }
  if (req_no > 0) MPI_Waitall(req_no, reqs, stats);
  if (rec_data[myrank])
    data_packer(rec_data[myrank], src[myrank], dst[myrank], myrank, UNPACK, VarList1, VarList2, Symmetry);
  for (node = 0; node < cpusize; node++)
  {
@@ -3964,8 +4003,13 @@ void Parallel::transfer(MyList<Parallel::gridseg> **src, MyList<Parallel::gridse
  delete[] reqs;
  delete[] stats;
  delete[] req_node;
  delete[] req_is_recv;
  delete[] completed;
  delete[] send_data;
  delete[] rec_data;
  delete[] send_lengths;
  delete[] recv_lengths;
 }
 //
 void Parallel::transfermix(MyList<Parallel::gridseg> **src, MyList<Parallel::gridseg> **dst,
@@ -3978,66 +4022,105 @@ void Parallel::transfermix(MyList<Parallel::gridseg> **src, MyList<Parallel::gri
  int node;
-  MPI_Request *reqs;
+  MPI_Request *reqs = new MPI_Request[2 * cpusize];
-  MPI_Status *stats;
+  MPI_Status *stats = new MPI_Status[2 * cpusize];
-  reqs = new MPI_Request[2 * cpusize];
+  int *req_node = new int[2 * cpusize];
-  stats = new MPI_Status[2 * cpusize];
+  int *req_is_recv = new int[2 * cpusize];
  int *completed = new int[2 * cpusize];
  int req_no = 0;
  int pending_recv = 0;
-  double **send_data, **rec_data;
+  double **send_data = new double *[cpusize];
-  send_data = new double *[cpusize];
+  double **rec_data = new double *[cpusize];
-  rec_data = new double *[cpusize];
+  int *send_lengths = new int[cpusize];
-  int length;
+  int *recv_lengths = new int[cpusize];
  for (node = 0; node < cpusize; node++)
  {
    send_data[node] = rec_data[node] = 0;
-    if (node == myrank)
+    send_lengths[node] = recv_lengths[node] = 0;
  }
  // Post receives first so peers can progress rendezvous early.
  for (node = 0; node < cpusize; node++)
  {
-      if (length = data_packermix(0, src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry))
+    if (node == myrank) continue;
    recv_lengths[node] = data_packermix(0, src[node], dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
    if (recv_lengths[node] > 0)
    {
-        rec_data[node] = new double[length];
+      rec_data[node] = new double[recv_lengths[node]];
      if (!rec_data[node])
      {
        cout << "out of memory when new in short transfer, place 1" << endl;
        MPI_Abort(MPI_COMM_WORLD, 1);
      }
-        data_packermix(rec_data[node], src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
+      MPI_Irecv((void *)rec_data[node], recv_lengths[node], MPI_DOUBLE, node, 1, MPI_COMM_WORLD, reqs + req_no);
      req_node[req_no] = node;
      req_is_recv[req_no] = 1;
      req_no++;
      pending_recv++;
    }
  }
-    else
+
  // Local transfer on this rank.
  recv_lengths[myrank] = data_packermix(0, src[myrank], dst[myrank], myrank, PACK, VarList1, VarList2, Symmetry);
  if (recv_lengths[myrank] > 0)
  {
-      // send from this cpu to cpu#node
+    rec_data[myrank] = new double[recv_lengths[myrank]];
-      if (length = data_packermix(0, src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry))
+    if (!rec_data[myrank])
      {
        send_data[node] = new double[length];
        if (!send_data[node])
    {
      cout << "out of memory when new in short transfer, place 2" << endl;
      MPI_Abort(MPI_COMM_WORLD, 1);
    }
-        data_packermix(send_data[node], src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
+    data_packermix(rec_data[myrank], src[myrank], dst[myrank], myrank, PACK, VarList1, VarList2, Symmetry);
        MPI_Isend((void *)send_data[node], length, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, reqs + req_no++);
  }
-      // receive from cpu#node to this cpu
+
-      if (length = data_packermix(0, src[node], dst[node], node, UNPACK, VarList1, VarList2, Symmetry))
+  // Pack and post sends.
  for (node = 0; node < cpusize; node++)
  {
-        rec_data[node] = new double[length];
+    if (node == myrank) continue;
-        if (!rec_data[node])
+
    send_lengths[node] = data_packermix(0, src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
    if (send_lengths[node] > 0)
    {
      send_data[node] = new double[send_lengths[node]];
      if (!send_data[node])
      {
        cout << "out of memory when new in short transfer, place 3" << endl;
        MPI_Abort(MPI_COMM_WORLD, 1);
      }
-        MPI_Irecv((void *)rec_data[node], length, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, reqs + req_no++);
+      data_packermix(send_data[node], src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
      MPI_Isend((void *)send_data[node], send_lengths[node], MPI_DOUBLE, node, 1, MPI_COMM_WORLD, reqs + req_no);
      req_node[req_no] = node;
      req_is_recv[req_no] = 0;
      req_no++;
    }
  }
  }
  // wait for all requests to complete
  MPI_Waitall(req_no, reqs, stats);
-  for (node = 0; node < cpusize; node++)
+  // Unpack as soon as receive completes to reduce pure wait time.
-    if (rec_data[node])
+  while (pending_recv > 0)
-      data_packermix(rec_data[node], src[node], dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
+  {
    int outcount = 0;
    MPI_Waitsome(req_no, reqs, &outcount, completed, stats);
    if (outcount == MPI_UNDEFINED) break;
    for (int i = 0; i < outcount; i++)
    {
      int idx = completed[i];
      if (idx >= 0 && req_is_recv[idx])
      {
        int recv_node = req_node[idx];
        data_packermix(rec_data[recv_node], src[recv_node], dst[recv_node], recv_node, UNPACK, VarList1, VarList2, Symmetry);
        pending_recv--;
      }
    }
  }
  if (req_no > 0) MPI_Waitall(req_no, reqs, stats);
  if (rec_data[myrank])
    data_packermix(rec_data[myrank], src[myrank], dst[myrank], myrank, UNPACK, VarList1, VarList2, Symmetry);
  for (node = 0; node < cpusize; node++)
  {
@@ -4049,8 +4132,13 @@ void Parallel::transfermix(MyList<Parallel::gridseg> **src, MyList<Parallel::gri
  delete[] reqs;
  delete[] stats;
  delete[] req_node;
  delete[] req_is_recv;
  delete[] completed;
  delete[] send_data;
  delete[] rec_data;
  delete[] send_lengths;
  delete[] recv_lengths;
 }
 void Parallel::Sync(Patch *Pat, MyList<var> *VarList, int Symmetry)
 {
@@ -4289,28 +4377,54 @@ void Parallel::transfer_cached(MyList<Parallel::gridseg> **src, MyList<Parallel:
  int cpusize = cache.cpusize;
  int req_no = 0;
  int pending_recv = 0;
  int node;
  int *req_node = new int[cache.max_reqs];
  int *req_is_recv = new int[cache.max_reqs];
  int *completed = new int[cache.max_reqs];
  // Post receives first so peers can progress rendezvous early.
  for (node = 0; node < cpusize; node++)
  {
-    if (node == myrank)
+    if (node == myrank) continue;
    int rlength = data_packer(0, src[node], dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
    cache.recv_lengths[node] = rlength;
    if (rlength > 0)
    {
-      int length = data_packer(0, src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
+      if (rlength > cache.recv_buf_caps[node])
      cache.recv_lengths[node] = length;
      if (length > 0)
      {
        if (length > cache.recv_buf_caps[node])
      {
        if (cache.recv_bufs[node]) delete[] cache.recv_bufs[node];
-          cache.recv_bufs[node] = new double[length];
+        cache.recv_bufs[node] = new double[rlength];
-          cache.recv_buf_caps[node] = length;
+        cache.recv_buf_caps[node] = rlength;
      }
-        data_packer(cache.recv_bufs[node], src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
+      MPI_Irecv((void *)cache.recv_bufs[node], rlength, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, cache.reqs + req_no);
      req_node[req_no] = node;
      req_is_recv[req_no] = 1;
      req_no++;
      pending_recv++;
    }
  }
-    else
+
  // Local transfer on this rank.
  int self_len = data_packer(0, src[myrank], dst[myrank], myrank, PACK, VarList1, VarList2, Symmetry);
  cache.recv_lengths[myrank] = self_len;
  if (self_len > 0)
  {
-      // send
+    if (self_len > cache.recv_buf_caps[myrank])
    {
      if (cache.recv_bufs[myrank]) delete[] cache.recv_bufs[myrank];
      cache.recv_bufs[myrank] = new double[self_len];
      cache.recv_buf_caps[myrank] = self_len;
    }
    data_packer(cache.recv_bufs[myrank], src[myrank], dst[myrank], myrank, PACK, VarList1, VarList2, Symmetry);
  }
  // Pack and post sends.
  for (node = 0; node < cpusize; node++)
  {
    if (node == myrank) continue;
    int slength = data_packer(0, src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
    cache.send_lengths[node] = slength;
    if (slength > 0)
@@ -4322,29 +4436,40 @@ void Parallel::transfer_cached(MyList<Parallel::gridseg> **src, MyList<Parallel:
        cache.send_buf_caps[node] = slength;
      }
      data_packer(cache.send_bufs[node], src[myrank], dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
-        MPI_Isend((void *)cache.send_bufs[node], slength, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, cache.reqs + req_no++);
+      MPI_Isend((void *)cache.send_bufs[node], slength, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, cache.reqs + req_no);
      req_node[req_no] = node;
      req_is_recv[req_no] = 0;
      req_no++;
    }
      // recv
      int rlength = data_packer(0, src[node], dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
      cache.recv_lengths[node] = rlength;
      if (rlength > 0)
      {
        if (rlength > cache.recv_buf_caps[node])
        {
          if (cache.recv_bufs[node]) delete[] cache.recv_bufs[node];
          cache.recv_bufs[node] = new double[rlength];
          cache.recv_buf_caps[node] = rlength;
  }
-        MPI_Irecv((void *)cache.recv_bufs[node], rlength, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, cache.reqs + req_no++);
+
  // Unpack as soon as receive completes to reduce pure wait time.
  while (pending_recv > 0)
  {
    int outcount = 0;
    MPI_Waitsome(req_no, cache.reqs, &outcount, completed, cache.stats);
    if (outcount == MPI_UNDEFINED) break;
    for (int i = 0; i < outcount; i++)
    {
      int idx = completed[i];
      if (idx >= 0 && req_is_recv[idx])
      {
        int recv_node_i = req_node[idx];
        data_packer(cache.recv_bufs[recv_node_i], src[recv_node_i], dst[recv_node_i], recv_node_i, UNPACK, VarList1, VarList2, Symmetry);
        pending_recv--;
      }
    }
  }
-  MPI_Waitall(req_no, cache.reqs, cache.stats);
+  if (req_no > 0) MPI_Waitall(req_no, cache.reqs, cache.stats);
-  for (node = 0; node < cpusize; node++)
+  if (self_len > 0)
-    if (cache.recv_bufs[node] && cache.recv_lengths[node] > 0)
+    data_packer(cache.recv_bufs[myrank], src[myrank], dst[myrank], myrank, UNPACK, VarList1, VarList2, Symmetry);
-      data_packer(cache.recv_bufs[node], src[node], dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
+
  delete[] req_node;
  delete[] req_is_recv;
  delete[] completed;
 }
 // Sync_cached: build grid segment lists on first call, reuse on subsequent calls
 void Parallel::Sync_cached(MyList<Patch> *PatL, MyList<var> *VarList, int Symmetry, SyncCache &cache)
@@ -5807,25 +5932,53 @@ void Parallel::OutBdLow2Himix_cached(MyList<Patch> *PatcL, MyList<Patch> *PatfL,
  int cpusize = cache.cpusize;
  int req_no = 0;
  int pending_recv = 0;
  int *req_node = new int[cache.max_reqs];
  int *req_is_recv = new int[cache.max_reqs];
  int *completed = new int[cache.max_reqs];
  // Post receives first so peers can progress rendezvous early.
  for (int node = 0; node < cpusize; node++)
  {
-    if (node == myrank)
+    if (node == myrank) continue;
    int rlength = data_packermix(0, cache.combined_src[node], cache.combined_dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
    cache.recv_lengths[node] = rlength;
    if (rlength > 0)
    {
-      int length = data_packermix(0, cache.combined_src[myrank], cache.combined_dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
+      if (rlength > cache.recv_buf_caps[node])
      cache.recv_lengths[node] = length;
      if (length > 0)
      {
        if (length > cache.recv_buf_caps[node])
      {
        if (cache.recv_bufs[node]) delete[] cache.recv_bufs[node];
-          cache.recv_bufs[node] = new double[length];
+        cache.recv_bufs[node] = new double[rlength];
-          cache.recv_buf_caps[node] = length;
+        cache.recv_buf_caps[node] = rlength;
      }
-        data_packermix(cache.recv_bufs[node], cache.combined_src[myrank], cache.combined_dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
+      MPI_Irecv((void *)cache.recv_bufs[node], rlength, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, cache.reqs + req_no);
      req_node[req_no] = node;
      req_is_recv[req_no] = 1;
      req_no++;
      pending_recv++;
    }
  }
-    else
+
  // Local transfer on this rank.
  int self_len = data_packermix(0, cache.combined_src[myrank], cache.combined_dst[myrank], myrank, PACK, VarList1, VarList2, Symmetry);
  cache.recv_lengths[myrank] = self_len;
  if (self_len > 0)
  {
    if (self_len > cache.recv_buf_caps[myrank])
    {
      if (cache.recv_bufs[myrank]) delete[] cache.recv_bufs[myrank];
      cache.recv_bufs[myrank] = new double[self_len];
      cache.recv_buf_caps[myrank] = self_len;
    }
    data_packermix(cache.recv_bufs[myrank], cache.combined_src[myrank], cache.combined_dst[myrank], myrank, PACK, VarList1, VarList2, Symmetry);
  }
  // Pack and post sends.
  for (int node = 0; node < cpusize; node++)
  {
    if (node == myrank) continue;
    int slength = data_packermix(0, cache.combined_src[myrank], cache.combined_dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
    cache.send_lengths[node] = slength;
    if (slength > 0)
@@ -5837,28 +5990,40 @@ void Parallel::OutBdLow2Himix_cached(MyList<Patch> *PatcL, MyList<Patch> *PatfL,
        cache.send_buf_caps[node] = slength;
      }
      data_packermix(cache.send_bufs[node], cache.combined_src[myrank], cache.combined_dst[myrank], node, PACK, VarList1, VarList2, Symmetry);
-        MPI_Isend((void *)cache.send_bufs[node], slength, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, cache.reqs + req_no++);
+      MPI_Isend((void *)cache.send_bufs[node], slength, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, cache.reqs + req_no);
      req_node[req_no] = node;
      req_is_recv[req_no] = 0;
      req_no++;
    }
      int rlength = data_packermix(0, cache.combined_src[node], cache.combined_dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
      cache.recv_lengths[node] = rlength;
      if (rlength > 0)
      {
        if (rlength > cache.recv_buf_caps[node])
        {
          if (cache.recv_bufs[node]) delete[] cache.recv_bufs[node];
          cache.recv_bufs[node] = new double[rlength];
          cache.recv_buf_caps[node] = rlength;
  }
-        MPI_Irecv((void *)cache.recv_bufs[node], rlength, MPI_DOUBLE, node, 1, MPI_COMM_WORLD, cache.reqs + req_no++);
+
  // Unpack as soon as receive completes to reduce pure wait time.
  while (pending_recv > 0)
  {
    int outcount = 0;
    MPI_Waitsome(req_no, cache.reqs, &outcount, completed, cache.stats);
    if (outcount == MPI_UNDEFINED) break;
    for (int i = 0; i < outcount; i++)
    {
      int idx = completed[i];
      if (idx >= 0 && req_is_recv[idx])
      {
        int recv_node_i = req_node[idx];
        data_packermix(cache.recv_bufs[recv_node_i], cache.combined_src[recv_node_i], cache.combined_dst[recv_node_i], recv_node_i, UNPACK, VarList1, VarList2, Symmetry);
        pending_recv--;
      }
    }
  }
-  MPI_Waitall(req_no, cache.reqs, cache.stats);
+  if (req_no > 0) MPI_Waitall(req_no, cache.reqs, cache.stats);
-  for (int node = 0; node < cpusize; node++)
+  if (self_len > 0)
-    if (cache.recv_bufs[node] && cache.recv_lengths[node] > 0)
+    data_packermix(cache.recv_bufs[myrank], cache.combined_src[myrank], cache.combined_dst[myrank], myrank, UNPACK, VarList1, VarList2, Symmetry);
-      data_packermix(cache.recv_bufs[node], cache.combined_src[node], cache.combined_dst[node], node, UNPACK, VarList1, VarList2, Symmetry);
+
  delete[] req_node;
  delete[] req_is_recv;
  delete[] completed;
 }
 // collect all buffer grid segments or blocks for given patch