[midend-m2r]移除错误的LAG优化，performance通过

2025-08-19 17:32:01 +08:00
parent 7af3827098
commit 3c49183280
5 changed files with 29 additions and 209 deletions
--- a/doc/CompilerDesign.md
+++ b/doc/CompilerDesign.md
@@ -74,7 +74,6 @@ graph TD
  - **消除 `fallthrough` 现象**：  
  通过确保所有基本块均以终结指令结尾，消除基本块间的 `fallthrough`，简化了控制流图（CFG）的构建和分析。这一做法提升了编译器整体质量，使中端各类 Pass 的编写和维护更加规范和高效。
 ### 3.2. 核心优化详解
 编译器的分析和优化被组织成一系列独立的“遍”（Pass）。每个 Pass 都是一个独立的算法模块，对 IR 进行特定的分析或变换。这种设计具有高度的模块化和可扩展性。
@@ -116,24 +115,18 @@ graph TD
 #### 3.2.4. 其他优化
- **LargeArrayToGlobal (`LargeArrayToGlobal.cpp`)**: 
+#### 3.3. 核心分析遍
  - **目标**: 防止因大型局部数组导致的栈溢出，并可能改善数据局部性。
  - **技术**: 遍历函数中的 `alloca` 指令，如果通过 `calculateTypeSize` 计算出其分配的内存大小超过一个阈值（如 1024 字节），则将其转换为一个全局变量。
  - **实现**: `convertAllocaToGlobal` 函数负责创建一个新的 `GlobalValue`，并调用 `replaceAllUsesWith` 将原 `alloca` 的所有使用者重定向到新的全局变量，最后删除原 `alloca` 指令。
  #### 3.3. 核心分析遍
  为了为优化遍收集信息，最大程度发掘程序优化潜力，我们目前设计并实现了以下关键的分析遍：
-  - **支配树分析 (Dominator Tree Analysis)**:
+- **支配树分析 (Dominator Tree Analysis)**:
-    - **技术**: 通过计算每个基本块的支配节点，构建出一棵支配树结构。我们在计算支配节点时采用了**逆后序遍历（RPO, Reverse Post Order）**，以保证数据流分析的收敛速度和正确性。在计算直接支配者（Idom, Immediate Dominator）时，采用了经典的**Lengauer-Tarjan（LT）算法**，该算法以高效的并查集和路径压缩技术著称，能够在线性时间内准确计算出每个基本块的直接支配者关系。
+  - **技术**: 通过计算每个基本块的支配节点，构建出一棵支配树结构。我们在计算支配节点时采用了**逆后序遍历（RPO, Reverse Post Order）**，以保证数据流分析的收敛速度和正确性。在计算直接支配者（Idom, Immediate Dominator）时，采用了经典的**Lengauer-Tarjan（LT）算法**，该算法以高效的并查集和路径压缩技术著称，能够在线性时间内准确计算出每个基本块的直接支配者关系。
-    - **实现**: `Dom.cpp` 实现了支配树分析。该分析为每个基本块分配其直接支配者，并递归构建整棵支配树。支配树是许多高级优化（尤其是 SSA 形式下的优化）的基础。例如，Mem2Reg 需要依赖支配树来正确插入 Phi 指令，并在变量重命名阶段高效遍历控制流图。此外，循环相关优化（如循环不变量外提）也依赖于支配树信息来识别循环头和循环体的关系。
+  - **实现**: `Dom.cpp` 实现了支配树分析。该分析为每个基本块分配其直接支配者，并递归构建整棵支配树。支配树是许多高级优化（尤其是 SSA 形式下的优化）的基础。例如，Mem2Reg 需要依赖支配树来正确插入 Phi 指令，并在变量重命名阶段高效遍历控制流图。此外，循环相关优化（如循环不变量外提）也依赖于支配树信息来识别循环头和循环体的关系。
  - **活跃性分析 (Liveness Analysis)**:
    - **技术**: 活跃性分析用于确定在程序的某一特定点上，哪些变量的值在未来会被用到。我们采用**经典的不动点迭代算法**，在数据流分析框架下，逆序遍历基本块，迭代计算每个基本块的 `live-in` 和 `live-out` 集合，直到收敛为止。这种方法简单且易于实现，能够满足大多数编译优化的需求。
    - **未来规划**: 若后续对分析效率有更高要求，可考虑引入如**工作列表算法**或者**转化为基于SSA的图可达性分析**等更高效的算法，以进一步提升大型函数或复杂控制流下的分析性能。
    - **实现**: `Liveness.cpp` 提供了活跃性分析。该分析采用经典的数据流分析框架，迭代计算每个基本块的 `live-in` 和 `live-out` 集合。活跃性信息是死代码消除（DCE）、寄存器分配等优化的必要前置步骤。通过准确的活跃性分析，可以识别出无用的变量和指令，从而为后续优化遍提供坚实的数据基础。
 - **活跃性分析 (Liveness Analysis)**:
  - **技术**: 活跃性分析用于确定在程序的某一特定点上，哪些变量的值在未来会被用到。我们采用**经典的不动点迭代算法**，在数据流分析框架下，逆序遍历基本块，迭代计算每个基本块的 `live-in` 和 `live-out` 集合，直到收敛为止。这种方法简单且易于实现，能够满足大多数编译优化的需求。
  - **未来规划**: 若后续对分析效率有更高要求，可考虑引入如**工作列表算法**或者**转化为基于SSA的图可达性分析**等更高效的算法，以进一步提升大型函数或复杂控制流下的分析性能。
  - **实现**: `Liveness.cpp` 提供了活跃性分析。该分析采用经典的数据流分析框架，迭代计算每个基本块的 `live-in` 和 `live-out` 集合。活跃性信息是死代码消除（DCE）、寄存器分配等优化的必要前置步骤。通过准确的活跃性分析，可以识别出无用的变量和指令，从而为后续优化遍提供坚实的数据基础。
 ### 3.4. 未来的规划
@@ -145,6 +138,7 @@ graph TD
  函数内联能够将简单函数（可能需要收集更多信息）内联到call指令相应位置，减少栈空间相关变动，并且为其他遍发掘优化空间。
 - **`LLVM IR`格式化**:
  我们将为所有的IR设计并实现通用的打印器方法，使得IR能够显式化为可编译运行的LLVM IR，通过编排脚本和调用llvm相关工具链，我们能够绕过后端编译运行中间代码，为验证中端正确性提供系统化的方法，同时减轻后端开发bug溯源的压力。
 ---
 ## 4. 后端技术与优化 (Backend)
@@ -215,16 +209,16 @@ graph TD
    end
 ```
-  1.  **`analyzeLiveness()`**: 对机器指令进行数据流分析，计算出每个虚拟寄存器的活跃范围。
+  1. **`analyzeLiveness()`**: 对机器指令进行数据流分析，计算出每个虚拟寄存器的活跃范围。
-  2.  **`build()`**: 根据活跃性信息构建**冲突图 (Interference Graph)**。如果两个虚拟寄存器同时活跃，则它们冲突，在图中连接一条边。
+  2. **`build()`**: 根据活跃性信息构建**冲突图 (Interference Graph)**。如果两个虚拟寄存器同时活跃，则它们冲突，在图中连接一条边。
-  3.  **`makeWorklist()`**: 将图节点（虚拟寄存器）根据其度数放入不同的工作列表，为着色做准备。
+  3. **`makeWorklist()`**: 将图节点（虚拟寄存器）根据其度数放入不同的工作列表，为着色做准备。
-  4.  **核心着色阶段 (The Loop)**:
+  4. **核心着色阶段 (The Loop)**:
      - **`simplify()`**: 贪心地移除图中度数小于物理寄存器数量的节点，并将其压入栈中。这些节点保证可以被成功着色。
      - **`coalesce()`**: 尝试将传送指令 (`MV`) 的源和目标节点合并，以消除这条指令。合并的条件基于 **Briggs** 或 **George** 启发式，以避免使图变得不可着色。
      - **`freeze()`**: 当一个与传送指令相关的节点无法合并也无法简化时，放弃对该传送指令的合并希望，将其“冻结”为一个普通节点。
      - **`selectSpill()`**: 当所有节点都无法进行上述操作时（即图中只剩下高度数的节点），必须选择一个节点进行**溢出 (Spill)**，即决定将其存放在内存中。
-  5.  **`assignColors()`**: 在所有节点都被处理后，从栈中依次弹出节点，并根据其已着色邻居的颜色，为它选择一个可用的物理寄存器。
+  5. **`assignColors()`**: 在所有节点都被处理后，从栈中依次弹出节点，并根据其已着色邻居的颜色，为它选择一个可用的物理寄存器。
-  6.  **`rewriteProgram()`**: 如果 `assignColors()` 阶段发现有节点被标记为溢出，此函数会被调用。它会修改机器指令，为溢出的虚拟寄存器插入从内存加载（`lw`/`ld`）和存入内存（`sw`/`sd`）的代码。然后，整个分配过程从步骤 1 重新开始。
+  6. **`rewriteProgram()`**: 如果 `assignColors()` 阶段发现有节点被标记为溢出，此函数会被调用。它会修改机器指令，为溢出的虚拟寄存器插入从内存加载（`lw`/`ld`）和存入内存（`sw`/`sd`）的代码。然后，整个分配过程从步骤 1 重新开始。
 ### 4.4. 后端特定优化
--- a/src/include/midend/Pass/Optimize/LargeArrayToGlobal.h
+++ b/src/include/midend/Pass/Optimize/LargeArrayToGlobal.h
@@ -1,24 +0,0 @@
 #pragma once
 #include "../Pass.h"
 namespace sysy {
 class LargeArrayToGlobalPass : public OptimizationPass {
 public:
    static void *ID;
    LargeArrayToGlobalPass() : OptimizationPass("LargeArrayToGlobal", Granularity::Module) {}
    bool runOnModule(Module *M, AnalysisManager &AM) override;
    void *getPassID() const override {
        return &ID;
    }
 private:
    unsigned calculateTypeSize(Type *type);
    void convertAllocaToGlobal(AllocaInst *alloca, Function *F, Module *M);
    std::string generateUniqueGlobalName(AllocaInst *alloca, Function *F);
 };
 } // namespace sysy
--- a/src/midend/CMakeLists.txt
+++ b/src/midend/CMakeLists.txt
@@ -24,7 +24,6 @@ add_library(midend_lib STATIC
    Pass/Optimize/InductionVariableElimination.cpp
    Pass/Optimize/GlobalStrengthReduction.cpp
    Pass/Optimize/BuildCFG.cpp
    Pass/Optimize/LargeArrayToGlobal.cpp
    Pass/Optimize/TailCallOpt.cpp
 )
--- a/src/midend/Pass/Optimize/LargeArrayToGlobal.cpp
+++ b/src/midend/Pass/Optimize/LargeArrayToGlobal.cpp
@@ -1,145 +0,0 @@
 #include "../../include/midend/Pass/Optimize/LargeArrayToGlobal.h"
 #include "../../IR.h"
 #include <unordered_map>
 #include <sstream>
 #include <string>
 namespace sysy {
 // Helper function to convert type to string
 static std::string typeToString(Type *type) {
    if (!type) return "null";
    switch (type->getKind()) {
        case Type::kInt:
            return "int";
        case Type::kFloat:
            return "float";
        case Type::kPointer:
            return "ptr";
        case Type::kArray: {
            auto *arrayType = type->as<ArrayType>();
            return "[" + std::to_string(arrayType->getNumElements()) + " x " + 
                   typeToString(arrayType->getElementType()) + "]";
        }
        default:
            return "unknown";
    }
 }
 void *LargeArrayToGlobalPass::ID = &LargeArrayToGlobalPass::ID;
 bool LargeArrayToGlobalPass::runOnModule(Module *M, AnalysisManager &AM) {
        bool changed = false;
        if (!M) {
            return false;
        }
        // Collect all alloca instructions from all functions
        std::vector<std::pair<AllocaInst*, Function*>> allocasToConvert;
        for (auto &funcPair : M->getFunctions()) {
            Function *F = funcPair.second.get();
            if (!F || F->getBasicBlocks().begin() == F->getBasicBlocks().end()) {
                continue;
            }
            for (auto &BB : F->getBasicBlocks()) {
                for (auto &inst : BB->getInstructions()) {
                    if (auto *alloca = dynamic_cast<AllocaInst*>(inst.get())) {
                        Type *allocatedType = alloca->getAllocatedType();
                        // Calculate the size of the allocated type
                        unsigned size = calculateTypeSize(allocatedType);
                        if(DEBUG){
                            // Debug: print size information
                             std::cout << "LargeArrayToGlobalPass: Found alloca with size " << size 
                                  << " for type " << typeToString(allocatedType) << std::endl;
                        }
                        // Convert arrays of 1KB (1024 bytes) or larger to global variables
                        if (size >= 1024) {
                            if(DEBUG)
                                std::cout << "LargeArrayToGlobalPass: Converting array of size " << size << " to global" << std::endl;
                            allocasToConvert.emplace_back(alloca, F);
                        }
                    }
                }
            }
        }
        // Convert the collected alloca instructions to global variables
        for (auto [alloca, F] : allocasToConvert) {
            convertAllocaToGlobal(alloca, F, M);
            changed = true;
        }
 return changed;
    }
 unsigned LargeArrayToGlobalPass::calculateTypeSize(Type *type) {
    if (!type) return 0;
    switch (type->getKind()) {
        case Type::kInt:
        case Type::kFloat:
            return 4;
        case Type::kPointer:
            return 8;
        case Type::kArray: {
            auto *arrayType = type->as<ArrayType>();
            return arrayType->getNumElements() * calculateTypeSize(arrayType->getElementType());
        }
        default:
            return 0;
    }
 }
 void LargeArrayToGlobalPass::convertAllocaToGlobal(AllocaInst *alloca, Function *F, Module *M) {
    Type *allocatedType = alloca->getAllocatedType();
    // Create a unique name for the global variable
    std::string globalName = generateUniqueGlobalName(alloca, F);
    // Create the global variable - GlobalValue expects pointer type
    Type *pointerType = Type::getPointerType(allocatedType);
    GlobalValue *globalVar = M->createGlobalValue(globalName, pointerType);
    if (!globalVar) {
        return;
    }
    // Replace all uses of the alloca with the global variable
    alloca->replaceAllUsesWith(globalVar);
    // Remove the alloca instruction from its basic block
    for (auto &BB : F->getBasicBlocks()) {
        auto &instructions = BB->getInstructions();
        for (auto it = instructions.begin(); it != instructions.end(); ++it) {
            if (it->get() == alloca) {
                instructions.erase(it);
                break;
            }
        }
    }
 }
 std::string LargeArrayToGlobalPass::generateUniqueGlobalName(AllocaInst *alloca, Function *F) {
    std::string baseName = alloca->getName();
    if (baseName.empty()) {
        baseName = "array";
    }
    // Ensure uniqueness by appending function name and counter
    static std::unordered_map<std::string, int> nameCounter;
    std::string key = F->getName() + "." + baseName;
    int counter = nameCounter[key]++;
    std::ostringstream oss;
    oss << key << "." << counter;
    return oss.str();
 }
 } // namespace sysy
--- a/src/midend/Pass/Pass.cpp
+++ b/src/midend/Pass/Pass.cpp
@@ -13,7 +13,6 @@
 #include "GVN.h"
 #include "SCCP.h"
 #include "BuildCFG.h"
 #include "LargeArrayToGlobal.h"
 #include "LoopNormalization.h"
 #include "LICM.h"
 #include "LoopStrengthReduction.h"
@@ -61,8 +60,6 @@ void PassManager::runOptimizationPipeline(Module* moduleIR, IRBuilder* builderIR
    // 注册优化遍
    registerOptimizationPass<BuildCFG>();
    registerOptimizationPass<LargeArrayToGlobalPass>();
    registerOptimizationPass<GVN>();
    registerOptimizationPass<SysYDelInstAfterBrPass>();
@@ -98,7 +95,6 @@ void PassManager::runOptimizationPipeline(Module* moduleIR, IRBuilder* builderIR
      this->clearPasses();
      this->addPass(&BuildCFG::ID);
      this->addPass(&LargeArrayToGlobalPass::ID);
      this->run();
      this->clearPasses(); 
@@ -128,9 +124,9 @@ void PassManager::runOptimizationPipeline(Module* moduleIR, IRBuilder* builderIR
        printPasses();
      }
-      this->clearPasses();
+      // this->clearPasses();
-      this->addPass(&Mem2Reg::ID);
+      // this->addPass(&Mem2Reg::ID);
-      this->run();
+      // this->run();
      if(DEBUG) {
        std::cout << "=== IR After Mem2Reg Optimizations ===\n";