[midend-m2r]移除错误的LAG优化,performance通过
This commit is contained in:
@@ -74,7 +74,6 @@ graph TD
|
|||||||
- **消除 `fallthrough` 现象**:
|
- **消除 `fallthrough` 现象**:
|
||||||
通过确保所有基本块均以终结指令结尾,消除基本块间的 `fallthrough`,简化了控制流图(CFG)的构建和分析。这一做法提升了编译器整体质量,使中端各类 Pass 的编写和维护更加规范和高效。
|
通过确保所有基本块均以终结指令结尾,消除基本块间的 `fallthrough`,简化了控制流图(CFG)的构建和分析。这一做法提升了编译器整体质量,使中端各类 Pass 的编写和维护更加规范和高效。
|
||||||
|
|
||||||
|
|
||||||
### 3.2. 核心优化详解
|
### 3.2. 核心优化详解
|
||||||
|
|
||||||
编译器的分析和优化被组织成一系列独立的“遍”(Pass)。每个 Pass 都是一个独立的算法模块,对 IR 进行特定的分析或变换。这种设计具有高度的模块化和可扩展性。
|
编译器的分析和优化被组织成一系列独立的“遍”(Pass)。每个 Pass 都是一个独立的算法模块,对 IR 进行特定的分析或变换。这种设计具有高度的模块化和可扩展性。
|
||||||
@@ -116,24 +115,18 @@ graph TD
|
|||||||
|
|
||||||
#### 3.2.4. 其他优化
|
#### 3.2.4. 其他优化
|
||||||
|
|
||||||
- **LargeArrayToGlobal (`LargeArrayToGlobal.cpp`)**:
|
#### 3.3. 核心分析遍
|
||||||
- **目标**: 防止因大型局部数组导致的栈溢出,并可能改善数据局部性。
|
|
||||||
- **技术**: 遍历函数中的 `alloca` 指令,如果通过 `calculateTypeSize` 计算出其分配的内存大小超过一个阈值(如 1024 字节),则将其转换为一个全局变量。
|
|
||||||
- **实现**: `convertAllocaToGlobal` 函数负责创建一个新的 `GlobalValue`,并调用 `replaceAllUsesWith` 将原 `alloca` 的所有使用者重定向到新的全局变量,最后删除原 `alloca` 指令。
|
|
||||||
|
|
||||||
#### 3.3. 核心分析遍
|
|
||||||
|
|
||||||
为了为优化遍收集信息,最大程度发掘程序优化潜力,我们目前设计并实现了以下关键的分析遍:
|
为了为优化遍收集信息,最大程度发掘程序优化潜力,我们目前设计并实现了以下关键的分析遍:
|
||||||
|
|
||||||
- **支配树分析 (Dominator Tree Analysis)**:
|
- **支配树分析 (Dominator Tree Analysis)**:
|
||||||
- **技术**: 通过计算每个基本块的支配节点,构建出一棵支配树结构。我们在计算支配节点时采用了**逆后序遍历(RPO, Reverse Post Order)**,以保证数据流分析的收敛速度和正确性。在计算直接支配者(Idom, Immediate Dominator)时,采用了经典的**Lengauer-Tarjan(LT)算法**,该算法以高效的并查集和路径压缩技术著称,能够在线性时间内准确计算出每个基本块的直接支配者关系。
|
- **技术**: 通过计算每个基本块的支配节点,构建出一棵支配树结构。我们在计算支配节点时采用了**逆后序遍历(RPO, Reverse Post Order)**,以保证数据流分析的收敛速度和正确性。在计算直接支配者(Idom, Immediate Dominator)时,采用了经典的**Lengauer-Tarjan(LT)算法**,该算法以高效的并查集和路径压缩技术著称,能够在线性时间内准确计算出每个基本块的直接支配者关系。
|
||||||
- **实现**: `Dom.cpp` 实现了支配树分析。该分析为每个基本块分配其直接支配者,并递归构建整棵支配树。支配树是许多高级优化(尤其是 SSA 形式下的优化)的基础。例如,Mem2Reg 需要依赖支配树来正确插入 Phi 指令,并在变量重命名阶段高效遍历控制流图。此外,循环相关优化(如循环不变量外提)也依赖于支配树信息来识别循环头和循环体的关系。
|
- **实现**: `Dom.cpp` 实现了支配树分析。该分析为每个基本块分配其直接支配者,并递归构建整棵支配树。支配树是许多高级优化(尤其是 SSA 形式下的优化)的基础。例如,Mem2Reg 需要依赖支配树来正确插入 Phi 指令,并在变量重命名阶段高效遍历控制流图。此外,循环相关优化(如循环不变量外提)也依赖于支配树信息来识别循环头和循环体的关系。
|
||||||
|
|
||||||
- **活跃性分析 (Liveness Analysis)**:
|
|
||||||
- **技术**: 活跃性分析用于确定在程序的某一特定点上,哪些变量的值在未来会被用到。我们采用**经典的不动点迭代算法**,在数据流分析框架下,逆序遍历基本块,迭代计算每个基本块的 `live-in` 和 `live-out` 集合,直到收敛为止。这种方法简单且易于实现,能够满足大多数编译优化的需求。
|
|
||||||
- **未来规划**: 若后续对分析效率有更高要求,可考虑引入如**工作列表算法**或者**转化为基于SSA的图可达性分析**等更高效的算法,以进一步提升大型函数或复杂控制流下的分析性能。
|
|
||||||
- **实现**: `Liveness.cpp` 提供了活跃性分析。该分析采用经典的数据流分析框架,迭代计算每个基本块的 `live-in` 和 `live-out` 集合。活跃性信息是死代码消除(DCE)、寄存器分配等优化的必要前置步骤。通过准确的活跃性分析,可以识别出无用的变量和指令,从而为后续优化遍提供坚实的数据基础。
|
|
||||||
|
|
||||||
|
- **活跃性分析 (Liveness Analysis)**:
|
||||||
|
- **技术**: 活跃性分析用于确定在程序的某一特定点上,哪些变量的值在未来会被用到。我们采用**经典的不动点迭代算法**,在数据流分析框架下,逆序遍历基本块,迭代计算每个基本块的 `live-in` 和 `live-out` 集合,直到收敛为止。这种方法简单且易于实现,能够满足大多数编译优化的需求。
|
||||||
|
- **未来规划**: 若后续对分析效率有更高要求,可考虑引入如**工作列表算法**或者**转化为基于SSA的图可达性分析**等更高效的算法,以进一步提升大型函数或复杂控制流下的分析性能。
|
||||||
|
- **实现**: `Liveness.cpp` 提供了活跃性分析。该分析采用经典的数据流分析框架,迭代计算每个基本块的 `live-in` 和 `live-out` 集合。活跃性信息是死代码消除(DCE)、寄存器分配等优化的必要前置步骤。通过准确的活跃性分析,可以识别出无用的变量和指令,从而为后续优化遍提供坚实的数据基础。
|
||||||
|
|
||||||
### 3.4. 未来的规划
|
### 3.4. 未来的规划
|
||||||
|
|
||||||
@@ -145,6 +138,7 @@ graph TD
|
|||||||
函数内联能够将简单函数(可能需要收集更多信息)内联到call指令相应位置,减少栈空间相关变动,并且为其他遍发掘优化空间。
|
函数内联能够将简单函数(可能需要收集更多信息)内联到call指令相应位置,减少栈空间相关变动,并且为其他遍发掘优化空间。
|
||||||
- **`LLVM IR`格式化**:
|
- **`LLVM IR`格式化**:
|
||||||
我们将为所有的IR设计并实现通用的打印器方法,使得IR能够显式化为可编译运行的LLVM IR,通过编排脚本和调用llvm相关工具链,我们能够绕过后端编译运行中间代码,为验证中端正确性提供系统化的方法,同时减轻后端开发bug溯源的压力。
|
我们将为所有的IR设计并实现通用的打印器方法,使得IR能够显式化为可编译运行的LLVM IR,通过编排脚本和调用llvm相关工具链,我们能够绕过后端编译运行中间代码,为验证中端正确性提供系统化的方法,同时减轻后端开发bug溯源的压力。
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 4. 后端技术与优化 (Backend)
|
## 4. 后端技术与优化 (Backend)
|
||||||
@@ -215,16 +209,16 @@ graph TD
|
|||||||
end
|
end
|
||||||
```
|
```
|
||||||
|
|
||||||
1. **`analyzeLiveness()`**: 对机器指令进行数据流分析,计算出每个虚拟寄存器的活跃范围。
|
1. **`analyzeLiveness()`**: 对机器指令进行数据流分析,计算出每个虚拟寄存器的活跃范围。
|
||||||
2. **`build()`**: 根据活跃性信息构建**冲突图 (Interference Graph)**。如果两个虚拟寄存器同时活跃,则它们冲突,在图中连接一条边。
|
2. **`build()`**: 根据活跃性信息构建**冲突图 (Interference Graph)**。如果两个虚拟寄存器同时活跃,则它们冲突,在图中连接一条边。
|
||||||
3. **`makeWorklist()`**: 将图节点(虚拟寄存器)根据其度数放入不同的工作列表,为着色做准备。
|
3. **`makeWorklist()`**: 将图节点(虚拟寄存器)根据其度数放入不同的工作列表,为着色做准备。
|
||||||
4. **核心着色阶段 (The Loop)**:
|
4. **核心着色阶段 (The Loop)**:
|
||||||
- **`simplify()`**: 贪心地移除图中度数小于物理寄存器数量的节点,并将其压入栈中。这些节点保证可以被成功着色。
|
- **`simplify()`**: 贪心地移除图中度数小于物理寄存器数量的节点,并将其压入栈中。这些节点保证可以被成功着色。
|
||||||
- **`coalesce()`**: 尝试将传送指令 (`MV`) 的源和目标节点合并,以消除这条指令。合并的条件基于 **Briggs** 或 **George** 启发式,以避免使图变得不可着色。
|
- **`coalesce()`**: 尝试将传送指令 (`MV`) 的源和目标节点合并,以消除这条指令。合并的条件基于 **Briggs** 或 **George** 启发式,以避免使图变得不可着色。
|
||||||
- **`freeze()`**: 当一个与传送指令相关的节点无法合并也无法简化时,放弃对该传送指令的合并希望,将其“冻结”为一个普通节点。
|
- **`freeze()`**: 当一个与传送指令相关的节点无法合并也无法简化时,放弃对该传送指令的合并希望,将其“冻结”为一个普通节点。
|
||||||
- **`selectSpill()`**: 当所有节点都无法进行上述操作时(即图中只剩下高度数的节点),必须选择一个节点进行**溢出 (Spill)**,即决定将其存放在内存中。
|
- **`selectSpill()`**: 当所有节点都无法进行上述操作时(即图中只剩下高度数的节点),必须选择一个节点进行**溢出 (Spill)**,即决定将其存放在内存中。
|
||||||
5. **`assignColors()`**: 在所有节点都被处理后,从栈中依次弹出节点,并根据其已着色邻居的颜色,为它选择一个可用的物理寄存器。
|
5. **`assignColors()`**: 在所有节点都被处理后,从栈中依次弹出节点,并根据其已着色邻居的颜色,为它选择一个可用的物理寄存器。
|
||||||
6. **`rewriteProgram()`**: 如果 `assignColors()` 阶段发现有节点被标记为溢出,此函数会被调用。它会修改机器指令,为溢出的虚拟寄存器插入从内存加载(`lw`/`ld`)和存入内存(`sw`/`sd`)的代码。然后,整个分配过程从步骤 1 重新开始。
|
6. **`rewriteProgram()`**: 如果 `assignColors()` 阶段发现有节点被标记为溢出,此函数会被调用。它会修改机器指令,为溢出的虚拟寄存器插入从内存加载(`lw`/`ld`)和存入内存(`sw`/`sd`)的代码。然后,整个分配过程从步骤 1 重新开始。
|
||||||
|
|
||||||
### 4.4. 后端特定优化
|
### 4.4. 后端特定优化
|
||||||
|
|
||||||
|
|||||||
@@ -1,24 +0,0 @@
|
|||||||
#pragma once
|
|
||||||
|
|
||||||
#include "../Pass.h"
|
|
||||||
|
|
||||||
namespace sysy {
|
|
||||||
|
|
||||||
class LargeArrayToGlobalPass : public OptimizationPass {
|
|
||||||
public:
|
|
||||||
static void *ID;
|
|
||||||
|
|
||||||
LargeArrayToGlobalPass() : OptimizationPass("LargeArrayToGlobal", Granularity::Module) {}
|
|
||||||
|
|
||||||
bool runOnModule(Module *M, AnalysisManager &AM) override;
|
|
||||||
void *getPassID() const override {
|
|
||||||
return &ID;
|
|
||||||
}
|
|
||||||
|
|
||||||
private:
|
|
||||||
unsigned calculateTypeSize(Type *type);
|
|
||||||
void convertAllocaToGlobal(AllocaInst *alloca, Function *F, Module *M);
|
|
||||||
std::string generateUniqueGlobalName(AllocaInst *alloca, Function *F);
|
|
||||||
};
|
|
||||||
|
|
||||||
} // namespace sysy
|
|
||||||
@@ -24,7 +24,6 @@ add_library(midend_lib STATIC
|
|||||||
Pass/Optimize/InductionVariableElimination.cpp
|
Pass/Optimize/InductionVariableElimination.cpp
|
||||||
Pass/Optimize/GlobalStrengthReduction.cpp
|
Pass/Optimize/GlobalStrengthReduction.cpp
|
||||||
Pass/Optimize/BuildCFG.cpp
|
Pass/Optimize/BuildCFG.cpp
|
||||||
Pass/Optimize/LargeArrayToGlobal.cpp
|
|
||||||
Pass/Optimize/TailCallOpt.cpp
|
Pass/Optimize/TailCallOpt.cpp
|
||||||
)
|
)
|
||||||
|
|
||||||
|
|||||||
@@ -1,145 +0,0 @@
|
|||||||
#include "../../include/midend/Pass/Optimize/LargeArrayToGlobal.h"
|
|
||||||
#include "../../IR.h"
|
|
||||||
#include <unordered_map>
|
|
||||||
#include <sstream>
|
|
||||||
#include <string>
|
|
||||||
|
|
||||||
namespace sysy {
|
|
||||||
|
|
||||||
// Helper function to convert type to string
|
|
||||||
static std::string typeToString(Type *type) {
|
|
||||||
if (!type) return "null";
|
|
||||||
|
|
||||||
switch (type->getKind()) {
|
|
||||||
case Type::kInt:
|
|
||||||
return "int";
|
|
||||||
case Type::kFloat:
|
|
||||||
return "float";
|
|
||||||
case Type::kPointer:
|
|
||||||
return "ptr";
|
|
||||||
case Type::kArray: {
|
|
||||||
auto *arrayType = type->as<ArrayType>();
|
|
||||||
return "[" + std::to_string(arrayType->getNumElements()) + " x " +
|
|
||||||
typeToString(arrayType->getElementType()) + "]";
|
|
||||||
}
|
|
||||||
default:
|
|
||||||
return "unknown";
|
|
||||||
}
|
|
||||||
}
|
|
||||||
|
|
||||||
void *LargeArrayToGlobalPass::ID = &LargeArrayToGlobalPass::ID;
|
|
||||||
|
|
||||||
bool LargeArrayToGlobalPass::runOnModule(Module *M, AnalysisManager &AM) {
|
|
||||||
bool changed = false;
|
|
||||||
|
|
||||||
if (!M) {
|
|
||||||
return false;
|
|
||||||
}
|
|
||||||
|
|
||||||
// Collect all alloca instructions from all functions
|
|
||||||
std::vector<std::pair<AllocaInst*, Function*>> allocasToConvert;
|
|
||||||
|
|
||||||
for (auto &funcPair : M->getFunctions()) {
|
|
||||||
Function *F = funcPair.second.get();
|
|
||||||
if (!F || F->getBasicBlocks().begin() == F->getBasicBlocks().end()) {
|
|
||||||
continue;
|
|
||||||
}
|
|
||||||
|
|
||||||
for (auto &BB : F->getBasicBlocks()) {
|
|
||||||
for (auto &inst : BB->getInstructions()) {
|
|
||||||
if (auto *alloca = dynamic_cast<AllocaInst*>(inst.get())) {
|
|
||||||
Type *allocatedType = alloca->getAllocatedType();
|
|
||||||
|
|
||||||
// Calculate the size of the allocated type
|
|
||||||
unsigned size = calculateTypeSize(allocatedType);
|
|
||||||
if(DEBUG){
|
|
||||||
// Debug: print size information
|
|
||||||
std::cout << "LargeArrayToGlobalPass: Found alloca with size " << size
|
|
||||||
<< " for type " << typeToString(allocatedType) << std::endl;
|
|
||||||
}
|
|
||||||
|
|
||||||
// Convert arrays of 1KB (1024 bytes) or larger to global variables
|
|
||||||
if (size >= 1024) {
|
|
||||||
if(DEBUG)
|
|
||||||
std::cout << "LargeArrayToGlobalPass: Converting array of size " << size << " to global" << std::endl;
|
|
||||||
allocasToConvert.emplace_back(alloca, F);
|
|
||||||
}
|
|
||||||
}
|
|
||||||
}
|
|
||||||
}
|
|
||||||
}
|
|
||||||
|
|
||||||
// Convert the collected alloca instructions to global variables
|
|
||||||
for (auto [alloca, F] : allocasToConvert) {
|
|
||||||
convertAllocaToGlobal(alloca, F, M);
|
|
||||||
changed = true;
|
|
||||||
}
|
|
||||||
|
|
||||||
return changed;
|
|
||||||
}
|
|
||||||
|
|
||||||
unsigned LargeArrayToGlobalPass::calculateTypeSize(Type *type) {
|
|
||||||
if (!type) return 0;
|
|
||||||
|
|
||||||
switch (type->getKind()) {
|
|
||||||
case Type::kInt:
|
|
||||||
case Type::kFloat:
|
|
||||||
return 4;
|
|
||||||
case Type::kPointer:
|
|
||||||
return 8;
|
|
||||||
case Type::kArray: {
|
|
||||||
auto *arrayType = type->as<ArrayType>();
|
|
||||||
return arrayType->getNumElements() * calculateTypeSize(arrayType->getElementType());
|
|
||||||
}
|
|
||||||
default:
|
|
||||||
return 0;
|
|
||||||
}
|
|
||||||
}
|
|
||||||
|
|
||||||
void LargeArrayToGlobalPass::convertAllocaToGlobal(AllocaInst *alloca, Function *F, Module *M) {
|
|
||||||
Type *allocatedType = alloca->getAllocatedType();
|
|
||||||
|
|
||||||
// Create a unique name for the global variable
|
|
||||||
std::string globalName = generateUniqueGlobalName(alloca, F);
|
|
||||||
|
|
||||||
// Create the global variable - GlobalValue expects pointer type
|
|
||||||
Type *pointerType = Type::getPointerType(allocatedType);
|
|
||||||
GlobalValue *globalVar = M->createGlobalValue(globalName, pointerType);
|
|
||||||
|
|
||||||
if (!globalVar) {
|
|
||||||
return;
|
|
||||||
}
|
|
||||||
|
|
||||||
// Replace all uses of the alloca with the global variable
|
|
||||||
alloca->replaceAllUsesWith(globalVar);
|
|
||||||
|
|
||||||
// Remove the alloca instruction from its basic block
|
|
||||||
for (auto &BB : F->getBasicBlocks()) {
|
|
||||||
auto &instructions = BB->getInstructions();
|
|
||||||
for (auto it = instructions.begin(); it != instructions.end(); ++it) {
|
|
||||||
if (it->get() == alloca) {
|
|
||||||
instructions.erase(it);
|
|
||||||
break;
|
|
||||||
}
|
|
||||||
}
|
|
||||||
}
|
|
||||||
}
|
|
||||||
|
|
||||||
std::string LargeArrayToGlobalPass::generateUniqueGlobalName(AllocaInst *alloca, Function *F) {
|
|
||||||
std::string baseName = alloca->getName();
|
|
||||||
if (baseName.empty()) {
|
|
||||||
baseName = "array";
|
|
||||||
}
|
|
||||||
|
|
||||||
// Ensure uniqueness by appending function name and counter
|
|
||||||
static std::unordered_map<std::string, int> nameCounter;
|
|
||||||
std::string key = F->getName() + "." + baseName;
|
|
||||||
|
|
||||||
int counter = nameCounter[key]++;
|
|
||||||
std::ostringstream oss;
|
|
||||||
oss << key << "." << counter;
|
|
||||||
|
|
||||||
return oss.str();
|
|
||||||
}
|
|
||||||
|
|
||||||
} // namespace sysy
|
|
||||||
@@ -13,7 +13,6 @@
|
|||||||
#include "GVN.h"
|
#include "GVN.h"
|
||||||
#include "SCCP.h"
|
#include "SCCP.h"
|
||||||
#include "BuildCFG.h"
|
#include "BuildCFG.h"
|
||||||
#include "LargeArrayToGlobal.h"
|
|
||||||
#include "LoopNormalization.h"
|
#include "LoopNormalization.h"
|
||||||
#include "LICM.h"
|
#include "LICM.h"
|
||||||
#include "LoopStrengthReduction.h"
|
#include "LoopStrengthReduction.h"
|
||||||
@@ -61,8 +60,6 @@ void PassManager::runOptimizationPipeline(Module* moduleIR, IRBuilder* builderIR
|
|||||||
|
|
||||||
// 注册优化遍
|
// 注册优化遍
|
||||||
registerOptimizationPass<BuildCFG>();
|
registerOptimizationPass<BuildCFG>();
|
||||||
registerOptimizationPass<LargeArrayToGlobalPass>();
|
|
||||||
|
|
||||||
registerOptimizationPass<GVN>();
|
registerOptimizationPass<GVN>();
|
||||||
|
|
||||||
registerOptimizationPass<SysYDelInstAfterBrPass>();
|
registerOptimizationPass<SysYDelInstAfterBrPass>();
|
||||||
@@ -98,7 +95,6 @@ void PassManager::runOptimizationPipeline(Module* moduleIR, IRBuilder* builderIR
|
|||||||
|
|
||||||
this->clearPasses();
|
this->clearPasses();
|
||||||
this->addPass(&BuildCFG::ID);
|
this->addPass(&BuildCFG::ID);
|
||||||
this->addPass(&LargeArrayToGlobalPass::ID);
|
|
||||||
this->run();
|
this->run();
|
||||||
|
|
||||||
this->clearPasses();
|
this->clearPasses();
|
||||||
@@ -128,9 +124,9 @@ void PassManager::runOptimizationPipeline(Module* moduleIR, IRBuilder* builderIR
|
|||||||
printPasses();
|
printPasses();
|
||||||
}
|
}
|
||||||
|
|
||||||
this->clearPasses();
|
// this->clearPasses();
|
||||||
this->addPass(&Mem2Reg::ID);
|
// this->addPass(&Mem2Reg::ID);
|
||||||
this->run();
|
// this->run();
|
||||||
|
|
||||||
if(DEBUG) {
|
if(DEBUG) {
|
||||||
std::cout << "=== IR After Mem2Reg Optimizations ===\n";
|
std::cout << "=== IR After Mem2Reg Optimizations ===\n";
|
||||||
|
|||||||
Reference in New Issue
Block a user