updated scripts and pptx
This commit is contained in:
@@ -37,9 +37,9 @@
|
||||
)[
|
||||
#text(weight: "bold", fill: rgb("#0f4c81"))[8 分钟汇报时间分配] \
|
||||
#set text(size: 9pt)
|
||||
- *页面时间*:封面 ~10s / 概述 ~25s / 技术栈 ~15s / Lab1 ~20s / Lab2 ~50s / Lab3 ~35s / Lab4 ~50s / Lab5 ~25s / Lab6 ~30s / 近期攻坚 ~35s / 难点 ~30s / 测试 ~20s / 分工 ~15s / 总结 ~25s / 致谢 ~5s。总计约 390 秒 ≈ 6.5 分钟演讲 + 1.5 分钟缓冲。
|
||||
- *精讲原则*:每页只讲 1-2 个核心技术点,不展开细节。五个必讲亮点:编译期/运行期分离、支配树+Mem2Reg、浮点位精确、寄存器别名、LICM。
|
||||
- *语速*:中文约 260 字/分钟,本稿演讲正文约 2100 字。
|
||||
- *页面时间*:封面 ~10s / 概述 ~25s / 技术栈 ~15s / Lab1 ~20s / Lab2 ~45s / Lab3 ~30s / Lab4 ~45s / Lab5 ~25s / Lab6 ~25s / 近期攻坚 ~30s / 性能优化专项 ~45s / 难点 ~25s / 测试 ~20s / 分工 ~15s / 总结 ~20s / 致谢 ~5s。总计约 420 秒 ≈ 7 分钟演讲 + 1 分钟缓冲。
|
||||
- *精讲原则*:每页只讲 1-2 个核心技术点,不展开细节。六个必讲亮点:编译期/运行期分离、支配树+Mem2Reg、浮点位精确、寄存器别名、LICM、无硬编码性能优化。
|
||||
- *语速*:中文约 260 字/分钟,本稿演讲正文约 2300 字。
|
||||
]
|
||||
|
||||
#v(0.3cm)
|
||||
@@ -53,7 +53,7 @@
|
||||
|
||||
#block(width: 100%, breakable: true)[
|
||||
== 第 1 页:封面页(~10 秒)
|
||||
*【逐字演讲稿】* 各位老师、同学们,下午好!我是程景愉。今天代表我们小组——程景愉、舒钰权、杨力嘉,汇报 SysY 编译器课程实验成果。我们实现了从 SysY 到 AArch64 汇编的完整编译器,六个实验全部完成,11 项测试通过。 \
|
||||
*【逐字演讲稿】* 各位老师、同学们,下午好!我是程景愉。今天代表我们小组——程景愉、舒钰权、杨力嘉,汇报 SysY 编译器课程实验成果。我们实现了从 SysY 到 AArch64 汇编的完整编译器,六个实验全部完成,21 项完整回归测试通过,并将全量测试耗时优化到 217.293 秒。 \
|
||||
*【演讲技巧】* 站姿挺拔,声音洪亮。一句话自我介绍 + 一句话项目概括。
|
||||
]
|
||||
|
||||
@@ -65,7 +65,7 @@
|
||||
|
||||
#block(width: 100%, breakable: true)[
|
||||
== 第 3 页:技术栈总览(~15 秒)
|
||||
*【逐字演讲稿】* 快速一览技术栈。前端 ANTLR4 + Visitor,中端自研 SSA IR 含完整 use-def 链,中端优化实现了 Mem2Reg 加五个标量 Pass 及 LICM,后端 MIR → 汇编。LLVM 工具链验证 IR,AArch64 交叉编译 + QEMU 验证汇编,全程自动化。 \
|
||||
*【逐字演讲稿】* 快速一览技术栈。前端 ANTLR4 + Visitor,中端自研 SSA IR 含完整 use-def 链,中端优化实现了 Mem2Reg、五个标量 Pass、Load CSE 及 LICM,后端 MIR 到 AArch64 汇编,并加入栈帧压缩和 SP 直接寻址等后端优化。LLVM 工具链验证 IR,AArch64 交叉编译 + QEMU 验证汇编,全程自动化。 \
|
||||
*【演讲技巧】* 快速全景扫描,15 秒带过。
|
||||
]
|
||||
|
||||
@@ -128,31 +128,43 @@
|
||||
]
|
||||
|
||||
#block(width: 100%, breakable: true)[
|
||||
== 第 10 页:关键技术难点与突破(~30 秒)
|
||||
== 第 10 页:性能优化专项:无硬编码的通用提速(~45 秒)
|
||||
*【逐字演讲稿】* 这里重点汇报基础六个 Lab 之外,我们最后针对性能测试做的通用优化。要求是不能硬编码测试名、文件名或输出常量,所以我们只保留可以解释为编译器正常优化的方案。
|
||||
|
||||
第一是 IR 层 Load CSE:同一基本块内,如果两次 load 来自同一个指针,并且中间没有 store 或 call 破坏内存,就直接复用第一次 load 的结果。这个优化对 `A[i][j] * A[i][j]` 这类循环密集表达式非常有效。
|
||||
|
||||
第二是 MIR 层死栈槽删除和栈帧压缩。删除从未被读取的临时栈槽后,重新紧凑布局活跃 frame slot,减少大负偏移访存。
|
||||
|
||||
第三是汇编层 SP 直接寻址。原先大偏移访问会生成 `ldr x10, =offset` 再访存;优化后能用 `[sp, #imm]` 就直接编码。效果上,`2025-MYO-20.sy` 单测从约 130.8 秒降到约 90.2 秒,`if-combine3.sy` 的大偏移 literal load 从 208 次降为 0。完整脚本从约 279.6 秒降到 217.293 秒,21 项测试全部通过。 \
|
||||
*【演讲技巧】* 这一页是性能亮点,强调“无硬编码”和“可解释为通用优化”。数字要讲清楚。
|
||||
]
|
||||
|
||||
#block(width: 100%, breakable: true)[
|
||||
== 第 11 页:关键技术难点与突破(~25 秒)
|
||||
*【逐字演讲稿】* 六大技术挑战总结。编译期/运行期分离——常量求值绝不碰 IRBuilder。数组语义三层拆分——标量、聚合、指针退化严格区分。浮点精度保全——从常量折叠到 .word 汇编全链路位精确。SSA 一致性——每个改变 CFG 的 Pass 必须同步维护 Phi 边。后端指针安全——预分配容量、64 位强制 X 寄存器、栈槽静态扫描。支配树鲁棒性——不可达节点和自环必须优雅阻断。这六点是优化开启后仍保持语义正确的基石。 \
|
||||
*【演讲技巧】* 快速过六个要点,手指逐一指向卡片。
|
||||
]
|
||||
|
||||
#block(width: 100%, breakable: true)[
|
||||
== 第 11 页:测试验证结果(~20 秒)
|
||||
*【逐字演讲稿】* 全部 11 项功能测试与 10 项性能测试在优化全开条件下通过,21 个用例输出与退出码 100% 匹配。覆盖从 simple_add 到递归图着色到 95_float 浮点综合测试。特别强调:这是在 Mem2Reg + 五个 Pass + LICM 全部开启下通过的——优化管线在提升性能的同时保证了语义正确。验证链路:SysY 源码 → IR → 优化 → AArch64 汇编 → QEMU 模拟 → 输出比对。 \
|
||||
*【演讲技巧】* 强调"优化全开"和"100% 匹配"。
|
||||
== 第 12 页:测试验证结果(~20 秒)
|
||||
*【逐字演讲稿】* 全部 11 项功能测试与 10 项性能测试在优化全开条件下通过,21 个用例输出与退出码 100% 匹配。当前无硬编码优化版本完整脚本耗时 217.293 秒。覆盖从 simple_add 到递归图着色、95_float 浮点综合测试,再到 2025-MYO-20 等性能测试。特别强调:这是在 Mem2Reg、五个 Pass、LICM、Load CSE 和后端栈优化全部开启下通过的——优化管线在提升性能的同时保证了语义正确。验证链路:SysY 源码 → IR → 优化 → AArch64 汇编 → QEMU 模拟 → 输出比对。 \
|
||||
*【演讲技巧】* 强调"优化全开"、"21/21"和"217.293 秒"。
|
||||
]
|
||||
|
||||
#block(width: 100%, breakable: true)[
|
||||
== 第 12 页:人员分工(~15 秒)
|
||||
== 第 13 页:人员分工(~15 秒)
|
||||
*【逐字演讲稿】* 三人分工。我负责中端优化——Lab2 IR 生成、Lab4 支配树与全部 Pass、Lab6 LICM。舒钰权负责 Lab1 文法扩展和 Lab3 AArch64 后端,攻克了浮点位精确等底层难题。杨力嘉负责 Lab5 窥孔优化与全量测试回归,在寄存器别名感知方面做出关键贡献。通过 Git 分支 + MR + Code Review 完成协作。 \
|
||||
*【演讲技巧】* 真诚肯定组员贡献。
|
||||
]
|
||||
|
||||
#block(width: 100%, breakable: true)[
|
||||
== 第 13 页:实验总结与展望(~25 秒)
|
||||
*【逐字演讲稿】* 核心成果:构建了一个结构清晰、语义正确、可扩展的 SysY 编译器框架。六个实验覆盖前端到后端全环节,在支配树、SSA 构建、Phi 降低、浮点位精确、寄存器别名、LICM 等关键技术上做了深入实现。可继续方向:寄存器分配升级为图着色/线性扫描,循环优化扩展到强度削弱和展开,中端引入 GVN/PRE。通过这六个实验,我们对编译器三层次架构和 SSA 优化有了系统性理解,为今后程序语言和系统优化方向的研究打下了基础。 \
|
||||
== 第 14 页:实验总结与展望(~20 秒)
|
||||
*【逐字演讲稿】* 核心成果:构建了一个结构清晰、语义正确、可扩展的 SysY 编译器框架。六个实验覆盖前端到后端全环节,在支配树、SSA 构建、Phi 降低、浮点位精确、寄存器别名、LICM 等关键技术上做了深入实现;同时额外完成了 Load CSE、栈帧压缩和 SP 直接寻址等通用性能优化,把完整回归测试稳定压到 217.293 秒。可继续方向:寄存器分配升级为图着色/线性扫描,循环优化扩展到强度削弱和展开,中端引入 GVN/PRE。 \
|
||||
*【演讲技巧】* 直视评委,展示热情和清晰规划。
|
||||
]
|
||||
|
||||
#block(width: 100%, breakable: true)[
|
||||
== 第 14 页:致谢与 Q&A
|
||||
== 第 15 页:致谢与 Q&A
|
||||
*【逐字演讲稿】* 感谢各位老师和同学的聆听!从语法树到 AArch64 汇编,从 SSA 优化到循环不变式外提——我们构建了一个完整、正确、可扩展的 SysY 编译器。接下来是答辩与提问环节,敬请批评指正!谢谢!
|
||||
|
||||
#v(0.3cm)
|
||||
@@ -208,8 +220,8 @@
|
||||
*应答*:一是在 Lab1/2 之间引入独立 AST 层解耦文法与下游;二是在 Lab3 就用虚拟寄存器,避免后续从栈槽模型重构。
|
||||
|
||||
#v(0.1cm)
|
||||
*问题十:性能怎么样?* \
|
||||
*应答*:教学编译器追求语义正确优先。优化前因栈槽冗余不如 GCC -O0。全量优化开启后循环密集用例有明显提升。要达到 GCC 水平不现实,但已验证了优化管线的语义正确性。
|
||||
*问题十:性能怎么样?做了哪些非基础 Lab 优化?* \
|
||||
*应答*:教学编译器仍然以语义正确优先,但我们额外做了三类通用性能优化:IR 层基本块内 Load CSE,MIR 层死栈槽删除与栈帧压缩,汇编层 SP 直接寻址。取消所有测例硬编码后,完整脚本从约 279.6 秒降到 217.293 秒;其中 2025-MYO-20 单测从约 130.8 秒降到约 90.2 秒,if-combine3 的大偏移 literal load 从 208 次降到 0。
|
||||
|
||||
#v(0.1cm)
|
||||
*问题十一:能在真机上运行吗?* \
|
||||
|
||||
Reference in New Issue
Block a user