|
|
f86ab51a04
|
全链路 bf16 混合精度修正与 UNet FLOPS profiling
- GroupNorm/LayerNorm bypass autocast,消除 bf16→fp32→bf16 转换开销
- DDIM 调度系数 cast 到输入 dtype,attention mask 直接用 bf16 分配
- alphas_cumprod 提升到 float64 保证数值精度
- SinusoidalPosEmb 输出 dtype跟随模型精度
- 新增 profile_unet.py 脚本及FLOPS 分析结果
- 启用 TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL
- case1 PSNR: 30.45 → 30.24(bf16 精度预期内波动)
|
2026-02-08 16:01:30 +00:00 |
|