|
|
68369cc15f
|
合并后测试
|
2026-02-10 14:45:14 +08:00 |
|
|
|
4288c9d8c9
|
减少了一路视频vae解码
|
2026-02-09 16:48:16 +00:00 |
|
|
|
7338cc384a
|
ddim.py — torch.float16 → torch.bfloat16,修复 dtype 不匹配
attention.py — 4 处 softmax 都包裹了 torch.amp.autocast('cuda', enabled=False),阻止 autocast 将 bf16 提升到 fp32
|
2026-02-08 17:02:05 +00:00 |
|
|
|
f86ab51a04
|
全链路 bf16 混合精度修正与 UNet FLOPS profiling
- GroupNorm/LayerNorm bypass autocast,消除 bf16→fp32→bf16 转换开销
- DDIM 调度系数 cast 到输入 dtype,attention mask 直接用 bf16 分配
- alphas_cumprod 提升到 float64 保证数值精度
- SinusoidalPosEmb 输出 dtype跟随模型精度
- 新增 profile_unet.py 脚本及FLOPS 分析结果
- 启用 TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL
- case1 PSNR: 30.45 → 30.24(bf16 精度预期内波动)
|
2026-02-08 16:01:30 +00:00 |
|
|
|
e588182642
|
修复混合精度vae相关的配置错误,确保在推理阶段正确使用了混合精度模型,并且导出了正确精度的检查点文件。
|
2026-02-08 12:35:59 +00:00 |
|
yuchen-x
|
d7be60f9fe
|
init commit
|
2025-09-12 21:53:41 +08:00 |
|