unifolm-world-model-action

olivame/unifolm-world-model-action

Fork 0

Commit Graph

Author	SHA1	Message	Date
olivame	7338cc384a	ddim.py — torch.float16 → torch.bfloat16，修复 dtype 不匹配 attention.py — 4 处 softmax 都包裹了 torch.amp.autocast('cuda', enabled=False)，阻止 autocast 将 bf16 提升到 fp32	2026-02-08 17:02:05 +00:00
olivame	f86ab51a04	全链路 bf16 混合精度修正与 UNet FLOPS profiling - GroupNorm/LayerNorm bypass autocast，消除 bf16→fp32→bf16 转换开销 - DDIM 调度系数 cast 到输入 dtype，attention mask 直接用 bf16 分配 - alphas_cumprod 提升到 float64 保证数值精度 - SinusoidalPosEmb 输出 dtype跟随模型精度 - 新增 profile_unet.py 脚本及FLOPS 分析结果 - 启用 TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL - case1 PSNR: 30.45 → 30.24（bf16 精度预期内波动）	2026-02-08 16:01:30 +00:00

Author

SHA1

Message

Date

olivame

7338cc384a

ddim.py — torch.float16 → torch.bfloat16，修复 dtype 不匹配

attention.py — 4 处 softmax 都包裹了 torch.amp.autocast('cuda', enabled=False)，阻止 autocast 将 bf16 提升到 fp32

2026-02-08 17:02:05 +00:00

olivame

f86ab51a04

全链路 bf16 混合精度修正与 UNet FLOPS profiling

- GroupNorm/LayerNorm bypass autocast，消除 bf16→fp32→bf16 转换开销
  - DDIM 调度系数 cast 到输入 dtype，attention mask 直接用 bf16 分配
  - alphas_cumprod 提升到 float64 保证数值精度
  - SinusoidalPosEmb 输出 dtype跟随模型精度
  - 新增 profile_unet.py 脚本及FLOPS 分析结果
  - 启用 TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL
  - case1 PSNR: 30.45 → 30.24（bf16 精度预期内波动）

2026-02-08 16:01:30 +00:00

2 Commits