unifolm-world-model-action

Author	SHA1	Message	Date
olivame	2cef3e9e45	├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 1 │ CUDA Stream 预创建 │ wma_model.py │ 50次 → 0次 │ ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 2 │ noise buffer 预分配 │ ddim.py │ 50次 alloc → 0次 │ ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 3 │ global_feature expand提到循环外 │ conditional_unet1d.py │ ~700次 → ~100次 │ ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 4 │ alpha/sigma dtype 预转换 │ ddim.py │ 200次 .to() → 0次 │ 效果不算特别明显	2026-02-10 13:40:52 +00:00
olivame	0b3b0e534a	复用 DDIMSampler + make_schedule微弱提升	2026-02-09 18:26:39 +00:00
olivame	6dca3696d8	实现了Context 预计算和缓存功能，提升了采样效率。 psnr不下降	2026-02-09 17:42:47 +00:00
olivame	f192c8aca9	添加CrossAttention kv缓存，减少重复计算，提升性能，psnr=31.8022 dB	2026-02-09 17:04:23 +00:00
olivame	7338cc384a	ddim.py — torch.float16 → torch.bfloat16，修复 dtype 不匹配 attention.py — 4 处 softmax 都包裹了 torch.amp.autocast('cuda', enabled=False)，阻止 autocast 将 bf16 提升到 fp32	2026-02-08 17:02:05 +00:00
olivame	f86ab51a04	全链路 bf16 混合精度修正与 UNet FLOPS profiling - GroupNorm/LayerNorm bypass autocast，消除 bf16→fp32→bf16 转换开销 - DDIM 调度系数 cast 到输入 dtype，attention mask 直接用 bf16 分配 - alphas_cumprod 提升到 float64 保证数值精度 - SinusoidalPosEmb 输出 dtype跟随模型精度 - 新增 profile_unet.py 脚本及FLOPS 分析结果 - 启用 TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL - case1 PSNR: 30.45 → 30.24（bf16 精度预期内波动）	2026-02-08 16:01:30 +00:00
olivame	75c798ded0	DDIM loop 内小张量分配优化，attention mask 缓存到 GPU	2026-02-08 14:20:48 +00:00
yuchen-x	d7be60f9fe	init commit	2025-09-12 21:53:41 +08:00

8 Commits