unifolm-world-model-action

Files

qhy 508b91f5a2 延迟 decode，只解码 CLIP 需要的 1 帧

- world model 调用 decode_video=False，跳过 16 帧全量 decode
- 只 decode 最后 1 帧给 CLIP embedding / observation queue
- 存 raw latent，循环结束后统一 batch decode 生成最终视频
- 每轮省 15 次 VAE decode，8 轮共省 120 次
- 跳过中间迭代的 wm tensorboard/mp4 保存
psnr微弱下降

2026-02-11 17:07:33 +08:00

case1

延迟 decode，只解码 CLIP 需要的 1 帧

2026-02-11 17:07:33 +08:00

case2

主干部分fp16,最敏感psnr=25.21,可以考虑对主干部分太敏感的部分回退fp32

2026-02-11 16:23:21 +08:00

case3

主干部分fp16,最敏感psnr=25.21,可以考虑对主干部分太敏感的部分回退fp32

2026-02-11 16:23:21 +08:00

case4

主干部分fp16,最敏感psnr=25.21,可以考虑对主干部分太敏感的部分回退fp32

2026-02-11 16:23:21 +08:00