|
|
d5bec53f61
|
优化后的全部结果
|
2026-02-11 19:21:06 +08:00 |
|
|
|
352a79035f
|
主干部分fp16,最敏感psnr=25.21,可以考虑对主干部分太敏感的部分回退fp32
|
2026-02-11 16:23:21 +08:00 |
|
|
|
dcbcb2c377
|
- state_unet 放到一个独立的 CUDA stream 上执行
- action_unet 在默认 stream 上同时执行
- 用 wait_stream 确保两者都完成后再返回
两个 1D UNet 输入完全独立,共享的 hs_a 和 context_action 都是只读的。GPU 利用率只有 ~31%,小张量 kernel 不会打满 GPU,两个 stream 可以真正并行。
|
2026-02-10 21:41:48 +08:00 |
|
|
|
afa12ba031
|
每步迭代保存异步
|
2026-02-10 19:54:53 +08:00 |
|
|
|
223a50f9e0
|
添加CrossAttention kv缓存,减少重复计算,提升性能,psnr=25.1201dB
|
2026-02-10 17:35:03 +08:00 |
|