|
|
e1f8a83648
|
tensorRT engines尝试精度没过,暂时先提交代码,后续再继续调试
|
2026-02-18 18:22:12 +08:00 |
|
|
|
3101252c25
|
速度变化不明显psnr显著提升
|
2026-02-11 16:38:21 +08:00 |
|
|
|
f386a5810b
|
补充上次提交
|
2026-02-11 16:24:40 +08:00 |
|
|
|
9a08e27a19
|
KV 融合实现完成。改动总结: 速度微弱提升psnr略微上升
attention.py — 3处改动:
1. __init__ 添加 _kv_fused = False 标志
2.新增 fuse_kv() 方法:将 to_k + to_v → to_kv,同时处理 _ip/_as/_aa 辅助 KV 对
2. bmm_forward 两个分支加_kv_fused 判断,用to_kv().chunk(2, dim=-1) 替代分别调用
|
2026-02-11 12:36:38 +08:00 |
|
|
|
b558856e1e
|
fix bugs
|
2026-02-10 22:35:45 +08:00 |
|
|
|
dcbcb2c377
|
- state_unet 放到一个独立的 CUDA stream 上执行
- action_unet 在默认 stream 上同时执行
- 用 wait_stream 确保两者都完成后再返回
两个 1D UNet 输入完全独立,共享的 hs_a 和 context_action 都是只读的。GPU 利用率只有 ~31%,小张量 kernel 不会打满 GPU,两个 stream 可以真正并行。
|
2026-02-10 21:41:48 +08:00 |
|
|
|
9347a4ebe5
|
实现了Context 预计算和缓存功能,提升了采样效率。 psnr不下降
|
2026-02-10 17:47:46 +08:00 |
|
|
|
223a50f9e0
|
添加CrossAttention kv缓存,减少重复计算,提升性能,psnr=25.1201dB
|
2026-02-10 17:35:03 +08:00 |
|
|
|
91a9b0febc
|
DDIM loop 内小张量分配优化,attention mask 缓存到 GPU
|
2026-02-10 16:53:00 +08:00 |
|
yuchen-x
|
d7be60f9fe
|
init commit
|
2025-09-12 21:53:41 +08:00 |
|