|
|
cb334f308b
|
DDIM loop 内小张量分配优化,attention mask 缓存到 GPU,加速30s左右
|
2026-01-18 22:37:55 +08:00 |
|
|
|
a90efc6718
|
VAE 也做 BF16
这个权重不做修改更好精度
|
2026-01-18 21:14:55 +08:00 |
|
|
|
e1b029201e
|
权重改为fp32, 其他部分保持bf16
目前参数--encoder_mode有三种选择:
1. fp32: 全部使用fp32, 适合显存充足的情况
2. autocast: 使用torch.cuda.amp.autocast自动混合精度, 稍微快一些, psnr下降较多
3. bf16_full: 全部使用bf16, 精度较高
|
2026-01-18 20:24:37 +08:00 |
|
|
|
44379f3e31
|
embedder权重改成bf16
似乎因为权重的处理更慢了,整体速度反而变慢了一点点
|
2026-01-18 19:03:21 +08:00 |
|
|
|
fde3c7445d
|
轻量投影/MLP BF16 微调
调整了一些参数默认值
|
2026-01-18 18:38:47 +08:00 |
|
|
|
3c0f409fcf
|
轻量投影/MLP BF16
psnr指标反而比只量化扩散主干模型要低,原因不明
|
2026-01-18 18:26:37 +08:00 |
|
|
|
2b634cde90
|
对扩散主干做 BF16
量化对象:model.model(扩散 UNet/WMAModel 主体)
|
2026-01-18 17:14:16 +08:00 |
|
|
|
7b499284bf
|
打印推理权重精度信息
|
2026-01-18 11:19:10 +08:00 |
|
|
|
c86c2be5ff
|
性能剖析
|
2026-01-18 00:31:39 +08:00 |
|
|
|
25c6fc04db
|
第一次完整测例跑完
|
2026-01-18 00:30:10 +08:00 |
|