|
|
7e501b17fd
|
把混和精度模型权重导出至本地文件,减少dtype开销
--export_casted_ckpt ckpts/unifolm_wma_dual_mixbf16.ckpt \
--export_only
|
2026-01-19 15:14:01 +08:00 |
|
|
|
cb334f308b
|
DDIM loop 内小张量分配优化,attention mask 缓存到 GPU,加速30s左右
|
2026-01-18 22:37:55 +08:00 |
|
|
|
e1b029201e
|
权重改为fp32, 其他部分保持bf16
目前参数--encoder_mode有三种选择:
1. fp32: 全部使用fp32, 适合显存充足的情况
2. autocast: 使用torch.cuda.amp.autocast自动混合精度, 稍微快一些, psnr下降较多
3. bf16_full: 全部使用bf16, 精度较高
|
2026-01-18 20:24:37 +08:00 |
|
|
|
44379f3e31
|
embedder权重改成bf16
似乎因为权重的处理更慢了,整体速度反而变慢了一点点
|
2026-01-18 19:03:21 +08:00 |
|
|
|
fde3c7445d
|
轻量投影/MLP BF16 微调
调整了一些参数默认值
|
2026-01-18 18:38:47 +08:00 |
|
|
|
2b634cde90
|
对扩散主干做 BF16
量化对象:model.model(扩散 UNet/WMAModel 主体)
|
2026-01-18 17:14:16 +08:00 |
|
|
|
7b499284bf
|
打印推理权重精度信息
|
2026-01-18 11:19:10 +08:00 |
|