19 Commits

Author SHA1 Message Date
25de36b9bc 添加当前优化说明
相关参数改动和效果
2026-01-19 16:58:37 +08:00
2fdcec6da0 Delete README.md 2026-01-19 16:39:49 +08:00
7e501b17fd 把混和精度模型权重导出至本地文件,减少dtype开销
--export_casted_ckpt ckpts/unifolm_wma_dual_mixbf16.ckpt \
        --export_only
2026-01-19 15:14:01 +08:00
cb334f308b DDIM loop 内小张量分配优化,attention mask 缓存到 GPU,加速30s左右 2026-01-18 22:37:55 +08:00
a90efc6718 VAE 也做 BF16
这个权重不做修改更好精度
2026-01-18 21:14:55 +08:00
e1b029201e 权重改为fp32, 其他部分保持bf16
目前参数--encoder_mode有三种选择:
1. fp32: 全部使用fp32, 适合显存充足的情况
2. autocast: 使用torch.cuda.amp.autocast自动混合精度, 稍微快一些, psnr下降较多
3. bf16_full: 全部使用bf16, 精度较高
2026-01-18 20:24:37 +08:00
44379f3e31 embedder权重改成bf16
似乎因为权重的处理更慢了,整体速度反而变慢了一点点
2026-01-18 19:03:21 +08:00
fde3c7445d 轻量投影/MLP BF16 微调
调整了一些参数默认值
2026-01-18 18:38:47 +08:00
3c0f409fcf 轻量投影/MLP BF16
psnr指标反而比只量化扩散主干模型要低,原因不明
2026-01-18 18:26:37 +08:00
2b634cde90 对扩散主干做 BF16
量化对象:model.model(扩散 UNet/WMAModel 主体)
2026-01-18 17:14:16 +08:00
7b499284bf 打印推理权重精度信息 2026-01-18 11:19:10 +08:00
c86c2be5ff 性能剖析 2026-01-18 00:31:39 +08:00
25c6fc04db 第一次完整测例跑完 2026-01-18 00:30:10 +08:00
ASC-Competition
ca15cc593b Add files via upload 2026-01-12 14:07:31 +08:00
ASC-Competition
fbe2a47a8f Add files via upload 2026-01-12 14:07:13 +08:00
ASC-Competition
bfa393b287 Add files via upload 2026-01-12 14:06:22 +08:00
ASC-Competition
3549dfde29 Add files via upload 2026-01-12 14:05:26 +08:00
ASC-Competition
ea25330ae1 Add files via upload 2026-01-12 14:04:17 +08:00
ASC-Competition
4841f15f9a Add files via upload 2026-01-12 14:03:05 +08:00