目前参数--encoder_mode有三种选择: 1. fp32: 全部使用fp32, 适合显存充足的情况 2. autocast: 使用torch.cuda.amp.autocast自动混合精度, 稍微快一些, psnr下降较多 3. bf16_full: 全部使用bf16, 精度较高
似乎因为权重的处理更慢了,整体速度反而变慢了一点点
调整了一些参数默认值
量化对象:model.model(扩散 UNet/WMAModel 主体)