时间 | 关心的问题 | 代表性成果 | 阶段性结论 |
---|---|---|---|
2024 | 视觉基础模型的scaling law | Sora | OpenAI 在 Sora 的技术报告中称 Diffusion Transformer 具备 scale effective 的特征 |
VAR | DiT 在 Scale Up 时存在局限,在增长至 3B、7B 后体现出饱和现象,无法触及 FID 下限 | ||
扩散模型有scaling law吗 | LDM和DiT和scaling law并不契合。对于潜在扩散模型(Latent Diffusion Models, LDMs),在计算资源较少时,如果增加 10 倍的计算量,应该让数据集大小增加为 10 倍,而不增加模型参数量。 | ||
视觉窗口的scaling law | Opt-Visor | 当视觉上下文长度受到限制时,可以通过增加帧数、减少每帧的token数量来获得更好的性能。 | |
- 增加视觉token的数量可以显著提升性能。基于采样的方法在 49 个token时达到峰值,而基于压缩的方法即使使用 196 个token也没有出现性能饱和。 | |||
- 当视觉上下文窗口大小受限时,基于压缩方法能够用更少的token有效保留更多的视觉信息,得到更好的表现。 | |||
- 增加帧数能持续提升模型性能,甚至能弥补每帧视觉token压缩导致的性能下降。 - 在有限的视觉上下文窗口中,基于压缩的方法比基于采样的方法在更少帧数的情况下保留更多时间信息。 |
diffusion-base text generation
https://github.com/kuleshov-group/mdlm
https://www.youtube.com/watch?v=WjAUX23vgfg