
曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。但你有没有想过拖动方向键来控制画面?像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:还能旋转角度:缩放大小:这一神奇操作就来自于谢......
曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。
但你有没有想过拖动方向键来控制画面?
像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:
还能旋转角度:
缩放大小:
这一神奇操作就来自于谢赛宁团队新发布的BlerFusion框架,通过结合图形工具(Bler)与扩散模型,让视觉合成不再仅仅依赖文本提示,实现了精准的画面控制与灵活操作。
图像合成三步走BlerFusion“按键生图”的核心并不在于模型自身的创新,而在于其对现有技术(分割、深度估计、Bler渲染、扩散模型)的高效组合,打通了一套新的Pipeline。
接下来看看每一步都是怎么做的吧!
第一步:以物体为中心的分层。(Object-centricLayering)
具体来说,BlerFusion利用现有强大的视觉基础模型进行分割和深度估计:用SegmentAnythingModel(SAM)分割画面中的物体,用DepthPro模型进行深度推断赋予物体深度。
这种做法避免了从头训练3D重建模型,充分利用了现成的大规模预训练能力。
第三步:生成式合成(GenerativeCompositing)
虽然通过Bler渲染后的场景在空间结构上高度准确,但外观、纹理和光照仍然相对粗糙。
因此,在流程的最后一步,BlerFusion引入了扩散模型()对结果进行视觉增强。
为此,BlerFusion提出了双流扩散合成器(dual-streamdiffusioncompositor)。
一些trick此外,为了提高BlerFusion的泛化性,论文中还透露了两项重要的训练技巧:
源遮挡(SourceMasking):在训练时随机遮蔽源图部分,迫使模型学会基于条件信息恢复完整图像。
模拟物体抖动(SimulatedObjectJittering):模拟物体的随机偏移和扰动,提高对相机和物体的解耦能力。这一组合显著提升了生成结果的真实感和一致性。
结果演示BlerFusion在针对物体和相机操控的视觉生成中取得了不错的效果。
正如我们在文章开头的demo中所演示的,通过任意控制方向键来控制物体在图像中的位置,画面保持了较强的一致性与连贯性。
单幅图像处理:灵活地重新排列、复制和变换物体,以及改变相机视角。
多图像场景重组:组合任何图像中的物体以创建全新的场景。
用户不再被提示词困住,也不需要反复试错就能拼出理想画面。
或许,你的下一次生图将不再是“遣词造句”,而是能像搭积木一样,把每个细节都亲手摆到位。
论文地址:
项目页面:
—完—