虚拟试穿(VirtualTry-On)和虚拟试脱(VirtualTry-Off)之间的区别。
顶部:虚拟试穿的基本流程是这样的,它接收一张穿着衣服的人的照片作为参考,再加上另一张衣物的照片,然后生成一张该人穿上指定衣物后的图像。
底部:而虚拟试脱的目标是从单张输入的参考图片中预测出衣物的标准形态。这意味着不是给模特穿上新衣服,而是从现有照片中提取出衣物的样子,并将其呈现为标准的姿态,背景干净,便于单独展示衣物本身。
首先,使用SigLIP图像编码器从参考图片中提取特征。
然后,这些提取出的图像特征会通过一些适配模块进行处理。
接下来,这些图像特征被嵌入到一个预训练的文字转图像模型—StableDiffusion-v1.4中。这里的关键是用图像特征替换了模型中原有的文字特征,在交叉注意力层中发挥作用。
通过基于图像特征而不是文字特征来调整模型,TryOffDiff可以直接针对虚拟试脱(VTOFF)任务进行优化。通过对适配层和扩散模型的同时训练,TryOffDiff能够有效地实现衣物的转换。
THE END