微软的研究部门推出了一种新的人工智能模型,可以在几秒钟内将静止图像转换为Pix2Gif。这个新的公开可用的 AI 工具 Pix2Gif 使用与其他文本到视频 AI 模型相同类型的扩散模型。需要注意的是,Pix2Gif 采用“图像翻译”方法。但是,用户也可以在输入图像后在文本中给出编辑说明。
在一篇关于该模型的论文中,研究人员解释说,用户需要通过文本提示和图像输入来引导模型了解运动。这将有助于该工具根据文本提示对原始图像的特征进行“空间转换”。
AI 工具花了将近一分钟的时间从静止图像生成 2 秒的 gif。但是,该工具可以使用更快的 GPU 更快地创建 GIF。
研究人员声称已经使用了 100000 个带有适当标题的动画 gif 来训练模型。之后,他们从 gif 中提取帧并使用标题作为文本提示。
据Tom's Guide报道,这个AI模型更像是一个研究项目,可能不会变成Microsoft的公开产品,也不会作为独立工具进入Copilot。
然而,任何人都可以在测试环境中尝试。在这里,用户可以给该工具一个图像或文本提示并获得 GIF。
根据该报告,Microsoft可能会在Designer或Paint中包含此工具,以使其更容易制作动画,甚至可以使用AI对图像进行调整。
研究人员也没有透露用于训练模型的GIF的来源。要成为公开可用的商业模式,它需要许可数据进行训练,特别是如果它内置到 Microsoft 产品中。