IT之家11 月20 日报道,Meta 昨天宣布为Facebook 和Instagram 推出两款基于AI 的图像编辑工具,分别是“Emu Edit”和“Emu Video”。适用领域包括照片和视频。 Meta 公布了这两款AI 工具的更多信息,IT之家整理如下。
据官方介绍,Emu Edit模型仅使用文本指令即可精确编辑图像。通过分解文本到视频(T2V)的生成过程,开发团队宣布了一种名为Emu Video 的方法,该方法可以提高最终生成视频的质量和多样性。
据悉,Emu Edit号称是一种创新的图像编辑方法,旨在简化各种音视频操作任务,为视频编辑提供更多功能和更高精确度。
Emu Edit 可以接受用户指令并执行各种形式的编辑,包括区域和全局编辑、删除和添加背景、调整颜色和转换矢量图像,或者检测和分割图像组件。
Meta表示,Emu Edit将视觉任务作为指令合并到生成的模型中,从而在视频生成和编辑方面提供更好的控制。研究人员指出,当前的图像编辑模型通常会对图像进行过度修改或修改不足,而Emu Edit的优势在于它可以根据指令进行精确编辑。
Meta使用1000万个合成数据集来训练Emu Edit,号称是同类中最大的数据集,从而带来更好的图像编辑能力。每个样本包含图像输入、任务描述和目标输出。图像。它可以使模型忠实地执行指令并产生“比当前所有竞争产品更好的结果”。
Emu Video 是一种简单高效的文本到视频生成方法,它使用扩散模型并基于Emu Edit。开发团队解释说,这种生成视频的架构可以处理各种外部输入方式,包括文本、图像、图文组合等。此外,Emu Video 还可以接受文本提示,并对用户提供的图像进行“动画化”。这提供了“超越过去模型的能力”。
Emu Video将电影生成过程分为两步,首先根据文本提示生成图像,然后根据文本和生成的图像生成视频。这种电影生成的分步方法使研究人员能够有效地训练生成模型。
研究人员进一步解释说,Emu Video 与过去的Make-A-Video 等研究不同,后者需要一系列深度生成模型。鸸鹋视频更简单。仅使用2个扩散模型,它就可以生成分辨率为512×512、每秒16FPS、长度为4秒的视频。
IT之家发现,Meta引用评测数据证明,Emu Video生成的视频质量和“跟随提示词的保真度”优于业内竞品。
在质量方面,96%的受访者更喜欢鸸鹋视频,而不是之前的Make-A-Video解决方案;在“提示词的真实性”方面,鸸鹋视频受到85%受访者的青睐。