文字|肖恩
编辑唐艳
Byte 正在AI 上运行。产品方刚刚宣布旗下AI对话产品豆宝对外测试,并在Github上一口气发布了两个AI视频项目。一种专注于多模式动画生成,而另一种则专注于面向文本的视频编辑。
目前在Github 上,这两个项目合计已获得1,000 多颗星。
来源:公共互联网
不仅如此,还吸引了大量网友围观。有人直接表示:“我一直想在TikTok上红,但是有了AI,现在会更容易”!
资料来源:Dave Villalva 推特
目前,Byte的这两个项目虽然已经上传到了GitHub和arxiv,但是还没有公开代码,想要开始玩还得等一段时间。
很多网友已经等不及了,纷纷在网上索要激活码……
资料来源:Don Jose Valle 推特
话不多说,让我们仔细看看这两个人工智能视频生成项目的细节。
AI捕捉运动信号,一键生成视频。 MagicAvatar 由字节跳动开发。它是一个专注于多模式输入生成的多模式框架。它可以将文本、视频和音频等不同的输入方式转换为运动信号,从而生成并动画化头像。
具体来说,虚拟角色可以通过简单的文字提示创建,也可以根据源视频制作并遵循给定的动作,还可以针对特定主题对虚拟角色进行动画处理。
例如,输入“宇航员在火山中跳踢踏舞”,就会生成对应的头像。
来源:魔法阿凡达
或者直接提供源视频,AI将根据给定的动作创建图像。
来源:魔法阿凡达
看到生成效果后,不少网友惊呼Runway的Gen-1和Gen-2已经不行了!
来源:推特
据Byte团队的解释,与过去直接从多模态输入生成视频相比,MagicAvatar的独特之处在于它明确地将视频生成分解为两个阶段。
第一阶段主要将多模态输入(文本、视频、语音等)转换为代表运动的信号,如人体姿态、深度信息、DensePose等。第二阶段,第一阶段生成的运动信号为与外观描述一起输入到模型中,然后生成视频。
这里提一下,DensePose是一种计算机视觉技术,用于将图像上人体的姿势信息与3D人体模型关联起来。
来源:魔法阿凡达
例如,如果我们想生成“一个女人交叉双臂在舞池里跳舞”的视频,我们直接将提示词喂给AI。 AI首先会识别并生成交叉双臂的动作,然后生成目标图像。
这样做的好处是降低了学习难度。不仅可以使用独立的数据进行不同模态之间的训练,而且不需要所有模态的数据集同时存在。
此外,MagicAvatar还支持用户上传目标角色图片,为特定角色生成动画,实现个性化需求。
来源:魔法阿凡达
未来,研究团队表示还将推出音频引导图像生成功能,让用户仅通过音频输入即可创建图像,例如说话、唱歌等。
三阶段训练,AI高保真编辑MagicEdit是Vincent视频编辑工具。用户只需要自然语言提示即可轻松改变视频中的风格、场景甚至替换对象或添加元素,同时保持原始视频的动作和外观一致。他们还可以通过视频混合功能创造新颖的概念。
比如把左边的小兔子变成一只看起来像兔子的老虎,只要提示Tiger就可以了。
OS:(虽然看起来有点奇怪,但是意思是有的……)
来源:MagicEdit
具体来说,MagicEdit可以清楚地分离和学习视频对象的外观和运动,实现高质量和时间连贯的视频编辑。它能够独立处理和优化这两个方面,然后将它们组合成新的完整视频。这样做的好处是剪辑过程更加灵活高效,同时也保证了视频的质量和时间连贯性。
来源:MagicEdit
例如,如果你正在编辑一个人在跳舞的视频,那么外观就是这个人的衣服、发型、脸型等,动作就是他的舞蹈动作。
来源:MagicEdit
简单来说,MagicEdit就像一个聪明的导演。它可以分别调整人的服装和舞蹈动作,然后根据不同的个性化需求将两者完美结合生成新的视频。
新视频可能有不同的背景、场景、风格,但保持了原视频中人物的外貌和动作,整个视频看起来优美流畅。
来源:公共互联网
目前,MagicEdit支持多种编辑应用,包括视频风格化、部分编辑、视频混合(Video-MagicMix)等功能。视频风格化是将源视频转换为特定风格并创建具有不同主题和背景的新场景的能力。比如现实、卡通等。
来源:MagicEdit
本地编辑允许用户对视频进行本地修改,同时保持其他区域不变。 Video-MagicMix与MagicMix类似,可以将视频领域的两种不同概念混合起来,创造出一个新的概念。
此外,MagicEdit还支持视频扩展功能,无需重新训练即可执行视频扩展任务。
来源:MagicEdit
按照之前的逻辑,视频扩展通常需要对模型进行专门的训练或者针对这个任务进行微调,灵活性比较差。
因此,研究团队在去噪过程中灵活地注入逆潜在编码(inverse Latent)和随机噪声,可以保证已知区域保持不变,未知区域产生新的内容,然后可以直接生成匹配提示,无需重新训练。新内容大大提高了视频扩展比的鲁棒性。
据字节海外出品的论文称,这两个AI视频项目是由字节科学家联合发表的。五位作者中有四位来自中国,都曾在Byte Labs 做过研究或实习。
通讯作者严汉书(Hanshu YAN) 是字节跳动新加坡公司的研究科学家,致力于视频/图像生成模型的研究。
毕业于北京航空航天大学电气工程学士学位,硕士和博士学位均毕业于新加坡国立大学。曾在新加坡海洋人工智能实验室(Sea AI Lab)实习。
来源:颜汉书
Junhao Liew 是字节跳动新加坡公司的计算机视觉科学家。他毕业于伦敦大学学院(UCL),获得电气和电子工程学士学位。他在新加坡国立大学攻读硕士和博士学位,并在Adobe 实习。据谷歌学术显示,他的论文已被引用超过1,400 次。
资料来源:谷歌学术
其他几位作者也曾在新加坡攻读博士学位,并参与字节跳动新加坡的科研工作。
加速布局AI视频字节跳动2023年在AI领域的布局确实可以用加速来形容。
从近期获批的大模型云雀,到刚刚对外测试其AI对话产品的豆宝,再到6月份字节跳动旗下火山引擎推出的大模型服务平台“火山方舟”,为企业提供全方位的模型精品服务。 – 调整、评估和推理。平台服务。
来源:火山引擎
作为一家以短视频起家的互联网公司,除了深耕TikTok、抖音等平台外,视频一直是字节的强势关注领域。
例如,今年4月,Byte在美国推出了一款专注于照片和视频的应用Lemon8,类似于海外Instagram和Pinterest的混合体。此外,字节跳动旗下的另一款视频编辑工具“CapCut”在苹果应用商店中被列为美国最受欢迎的应用程序之一。
虽然短视频业务的市场份额不低,但论及拥抱AI的速度,字节并不能说快。相比之下,美图前段时间发布了2023年上半年财报。得益于AI视频、AI绘图等AIGC功能的上线,总营收12.61亿元,同比增长29.8%。
The Information此前报道称,字节跳动2022年总营收将达到850亿美元,同比增长38%。主要收入来自TikTok、视频游戏和企业软件。 AI尚未给字节跳动带来任何巨大的好处。
长按将“智勇”助理添加进群,注:公司+职位