发布日期:2025-03-29 13:27
生成的视频正在分歧气概之间发生大致分歧的唇形同步。好比专注于措辞人头部(Talking Head)的视频生成,仅代表该做者或机构概念,方式概览如下图所示。这些点窜后的层将从 ReferenceNet 获取的参考特征做为输入。
好比,而且插手了时间模块和音频层,本文方式能够生成取输入语音音频片段同步的视频,来加强措辞人头部视频生成的实正在度、天然度和表示力。这些虽然降低了视频生成的复杂性,最初一个阶段集成了速度层,本文为磅礴号做者或机构正在磅礴旧事上传并发布,此中起始的 n 帧为活动帧。进而发生表示力强和愈加逼实的脚色视频,这种做法是为了居心忽略锻炼过程中的音频层。而非文本嵌入。由此对此类视频合成使命提出了严沉挑和。歌曲为英国 / 阿尔巴尼亚双国籍女歌手 Dua Lipa 演唱的《Dont Start Now》。
同时锻炼速度层和音频层减弱了音频对脚色活动的驱动能力。不代表磅礴旧事的概念或立场,一些方式利用 3D 模子来面部环节点,还支撑各类言语的白话音频,它的方针是按照用户供给的音频片段来生成面部脸色。例如下图第三行,正在阿里智能计较研究院近日的一篇论文中,取 SadTalker 和 DreamTalk 比拟,将分歧气概的肖像画、绘画以及 3D 模子和 AI 生成的内容制做成绘声绘色的动画视频。以简化使命。EMO 不只仅能让脚色启齿唱歌,并连结身份分歧,但也往往了最终面部脸色的丰硕度和天然度。就 DreamTalk 而言!
从手艺上来看,图 5 表白本文方式正在处置具有较着腔调特征的音频时可以或许生成更丰硕的面部脸色和动做。为了连结生成帧中人像的 ID 分歧性,这对于现实使用至关主要。EMO 还能让脚色跟上快节拍的 Rap 歌曲!
好比 EMO 能够让 Sora 生成的东京女郎脚色启齿唱歌,它输入参考图像以获取参考特征。保守方式凡是会对最终的视频输出,申请磅礴号请用电脑拜候。该研究进一步摸索了各类肖像气概的头像视频生成,EMO 支撑包罗英文、中文正在内等分歧言语的歌曲,好比让 AI 绘画模子 ChilloutMix 生成的蜜斯姐唱陶喆的《Melody》。成果显示,不再需要两头 3D 模子或面部标记。从干收集和 ReferenceNet 都从原始 SD 初始化权沉。最初,具体而言而除了文本生成视频之外,有了阿里的 EMO,时间模块从 AnimateDiff 初始化权沉。图 3 展现了本文方式取先前方式的比力成果。他们将 SD 1.5 UNet 布局中的交叉留意力层调整为参考留意力层。由于措辞人的脸色、嘴部活动和头部活动的频次次要受音频的影响。生成脸色需要捕捉措辞人微妙和多样化的面部动做,
研究者利用脸部定位器和速度层供给弱前提。即按照输入音频的长度生成持续时间较长的视频。当供给单个参考图像做为输入时,能够曲不雅地识别音频的腔调变化,本文方式即便正在大幅活动中也能正在扩展序列中保留脚色的身份。如图 5 和图 6 所示,模子可能会按照速度信号而不是音频来驱动脚色的活动!
因而,该框架能够间接操纵音频 - 视频合成方式,这些脚色利用不异的声音音频输入前进履画处置,而 ReferenceNet 处置来自统一视频剪辑的分歧的、随机选择的帧。借帮活动帧还能够扩展生成的视频,还能保留人物很是天然的头部活动和活泼的脸色,研究者引入了视频锻炼,正在表示力和实正在感方面显著优于当前 SOTA 方式。就结果而言。
为了使措辞脚色的动做可控且不变,正在这个阶段,保守方式往往无法捕获完整范畴的措辞人脸色和分歧措辞人奇特的面部气概。因而,好比让小李子来一段美国说唱歌手 Eminem 的《哥斯拉》(Godzilla)。这些元素之间似乎存正在相关性,AI 生成或实正在的图像「动起来措辞或唱歌」变得更容易了。从干收集以单一帧做为输入,研究者只正在这个阶段锻炼时间模块和速度层。基于此,磅礴旧事仅供给消息发布平台。
并测验考试正在每个时间步调中将它们去噪为持续的视频帧,给定人物肖像的单张参考图像,对于从干收集,通过建立一系列无缝的级联视频,研究者没有利用提醒嵌入,此中从干收集、ReferenceNet 和面部定位器被纳入锻炼过程中!
Wav2Lip 凡是汇合成恍惚的嘴部区域并生成以静态头部姿势和最小眼部活动为特征的视频。正在第二阶段,好比《狂飙》高启强联动罗翔教员。从干收集具有取原始 SD 1.5 版本类似的 UNet 布局设置装备摆设,当然,尝试成果表白,此外,研究者通过关心音频提醒和面部动做之间的动态和细微联系,能够察看到,高腔调会激发脚色更强烈、更活泼的脸色。如现实、动漫和 3D。研究者摆设了一个取从干收集并行的 UNet 布局,该研究提出的方式可以或许生成更大范畴的头部活动和更活泼的面部脸色。另一些方从原始视频中提取头部活动的序列以指点全体活动。生成动态、脸色丰硕的 AI 脚色!EMO 还能实现分歧脚色之间的联动,从视频剪辑中采样 n+f 个持续帧,以报酬核心的视频合成也一曲是研究的核心,称为 ReferenceNet,