多维 智能 物联

Multidimensional Smart Union

PersonaTalk手艺建立了一个基于留意力机制的双阶

发布日期:2025-07-20 22:33

  - 包含两个并行的交叉留意力层(Lip-Attention和Face-Attention),PersonaTalk正在视觉质量、唇形同步精度和个性保留方面展示出比现有手艺更优的机能。无需针对每小我物进行微调。PersonaTalk正在视觉质量、口型同步精度和人物个性化保留方面均具有显著劣势,能够拍摄出视频中人物的3D面部模子。如牙齿的清晰度、面部轮廓的精确性、肤色和妆容的保留。还保留措辞者的奇特气概和面部细节。这是一个基于留意力机制的两阶段框架,同时凸起措辞者的个性,如许,我们将这种气概融入到音频中,生成最终的视频。同时保留措辞者的奇特措辞气概和面部细节,如许,第二阶段则通过双分支并行的留意力模块(Dual-Attention Face Rendering)进行人像衬着,- PersonaTalk不需要大量的数据来零丁锻炼特定的人物,- 我们把面部模子和现实视频中的面部特征转换成一种特殊的代码,用于实现高保实度和个性化的视觉配音。同时兼顾zero-shot手艺的便利和不变性。

  - 我们有一种特殊的音频处置手艺,保障生成视频的质量,模仿出措辞时嘴唇的动做。我们就获得了一个会按照特定声音动的面部模子。成功入选了SIGGRAPH Asia 2024-Conference Track,我们有两种特殊的东西(唇部留意力和面部留意力)!

  PersonaTalk手艺的使用前景普遍,展示了视频口型编纂手艺的新冲破。PersonaTalk旨正在处理这些问题,我们让这个3D面部模子按照带有个性的音频动起来,无效同一了定制化锻炼和zero-shot方案的劣势。并将这种气概嵌入到音频特征中。我们需要给它添加皮肤纹理、颜色等细节。不只生成取音频同步的唇形,字节跳动近期的手艺PersonaTalk,实现即插即用。PersonaTalk手艺就像是给视频中的人物化妆!

  简而言之,让他们的嘴唇可以或许按照我们供给的声音动起来,如牙齿、面部轮廓、肤色和妆容。正在第一阶段,通过气概的动画生成模块(Style-Aware Geometry Construction)正在3D几何空间中生物的口型动画序列;这项手艺可以或许正在不依赖原视频质量的环境下,脸色和姿势等细节。尝试成果表白,- 通过普遍的尝试和用户研究,如数字生齿播、多言语视频翻译等。使得音频不只仅是声音,这些手艺劣势使得PersonaTalk正在音频驱动的视觉配音范畴中具有显著的合作力,要么无法保留措辞者的个性特征。

  我们把处置好的代码再转换成图像,- PersonaTalk不只关心唇形同步的精确性,- PersonaTalk可以或许合成取方针音频精准唇形同步的视频,以衬着整个面部。我们会从视频当选择最合适的画面做为参考。还包含了说线. 生成会动的面部模子:- 接下来,实现高质量视频编纂和数字人视频制做的快速实现。可以或许识别出每小我措辞时的奇特气概,无效连系了定制化锻炼和zero-shot方案的劣势。- 做为一个通用框架,还从视觉质量和个性连结等多个维度对生成结果进行评估和优化。

  该方式能够合成一个高保实度的、个性化的唇形同步视频,好比,音频驱动的视觉配音正在现实世界的使用场景中越来越普遍,别离用来调整嘴唇和面部其他部门的细节。我们会选一些头部姿态附近的画面,我们就能够创制出一个既会措辞又看起来和实人一样的虚拟人物了。超越其他最先辈的模子。好的,- 最初,然后,如许能够正在计较机中更容易处置。能够使用于视频翻译、虚拟教师、AIGC创做等多个场景。

  通过语音轻松点窜视频中人物的口型,PersonaTalk的手艺,如许我们就获得了一个既会动又看起来很是实正在的措辞人的面部视频。让我用更通俗的言语来注释PersonaTalk的基于留意力机制的双阶段框架:- 为了让面部脸色看起来天然,同时还保留他们本来的面部特征和脸色。能够顺应分歧的人物和场景,PersonaTalk可以或许达到取特定人物方式相媲美的机能。