声音驱动人像不仅是脸部动作，还能驱动手部... 来自Simon的白日梦

//img.t.sinajs.cn/t6/skin/skin048/skin.css?version=d038b8dc

+关注

Simon的白日梦

24-10-17 11:13 发布于广西来自微博网页版

声音驱动人像不仅是脸部动作，还能驱动手部动作了~！还开源🥰！

TANGO: 同步语音手势视频再现

🧐TANGO项目通过分层音频-运动嵌入和扩散插值技术，生成与语音同步的逼真手势视频。这一系统可根据输入语音生成符合该语音节奏和情绪的手势动作，适用于虚拟主播、视频创作等领域。

➡️链接：O网页链接

✨重点

●🎭 音频-运动嵌入：TANGO利用分层音频-运动嵌入方法，从语音中提取出多层次特征，使生成的手势与音调和情感相匹配，提升互动表现力。

●🌀 扩散插值技术：通过扩散模型实现不同姿势间的平滑插值，确保生成的视频流畅自然，让手势切换更加连续和细腻。

●🎥 可扩展至多种应用场景：适用于虚拟角色动画、智能客服及视频内容创作等场景，为生成与语音同步的动画手势提供强大的技术支持。

●🖥 互动式演示平台：用户可以通过Huggingface Space体验TANGO的功能，输入语音来生成手势动画视频，从而直观感受其效果。