字节跳动发布OmniHuman 多模态框架

发布时间：2025-02-07 19:45:58

2 月 6 日消息，字节跳动近日发布了一项重大成果 ——OmniHuman 多模态框架，其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片，再结合一段输入音频，就能生成栩栩如生的人物视频。

与传统 AI 模型不同，OmniHuman-1 能够生成逼真的全身动画，并且可以精准地将手势和面部表情与语音或音乐同步，打破了以往只能生成面部或上半身动画的局限。

基于约 19000 小时的人类运动数据训练，OmniHuman-1 模型支持不同的体型和画面比例，能在内存限制内生成任意长度的视频，并适应不同输入信号，在真实性和准确性方面超越其他同类动画工具。值得一提的是，它还支持卡通角色、人工物体、动物以及复杂姿势的输入，确保生成的动作特征与每种风格的独特特点相匹配。

在实际应用场景中，OmniHuman 潜力巨大。在影视制作领域，创作者能轻松为虚拟角色打造全身动作戏份；虚拟直播里，主播动作更加自然，可增强直播的趣味性与吸引力；游戏世界中，数字人 NPC 的动作和表情更丰富，能提升玩家的沉浸感。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

字节跳动发布OmniHuman 多模态框架

相关阅读

ai资讯推荐

最新资讯