2 月 6 日消息,字节跳动近日发布了一项重大成果 ——OmniHuman 多模态框架,其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片,再结合一段输入音频,就能生成栩栩如生的人物视频。
与传统 AI 模型不同,OmniHuman-1 能够生成逼真的全身动画,并且可以精准地将手势和面部表情与语音或音乐同步,打破了以往只能生成面部或上半身动画的局限。
基于约 19000 小时的人类运动数据训练,OmniHuman-1 模型支持不同的体型和画面比例,能在内存限制内生成任意长度的视频,并适应不同输入信号,在真实性和准确性方面超越其他同类动画工具。值得一提的是,它还支持卡通角色、人工物体、动物以及复杂姿势的输入,确保生成的动作特征与每种风格的独特特点相匹配。
在实际应用场景中,OmniHuman 潜力巨大。在影视制作领域,创作者能轻松为虚拟角色打造全身动作戏份;虚拟直播里,主播动作更加自然,可增强直播的趣味性与吸引力;游戏世界中,数字人 NPC 的动作和表情更丰富,能提升玩家的沉浸感。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com