登录 | 注册

我要投稿

互联网

·

谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”

锌媒体报道 2024-03-20 09:56

3 月 19 日消息，谷歌近日在 GitHub 页面发布博文，介绍了 VLOGGER AI 模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。

VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型，使用 MENTOR 数据库进行训练，该数据库中包含超过 80 万名人物肖像，以及累计超过 2200 小时的影片，从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

研究人员表示：“和此前的多模态相比，VLOGGER 的优势在于不需要对每个人进行训练，不依赖于人脸检测和裁剪，，可以生成完整的图像（而不仅仅是人脸或嘴唇），并且考虑了广泛的场景（例如可见躯干或不同的主体身份），这些对于正确合成交流的人类至关重要”。

Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步，之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。

VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等，也可剪辑既有的影片，如果对影片中的表情不满意就能加以调整。

向作者提问

最新评论

游客

锌媒体报道

给我留言发送消息

Ta的文章(8689)更多

热门文章

新日行业首发《电动两轮车智能化白皮书》，聚焦标准“盲区”

锌媒体报道

2021-11-02 17:11

燃情夏日，贺女足出战世界杯！7.15来新日直播间，高端厨电送不停

锌媒体报道

2023-07-14 15:49

中国国际设计博览会开幕太湖之畔劲刮“新日旋风”

锌媒体报道

2021-10-11 17:30

国际机器人赛事RoboCup@Home Education2020线上比赛成功举办

锌媒体报道

2020-07-02 14:32

2020 WAIC机器人狂欢：AI抗疫，后浪可畏！

锌媒体报道

2020-07-22 17:01

推荐文章

海思：知道我这5年是

AI第一波红利，美图吃

黄仁勋“最新剧透”：

美好蕴育荣获3·15质

海思：知道我这5年是

SpaceX执着试飞火箭获众人掌声，TCL执着

光晕终结者再添一员猛将，Q9K黑马驰骋沙

TCL电视斩获艾普兰金奖，黑马勇猛突围，

TCL挑战无光晕画质，“黑马”Q9K亮相AWE

同档次新卷王：TCL Q9K继续科技平权，成

关于锌媒体 | 加入我们 | 商务合作 | 常见问题 | 网站地图