阿里巴巴推出生成式AI模型EMO

生成式人工智能一日千里。

这个速度真是快得让人眼花缭乱啊!

正因应了网友们常说的,“日日工业革命,夜夜文艺复兴”啊!

一觉醒来,新闻铺天盖地:

3 月 1 日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。

https://humanaigc.github.io/emote-portrait-alive/

据悉,此次阿里巴巴推出的EMO 基于英伟达的 Audio2Video 扩散模型打造,号称使用了超过 250 小时的专业视频进行训练,从而得到了相关 AI 框架。

用户只需要提供一张照片和一段任意音频文件,EMO 即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达 1 分 30 秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。

据介绍,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入音频的长度生成任意持续时间的视频。

根据网络上的相关资料显示,该框架工作过程分为两个主要阶段,研究人员首先利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征,之后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频,该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

目前,EMO框架仅用于学术研究和效果演示,仍需进一步完善和扩展。

该技术可应用于对话、唱歌等领域,但也可能成为造假利器,需谨慎使用。

目前,EMO框架上线到GitHub中,相关论文也在arxiv上公开。

GitHub:https://github.com/HumanAIGC/EMO

论文:https://arxiv.org/abs/2402.17485

此前,自留地君曾推介过一款,名叫D-ID 的应用。这个 D-ID:用你自己的照片生成视频。

不过, D-ID所生成的视频长度受限,而且视频中由照片所生成的视频中面部表情略显不自然不够流畅。

今日周六,继续加班审读学生论文