kevin

StableIdentity

Ai网站最新工具StableIdentity，StableIdentity是一个基于大型预训练文本到图像模型的最新进展，能够实现高质量的以人为中心的生成。与现有方法不同的是，StableIdentity能够确保稳定的身份保留和灵活的可编辑性，即使在训练过程中只使用了每个主体的一张面部图像。它利用面部编码器和身份先验对输入的面部进行编码，然后将面部表示投射到一个可编辑的先验空间中。通过结合身份先验和可编辑性先验，学习到的身份可以在各种上下文中注入。此外，StableIdentity还设计了一个掩蔽的两阶段扩散损失，以提升对输入面部的像素级感知，并保持生成的多样性。大量实验证明，StableIdentity的性能优于以往的定制方法。学习到的身份还可以灵活地与ControlNet等现成模块结合使用。值得注意的是，我们是首个能够直接将从单张图像学习到的身份注入到视频/3D生成中而无需微调的方法。我们相信，StableIdentity是统一图像、视频和3D定制生成模型的重要一步。

3D, 3D生成, 图像, 学习, 定制, 工具, 文本, 文本到图像, 模型, 生成, 生成模型, 编码, 编辑, 视频, 设计, 身份保留, 高质量

VLOGGER

Ai网站最新工具VLOGGER，VLOGGER是一种从单张人物输入图像生成文本和音频驱动的讲话人类视频的方法，它建立在最近生成扩散模型的成功基础上。我们的方法包括1)一个随机的人类到3D运动扩散模型，以及2)一个新颖的基于扩散的架构，通过时间和空间控制增强文本到图像模型。这种方法能够生成长度可变的高质量视频，并且通过对人类面部和身体的高级表达方式轻松可控。与以前的工作不同，我们的方法不需要为每个人训练，也不依赖于人脸检测和裁剪，生成完整的图像（而不仅仅是面部或嘴唇），并考虑到正确合成交流人类所需的广泛场景（例如可见的躯干或多样性主体身份）。

3D, 图像, 图像生成, 工具, 扩散模型, 文本, 文本到图像, 模型, 生成, 视频, 音频, 高质量

NEO NPC

Ai网站最新工具NEO NPC，NEO NPC是由育碧公司开发的一款革命性AI原型,它能让游戏中的非玩家角色(NPC)以自然、有灵性的方式与玩家进行真实对话互动。这个原型将游戏写作者塑造的角色个性、背景故事等元素输入到大型语言模型中,再通过Nvidia的Audio2Face应用程序和Inworld的大型语言模型(LLM)进行训练,使得NPC能基于场景上下文、玩家输入等因素作出恰当的语言反应。该系统在保持NPC身份统一性的同时,赋予了它们自主对话的能力,为玩家带来前所未有的身临其境体验。育碧强调,这只是一个原型,未来还需继续迭代优化,最终目标是让它能够广泛应用于不同类型的游戏项目中。

LLM, 互动, 优化, 写作, 大型语言模型, 对话, 工具, 应用程序, 开发, 故事, 模型, 游戏, 灵性, 角色, 语言, 语言模型

Make-Your-Anchor

Ai模型最新工具Make-Your-Anchor，Make-Your-Anchor是一个基于扩散模型的2D虚拟形象生成框架。它只需一段1分钟左右的视频素材就可以自动生成具有精确上身和手部动作的主播风格视频。该系统采用了一种结构引导的扩散模型来将3D网格状态渲染成人物外观。通过两阶段训练策略,有效地将运动与特定外观相绑定。为了生成任意长度的时序视频,将frame-wise扩散模型的2D U-Net扩展到3D形式,并提出简单有效的批重叠时序去噪模块,从而突破推理时的视频长度限制。最后,引入了一种基于特定身份的面部增强模块,提高输出视频中面部区域的视觉质量。实验表明,该系统在视觉质量、时序一致性和身份保真度方面均优于现有技术。