新的AI模型将照片转变为可探索的3D世界,并带有警告

自动数据管道培训

旅行依靠Tencent于7月发行的Tencent的Hunyuanworld 1.0。旅行也是Tencent更广泛的“ Hunyuan”生态系统的一部分,其中包括3D文本生成的Hunyuan3D-2模型和以前涵盖的视频合成的Hunyuanvideo。

为了训练旅行,研究人员开发了软件,可以自动分析现有视频以处理相机的运动并计算每个帧的深度:消除了人类手动标记数千个小时序列的需求。该系统已经处理了两个现实世界记录中的100,000多个视频片段,并处理了上述虚幻发动机渲染。

世界创建管道旅行的图表。


图片来源:腾讯

该模型需要具有严重的计算能力才能运行,尽管腾讯推荐80 GB以获得更好的结果,但至少需要60 GB的GPU存储器才能分辨率为540p。 Tencent在拥抱面前发布了模型的权重,并包括与Uni-GPU和多GPU配置一起使用的代码。

该模型具有明显的许可限制。像腾讯中的其他汉纽(Hanyuan)模型一样,该许可证禁止使用欧盟,英国和韩国。此外,为超过1亿个活跃用户提供服务的商业部署需要腾讯单独的许可证。

在由斯坦福大学的研究人员开发的世界观参考上,Voyager将达到77.62的最高总分,而Wonderworld的72.69和Cogvideox-I2V的72.69和62.15。该模型在对象(66.92),样式(84.89)和主观质量的连贯性(71.09)方面都表现出色,尽管它将第二个相机控制(85.95)放在了Wonderworld的92.98之后。 WorldScore评估了有关多种标准的全球发电方法,包括3D一致性和内容对齐。

尽管这些自我指定的参考结果似乎很有希望,但由于所涉及的计算肌肉,更广泛的部署总是面临挑战。对于需要更快处理的开发人员,该系统使用XDIT框架对几个GPU的平行推断。八个GPU执行的治疗速度比GPU配置快6.69倍。

鉴于所需的治疗能力和长而连贯的连贯性“世界”的生成极限,在使用类似技术的实时看到互动体验之前,可能是一定的时间。但是,正如我们到目前为止所看到的,如Google的天才之类的经验,我们可能会以一种新的互动和生成艺术形式见证早期阶段。

来源链接

发表评论