新的AI模型将照片转变为可探索的3D世界，并带有警告

自动数据管道培训

旅行依靠Tencent于7月发行的Tencent的Hunyuanworld 1.0。旅行也是Tencent更广泛的“ Hunyuan”生态系统的一部分，其中包括3D文本生成的Hunyuan3D-2模型和以前涵盖的视频合成的Hunyuanvideo。

为了训练旅行，研究人员开发了软件，可以自动分析现有视频以处理相机的运动并计算每个帧的深度：消除了人类手动标记数千个小时序列的需求。该系统已经处理了两个现实世界记录中的100,000多个视频片段，并处理了上述虚幻发动机渲染。

世界创建管道旅行的图表。

图片来源：腾讯

该模型需要具有严重的计算能力才能运行，尽管腾讯推荐80 GB以获得更好的结果，但至少需要60 GB的GPU存储器才能分辨率为540p。 Tencent在拥抱面前发布了模型的权重，并包括与Uni-GPU和多GPU配置一起使用的代码。

该模型具有明显的许可限制。像腾讯中的其他汉纽（Hanyuan）模型一样，该许可证禁止使用欧盟，英国和韩国。此外，为超过1亿个活跃用户提供服务的商业部署需要腾讯单独的许可证。

在由斯坦福大学的研究人员开发的世界观参考上，Voyager将达到77.62的最高总分，而Wonderworld的72.69和Cogvideox-I2V的72.69和62.15。该模型在对象（66.92），样式（84.89）和主观质量的连贯性（71.09）方面都表现出色，尽管它将第二个相机控制（85.95）放在了Wonderworld的92.98之后。 WorldScore评估了有关多种标准的全球发电方法，包括3D一致性和内容对齐。

尽管这些自我指定的参考结果似乎很有希望，但由于所涉及的计算肌肉，更广泛的部署总是面临挑战。对于需要更快处理的开发人员，该系统使用XDIT框架对几个GPU的平行推断。八个GPU执行的治疗速度比GPU配置快6.69倍。

鉴于所需的治疗能力和长而连贯的连贯性“世界”的生成极限，在使用类似技术的实时看到互动体验之前，可能是一定的时间。但是，正如我们到目前为止所看到的，如Google的天才之类的经验，我们可能会以一种新的互动和生成艺术形式见证早期阶段。

来源链接

自动数据管道培训

发表评论 取消回复

发表评论取消回复