论文《FactoryDecoder - 面向3D场景的AIGC工具》入选图形学顶会SIGGRAPH 2024

｜全文约3000字，阅读需要10分钟。

①

场景创生 - 持续洞察才有新思路

〇 “当前最优”，是否还能更进一步？

最开始的思考，源于工业互联网场景中基于设备数据表生成可视化应用的开发模式。从最开始的完全基于代码进行开发（Full-Code），再到低代码/无代码（Low-Code/No-Code）搭建器。先配置数据源表单，再通过拖拉拽的方式完成可视化画面构建，已经形成一个行业范式了。

彼时行业认为“拖拉拽”的体验应该是可视化应用开发的最优解。然而我们发现，行业客户的几个诉求，当时的搭建器产品还不能满足：

1. “拖拉拽”仍需要很大操作成本。对非专业设计UI的施工人员来说，拖拉拽画面元素并完成数据配置还是需要很长时间。尤其是3D类可视化搭建，更需要引入3D工程师，专业度更高，一般施工人员无法胜任。

2. 缺少画面素材。虽然有很多组件模板，但遇到没有的设备，创造一个包含数据结构的新画面组件仍然非常难。

3. 缺少交付后调整的方式。一旦熟悉工具的施工方撤场，客户想要在运维阶段做出调整，学习曲线非常陡峭，导致很多后期维护工作量。

从全代码到低代码，“当前最优”的开发体验能否更进一步，更简单，更快速？前前后后我们经历了多次探索，最后发现，平台上天然的存在一类“结构化数据”——即在数据采集阶段就完成录入的资产树结构，包含了具体设备名称，设备的配置信息，以及设备与设备关系的数据。如果能利用好这种资产编码（Asset Code），直接完成Code To Design，可以用更少的工作量，覆盖80%的可视化场景。我们基于此思路开发了第一版“资产图谱”功能。

〇 基于GenAI，重构场景搭建体验

在上述基于资产编码组织的可视化中，还有几个尚待解决的问题：

1. Asset Code要求先录入所有数据才能进行可视化。有没有更简单的启动方式？

2. 如果资产的顺序有所调整，需要返回录入的表单调节，这会导致工作界面的来回切换。能否简化？

3. 如果有设备没有预制的3D设备素材，如何展示？

此时恰逢生成式AI（Generative Artificial Intelligence，后文简称GenAI）如火如荼，我们决定结合GenAI —— 包括文本生成和3D生成的能力，进一步降低3D数字孪生场景构建门槛。我们预期通过输入一段自然语言，自动生成对可视化画面的结构化表述，从而代替以往对模板的选择。并且结构化表述可以作为自然语言和画面的中介物（Intermediate），为带有随机性的生成结果提供精确调控方式。

本质上，这是一种结合基于精确规则的符号表征（Symbolic Representation）和基于统计学的分布表征（Distributed Representation）的思路，通过连接计算机语言学知识达到更好的人机交互结果。

我们构建出FactoryDecoder，一种面向非3D工程专家用户的开发工具。它可以通过自然语言输入来生成和修改工厂数字孪生的可视化画面。基于通义大模型，FactoryDecoder可以解析用户对生产线的自然语言描述，并将其转化为层级化的资产编码，从而便于自动化的生成数字孪生。

此外，如果系统检测到缺乏合适的3D设备形象，它会自动调用3D生成器来生成新的设备形象。用户可以通过类似修改Markdown的方式，直接通过修改层级资产编码来调整画面上的3D设备类型，数据指向以及布局。我们评估了多个大语言模型的场景生成准确性。

我们进行了前期的专家用户调研，展示了FactoryDecoder对用户的实用价值。

SIGGRAPH是代表计算机图形学最高水平的国际性重量级盛会，也是CCF-A级顶级会议。我们的研究成果《FactoryDecoder - Expertise Free Digital Twin Generation and Modification Tool》成功入选SIGGRAPH 2024，在7月底前往美国丹佛进行Present。

②

继往开来 - SIGGRAPH总结

NVIDIA和Meta会怎么讲AI？基于神经学原理构造了25年的虚拟人长什么样？《沙丘2》的视效是怎么生产的？1960年代的计算艺术如何影响现在？—— 这些都在美国丹佛举行的全球最大的图形学会议SIGGRAPH上进行呈现。参加这次会议，收获颇多，在这里也把新的灵感分享给大家。

〇 既有时下热点，也有持续探索

今年的Keynote演讲中，NVIDIA提到后面要往机器人，AI工厂的方向发展，而Meta表示要坚持开源和对生态的培养，以及提到了“每个人都会有一个自己的AI Agent，正如现在每个人都有自己的邮箱和个人网页一样”。

最震撼人心的Keynote来自奥克兰生物工程学院的教授Mark Sagar。从1990年到现在，25年的时间都在研究如何通过仿真神经系统和皮肤肌肉系统从底层构造栩栩如生的虚拟人。最终形成了集大成的BabyX，一个虚拟的人工智能婴儿，其可以模拟18个月大的真实婴儿的行为、情感反应以及学习能力。当婴儿和研究员互动时，系统可以展示互动行为中婴儿的视线，大脑激活的区域，记忆的激活情况，运动神经的活动等信息，这些信息是基于底层大量神经节点的仿真运算结合而成。自然而然，这种如此真实的虚拟人也涉及到虚拟人伦理和互动边界的设立。Mark和他的企业Soul Machine也进行了大量的研究和发声。

〇 软硬结合，百花齐放

企业展上有众多AI+CG新创企业，涉及渲染加速，素材管理，AI训练，虚拟人，3D生成等领域。

印象比较深刻的是一些材质采样的硬件，通过扫描置入物体可以获得材质贴图，物理参数等信息用于反向仿真。同时有多家动捕新装置。

软件层面，现场有很多虚拟人初创企业。笔者也去了NVIDIA的虚拟人动手工作坊。在一个gradio UI的控制台输入数字人的背景故事，再选定一个大模型api，就可以驱动前端的UE5数字人。可以在UE5里调节各种动作参数 - 包括外观，张嘴幅度，表情丰富度等。文档内容全面，值得工作坊组织者学习。

③

总结 - GenAI时代，设计没有“理所当然”

整体感受，这个会议的交流氛围和创新氛围很浓，抛却了很多浅层的不影响生产的概念呈现，进入到“真刀实枪”的“效果说话”。不管是学术界还是产业界，拿出的产出都是经过多次实验的结果，比较Solid。

笔者近半年参与通义应用层的设计工作，感受到在GenAI时代，设计没有“理所当然”，所有一切都是可以重构的。我们在日常工作中，也深入挖掘，用工程化的思路多对比分析，然后回溯到“第一性原理”的级别，比如物理学限制，看看有没有更底层的不可动摇的原因，没有的话，可以“重做”。

一个最新案例是我们对大模型流式输出的视觉效果，即“打字输出”的研究。之前通义App收到部分反馈，“速度慢”、“不流畅”“GPT的速度就很快”“Gemini的体验太流畅了”。当通义App被吐槽时，我们对“打字快慢”这个“理所当然”的表现进行重新思考，针对“打字速度是不是越快越好？”“吐字过程的什么因素会影响用户偏好？”两个研究问题深入挖掘。最后发现信息的分步透出，光标速度等因素会影响用户对“智能感”的认知。我们把探究结论落地回app的对话内，并且总结为论文发表于中国可视化大会ChinaVis 2024。

当然，这只是一个非常初期的探索，抛砖引玉。GenAI时代，设计没有“理所当然”，只有“穷尽可能”。也希望业界的设计师多多交流，共同探索。