Gao K, Lu D, Li L, et al. Digital Twin Buildings: 3D Modeling, GIS Integration, and Visual Descriptions Using Gaussian Splatting, ChatGPT/Deepseek, and Google Maps Platforms[J]. arXiv preprint arXiv:2502.05769, 2025.
城市数字孪生是通过整合多源数据与数据分析技术优化城市规划、基础设施管理与决策支持的城市虚拟镜像。为此,我们提出一个聚焦单体建筑尺度的数字孪生框架。通过对接谷歌地图平台API等云端测绘服务,运用ChatGPT(4o)与Deepseek-V3/R1构建的先进多智能体大语言模型分析系统,以及基于高斯泼溅的网格提取流程,本数字孪生建筑框架可根据建筑地址、邮政编码或地理坐标,实现建筑三维模型重构、可视化特征描述,并完成云端地图集成与大语言模型驱动的建筑数据分析。本文提出一种数字孪生建筑框架(Digital Twin Building, DTB),该框架支持提取建筑三维网格模型,集成云地图服务与多智能体大语言模型(LLM)数据分析功能。在本研究中,我们通过该框架实现了高斯渲染模型与三维网格模型的重建,同步获取基础地理编码信息、地图数据及二维图像,并基于多智能体LLM模块执行二维图像视觉分析(如图1所示)。
图 1. 数字孪生建筑框架示意图。外部模块以红色框标出,自有工具/模块以蓝色框标出,本文重点阐述部分使用深蓝色标注,数据输入输出以纯文本形式呈现。
通过谷歌地图平台集成模块,本框架可按需获取局部高程地图、实时交通数据、空气质量数据等多源信息,并支持扩展接入其他数据服务。本文主要贡献包括:
(1)数字孪生建筑框架构建:提出支持建筑三维网格模型提取的系统架构,集成云地图服务实现地理编码解析、地图数据获取与二维图像检索;
(2)多智能体LLM分析模块设计:构建基于多智能体架构的大语言模型数据分析系统;
(3)视觉分析实验验证:利用LLM模块对目标建筑的多视角/多尺度图像开展大规模视觉分析实验,并对ChatGPT(4o/mini)与Deepseek-V3/R1等主流模型进行性能评估
在初步实验中,我们注意到即使使用相同的模型和提示,最终的CLIP分数在不同尝试之间仍然存在较大的变化,因为LLM的输出并不是确定性的(即使在使用LLM温度= 0的情况下)。因此,我们进行了两个实验。我们希望了解在使用不同模型作为LLM代理时模块的表现,并且我们希望了解在关键词提取步骤和图像说明生成步骤中,不同尝试之间分数的分布情况。
(1)关键词提取:对于多代理图像到关键词的提取,chatgpt-4o-latest 和 gpt-4o-mini 都适用。此外,支持高分辨率和低分辨率的图像分析。我们针对所有7个场景进行所有4种组合的测试,进行10次迭代,每次使用8张图像和LLM代理,共计2240次API调用。我们记录了LLM的响应和困惑度分数,结果如图2所示。
图 2. 各模型图像-关键词困惑度分布箱型图。
(2)图像说明生成:对于关键词到图像说明的步骤,我们使用从一次gpt-4o高分辨率图像API调用中获得的每个场景的固定图像关键词。对于每个建筑物的7个场景,我们测试了每个模型的5次迭代,包括关键词聚合-说明生成的过程,涉及四种模型:gpt-4o-mini、chatgpt-4o-latest、deepseek-chat、deepseek-reasoner。每次测试需要两次API调用,总共448次API调用。我们还计算了每个输入图像的CLIP分数,共得出7 · 5 · 4 · 8 = 1120个CLIP分数。每个模型的CLIP分数分布如图3所示。
图 3. 建筑描述CLIP分数分布箱型图。
(3)可视化:我们展示了Perimeter Institute (PI)大楼场景的提取3D模型、图像说明、关键词和基于Google Maps平台的信息的可视化,如图4所示。理论物理前沿研究所(Perimeter Institute for Theoretical Physics)是一个位于加拿大安大略省滑铁卢市31号Caroline街北的独立研究中心。我们展示了从场景中提取的3D网格和深度图、2D地图以及通过Google Maps平台静态地图API提取的建筑物多边形在Google Maps缩放级别18下的航空图像。我们还绘制了从单一视角提取的关键词,以及多代理LLM模块生成的图像说明。
图 4. 可视化结果展示。左上:彩色三维网格模型;左下:深度图;右上:带关键词、描述及多边形掩膜的航拍图像;右下:含地图信息的检索结果(入口处标注红色定位标记)。