理论研究 | 基于机器学习的街道视觉环境评价方法研究

导读

街道是居民感知城市最直接、最关键的要素，良好的街道空间视觉感知对城市高质量发展具有重要意义。过去由于技术的限制，人们对城市街道空间的认识与评价始终停留在较为主观且难以统一的水平，如何构建街道空间视觉感知评价方法则有待进一步探究。本研究首先通过图像语义分割模型提取街道空间特征，量化影响因素指标，建立街景图像数据库；其次，基于TrueSkill算法建立视觉感知评价模型得到小规模街道空间视觉感知主观评分；最后，构建机器学习支持下的随机森林和XGBoost拟合模型对街道空间视觉感知评分进行大规模回归预测。本研究有助于弥补传统街道空间研究在考虑视觉感知方面的不足，为城市规划者和决策者提供科学、合理的评价手段，为城市规划和街道设计提供科学的依据和指导，从而提升城市空间的人性化、美观度和整洁性。

本文字数：8217字

阅读时间：25分钟

作者 | 杨震、黄晓雯、邱怡凯、史方舟、孙立

北京建筑大学

关键词

街道、视觉感知、图像语义分割、机器学习

引言

随着新型城镇化战略的实施，我国的城市建设已由注重“量”向注重“质”的提升转变。街道，作为与人民日常生活紧密相连的空间，其优化对于增强实体经济、激发城市活力、展现美学与文化价值，以及推动城市高质量发展而言具有举足轻重的作用。人对环境的感知是一个多维度且复杂的过程，其中不仅包含视觉感知，还涵盖了听觉、嗅觉、触觉等非视觉感知方式。在这些感知方式中，视觉感知因其相对稳定性和深远影响力，成为了人们感知环境的主要手段。

过去由于技术的限制，人们对城市街道空间的认识与评价始终停留在较为主观且难以统一的水平。随着互联网的发展，信息化和数字化已成为人们研究人类社会中一些非直观现象的有力工具，大数据和图像数据在城市研究中的价值被挖掘出来。随着数据获取渠道和处理方式的增多，学者们从多元的视角出发对街道感知评价进行研究。在早期阶段，研究者们主要依赖于定性归纳的方式，通过现象观察、随机访谈以及SD问卷法等手段，深入探讨了街道感知与人们活动之间的内在联系。然而，随着计算机视觉和机器学习技术的飞速发展，近年来基于大数据的街道感知评价逐渐成为研究热点。在这一新兴趋势下，学者们主要运用客观的物理数据来测度人的主观感受，从而为街道感知评价提供了更为科学、客观的依据。例如，张帆（2018）在MIT众包数据集的基础上，结合深度学习技术，预测街道空间安全、美丽、富有等6个人类感知指标^[1]；姚尧等（2019）提出了一个基于深度学习的人机对抗系统框架，该框架使用一个基于随机森林的模块来探索街景元素和用户得分之间的关系，低成本、高通量的对街景图像进行主观评价^[2]。客体角度多为构建符合研究目标的量化评价体系，常见以街景图像^[3]和VR虚拟现实^[4]等数据为载体，采用机器学习^[5]和数理分析^[6]等技术方法进行。

总体而言，大数据驱动下的街道空间评估面临着新的发展契机。本研究在明晰街道空间视觉环境影响因素的基础上，首先通过图像语义分割模型提取街道空间特征，量化影响因素指标，建立街景图像数据库；其次，基于TrueSkill算法建立视觉感知评价模型得到小规模街道空间视觉感知主观评分；最后，构建机器学习支持下的随机森林和XGBoost拟合模型对街道空间视觉感知评分进行回归预测。本研究有助于弥补传统街道空间研究在考虑视觉感知方面的不足，为街道的可持续发展和提升居民生活质量提供了重要的理论支持和实践指导，为进一步理解街道空间的视觉感知提供了新的思路和方法。

街道空间视觉环境的影响因素

与传统的街道空间环境评价不同，本文主要使用图像语义分割及图像处理技术解析街景图像，提取街景图像信息。在指标初筛的过程中，既要遵循科学性、系统性、代表性等指标的筛选原则，又要兼顾各指标的重要性及现有图像处理算法。这一过程具体可分为以下两步：首先，根据街道空间环境评价相关文献中提及的指标的重要程度进行筛选，确保所选指标能够充分反映评价的核心要素；其次，进一步考虑这些指标是否具有可量化性，以便能够进行精确的测量和比较，从而确保评价结果的准确性和客观性。

2.1 评价指标来源

现有涉及街道空间环境评价指标体系众多，涉及空间品质、景观视觉、美感、愉悦感等各个方面，对一些具有代表性研究成果中的评价指标进行统计分析（表1）。在统计过程中，若不同文献中使用的指标名称各异但实质含义相同，应将其归并为一类。例如，天空开阔指数、天空可视率、天空面积指数等，这些指标尽管名称不同，但都指代街道上可见天空的面积，因此在统计时应当被视为同一类指标进行处理。此外，鉴于本文的研究主要基于街景图像数据，聚焦于街道空间的视觉特征分析，因此并不涉及街道平面特征如贴线率、近线率以及POI数据等。基于这一研究范畴的考量，本文在指标筛选过程中并未纳入上述街道平面特征的相关指标。

表1现有关于街道空间环境评价指标梳理

2.2 评价指标筛选

已有研究中，许多学者采用天空开阔度、建筑界面围合度、绿视率、机动车道占比、人行道占比、行人出现率、机动车出现率这7个街道空间视觉要素特征作为评估街道空间环境的重要因素。而当前关于街道空间环境评价的研究常以图像语义分割后的建筑、绿化及天空等高级视觉特征并结合街道宏观特征构成街道空间的指标体系，对街景图像中线条、形态、肌理等低级视觉特征缺乏清晰量化的标准。基于此，本项目将视觉解构化思维引入到图像语义分割中，以街道空间视觉复杂度和视觉破碎度分别表征街道空间轮廓线条变化丰富程度和建筑界面景物遮挡、分割情况，结合街道空间要素与视觉环境的内在关联，从开放性、舒适性、安全性和丰富性四个维度对现有分析技术可测度的影响因子进行分类（图1）。

图1 评价指标选取思路

街道空间视觉环境评价方法

本研究构建一套以多源大数据为研究基础，图像语义分割为量化工具，机器学习为技术支持的街道空间视觉环境评价方法。首先建立街景图像数据库，并运用图像语义分割模型量化街景图像中的影响因素。接着，通过TrueSkill算法得到小规模街景图像主观评价，最后使用机器学习算法下的随机森林和XGBoost模型进行拟合回归预测大规模街景图像客观评分。

图2 研究框架

3.1 建立街景图像数据库

3.1.1 路网简化

道路网络数据来自开放街道地图（OSM）开放地图网站。OSM数据具有精度高、数据完备、可提供空间坐标等优点，且相对于其它平台数据而言，更容易获取，是道路网络数据提取的重要信息来源。OSM网站数据坐标是以WGS-1984地理空间坐标系为基础，因此选取“WGS 1984 UTM Zone 50N”投影坐标系作为统一的基底坐标。由于道路网络具有复杂的结构和复杂的拓扑结构，因此需要对道路数据进行预处理。路网简化过程主要包括以下四个步骤：

（1）以城市干道、次干道、支路为研究对象，分析了城市交通系统的空间布局。

（2）对初始道路进行缓冲区分析，并填补十字路口周围的空隙，并将其转为栅格文件。

（3）使用ArcScan提取道路中心线并细化道路（图 3）。

（4）对简化后的道路进行增密处理，每隔200米建立一个采样点。

图3 路网简化处理示意图

3.1.2 数据采集

街景数据主要包括百度街景、谷歌街景及腾讯街景，综合考虑可获得性、数据时间及数据覆盖程度，本文以百度街景作为街景数据主要数据来源。

本文采用Python编程语言，借助百度地图的API接口，有效获取了街景图片数据，进而实现了对城市街道视图的采集工作。百度全景静态图接口参数包括width、height、location、heading、pitch、fov等。width为图片的宽度，height为图片的高度，最大可设置为1024*512像素。其中Location为全景位置点坐标，坐标格式包括经度和纬度。Heading为水平视角，选取0°、90°、180°和270°四个角度的街景图片。Pitch为垂直视角，研究选取20°，fov为水平范围，选取90°。由于需要处理街景图数量庞大，因此本文获取街景图像大小为600*400像素，将每个采样点的四个角度的四张街景图像拼接成一张全景图（图 4）。

图4 全景图处理示意

3.1.3 图像语义分割模型

近年来，由于深度学习在计算机视觉中的广泛应用，像素级的语义分割技术取得了显著提升。常用的语义分割方法涵盖了FCN、U-Net、SegNet、Deeplab以及PSPNet等多种技术。其中，全卷积网络（Fully Convolutional Networks, FCN）凭借其能够接受任意尺寸的图像输入的能力，在内存使用和计算时间上都表现出色，从而为街景图像组成要素的高效、精准识别和提取提供了坚实的基础。

本文使用的预测模型使用的GitHub上开源的代码（https://github.com/CSAILVision/semantic-segmentation-pytorch），此模型以ADE20K开放图像数据集为训练基础的全卷积神经网络（FCN）为框架进行建模。该预测模型实现了150种以上的城市街道景观要素的自动提取，包括天空、道路、建筑物、绿化、行人、汽车等。

图5 图像语义分割示意图

3.2 构建街道空间视觉环境的评价模型

通过预先选取的小规模样本，本研究建立了评价数据集，并邀请相关专业志愿者对街景图像的视觉环境进行对比与选择，收集偏好信息形成训练资料库。基于此，结合机器学习技术构建了评估预测模型，实现了大规模评价计算，从而提升了评价效率与准确性。

3.2.1 数据准备

（1）评价样本选择

为确保示例影像的代表性和有效性，需结合街景影像中总体采样点的空间及数目分布，筛选出具有代表性的街景影像，并对其进行饱和度、亮度、光照等校正，以降低影像自身的光环境对视觉感知的影响，并去除相关的干扰因子。

（2）评价志愿者筛选

为使得评分结果能够更加全面、客观地反映各维度的视觉感受，本研究根据姚尧等人提出的遴选准则，选择相关领域的专家、城市规划、建筑等相关专业的硕士研究生作为研究对象，进行评分。专家、相关专业的高校学生以及设计师，因各自拥有不同的优势，成为了对城市环境进行评分的理想受邀对象。专家们凭借丰富的设计实务经验和深厚的专业素养，能够深刻洞察城市基本问题；而高校学生则以其独特的视角和敏锐的感知，为评分注入新鲜血液和理想主义色彩；设计师们则凭借对指标基本含义的深刻理解，能够发掘隐藏问题并提出建设性意见。在训练样本的评分过程中，我们发现评分结果的准确度与稳定性更多地依赖于样本影像的数目以及每张影像的比对次数，而非仅仅参与打分的人数。因此，在提升评分结果的质量时，我们应注重增加样本影像的数量和比对次数，以确保评分的客观性和可靠性。综上所述，通过合理选择和利用专家、高校学生和设计师的评分，结合充足的样本影像和比对次数，我们能够有效地提高城市环境评分体系的准确度和稳定性。综上所述，最终筛选出30位相关人员进行街景图像视觉感知主观评分。

3.2.2 评价平台搭建

（1）评价原理

TrueSkill算法是一种有效的评分算法。基于贝叶斯推断和概率图模型，它的核心思想是根据玩家的对战结果来更新他们的技能水平。算法假设每个玩家的技能水平服从一个正态分布，其中包括该玩家的平均技能水平和技能的不确定性。每次玩家之间进行对战后，TrueSkill算法根据比赛结果来更新玩家的技能分布，使得观测到的比赛结果与预测的结果之间的差异最小化。该算法不仅局限于游戏领域，还可以扩展到各种评估领域，以帮助组织者更好地理解参与者的能力或主观感受并做出相应的决策。值得注意的是，由于回归方法需要更精确的数据以及人类认知过程的复杂性和复杂性，使得回归模型的精准预测更加困难。因此，如何有效地采集和处理人的主观感知数据，成为当前研究的一个关键问题。本研究采用 TrueSkill算法对图像数据进行转换，以最大程度地体现主观层面的视觉环境偏好，同时节约图像对比次数，缩短调查结果的采集时间。

（2）评价界面搭建

利用Python编程语言编写了评价程序（图6）。评价程序的打分操作相对简单，即按照评价界面的标题、指标含义及相应的评分标准，对任意两幅出现在该平台上的图片进行观察。若受邀评分志愿者认为左侧图像显示的街道空间品质优于右侧图像，便选择左侧图像。在获取志愿者对街道空间视觉环境的感知评价结果后，利用TrueSkill算法将志愿者的偏好数据信息转化为[0-1]范围内的排序得分。

图6街道空间视觉环境TrueSkill评分算法程序界面

（3）评价标准和依据

从空间开放性、空间舒适性、空间安全性和空间丰富性四个维度选取了10个指标来描述生活性街道空间视觉环境。为使专家评分结果能更好地反映出街道空间中与上述指标密切相关的问题，需要有针对性地制定打分过程中参照的标准和依据（表2）。

表2 专家评分参考标准

3.2.3 机器学习模型构建与比较

鉴于街景图片数量庞大，若采用人工对比的方式，其可行性极低，同时会消耗巨大的时间和人力成本。因此。本研究运用机器学习算法，选用随机森林和XGBoost两种算法构建模型拟合模型实现回归预测，并对比模型结果，选取拟合效果最佳的算法支持后续深入分析，以确保研究的准确性和可靠性。

（1）模型选择

① 随机森林

随机森林（Random Forests，RF）^[19]是一种基于集成学习思想的强大机器学习算法，它通过构建多棵决策树，并结合这些树的预测结果来完成分类和回归任务。这种算法的核心在于其随机性，通过bootstrap重抽样技术，随机森林能够生成多个不同的数据集，并在每个数据集上构建决策树，从而增加模型的健壮性（Robust）和预测准确性^[20]。由于其出色的应用效果和强大的泛化能力，随机森林在多个领域得到了广泛应用，成为监督学习中的一种重要算法。无论是处理复杂的分类问题还是进行精确的回归分析，随机森林都能展现出其独特的优势。这种集成学习的策略使得随机森林在处理复杂问题时表现出色。在构造随机森林时，必须采用同一种方法构造若干棵树，其中包括信息增加算法（information gain）、Gini算法等。在随机森林算法中，当有新的待辨识目标出现时，所有的树都将按照该目标的属性进行分类，而随机森林则会选择得分最多的一种，作为整片森林的分类结果^[21]。随机森林重要性指数计算首先需要构建决策树，本文中使用的为CART节点分裂算法，其涉及如下计算：

第i棵树节点q的Gini指数的计算公式为：

式中，c为总分类类别，P_qc为节点q中类别c的出现概率。

计算每个划分的Gini系数的公式为：

图7 随机森林示意图

② XGBoost模型

XGBoost(eXtreme Gradient Boosting，极限梯度提升树)是一种由陈天奇等人于2016年提出的典型Boosting集成学习算法^[22]，它基于GBDT发展而来，因更精确、更灵活、更好的正则化特性而在深度学习领域得到广泛应用。本研究中，我们采用了XGBoost模型，即一种梯度上升回归树，它通过多次迭代构造一系列回归树，旨在获得最优的回归树，并以此为优化目标,使得目标损失函数最小。XGBoost 的数学模型如下：

假设D1= {(x_i, y_i)}是由n个样本和m个特征值组成的数据集。附加函数 z 被集合树模型用来近似系统响应，如下：

式中：F 为包含 Z 棵树的函数空间，被定义为：

式中：q为树的结构；T为叶子个数；w为叶子的权重。w_q(x)为叶子节点q的分数；f(x)为某一独立树；f_z是为与q、w相联系并于独立树相关的函数。

为了优化集合树预测性能，定义 XGBoost 的目标函数为：

式中：L为显示预测误差的凸型损失函数；y_i是为真实值；k为误差最小化过程的迭代次数。

图8 XGBoost模型示意图

（2）评价标准

在机器学习模型的回归分析中，选择合适的评估指标至关重要。其中，MAE(Mean Absolute Error，平均绝对误差）和MSE（Mean Squared Error，均方误差）是两种常用的评估指标。MAE通过计算真实值与预测值之间绝对误差的平均值，能够更真实地反映模型预测误差的实际情况。而MSE则通过计算实际值与预测值差值的平方和的平均值，来度量预测模型的性能。MSE的数值越小，说明模型的预测值与真实值之间的差距越小，从而意味着模型的拟合优度越高。

设样本总数量为N，样本实际值为y_i，预测值为y_i’，则以上几个评估指标的计算公式如下：

北京市海淀区模拟案例

本文选取了北京市海淀区作为研究对象进行案例模拟。海淀区，隶属于北京市，位于北京市主城区的西部和西北部。在地理位置上，它东邻西城区与朝阳区，南部与丰台区相接，西部与石景山区、门头沟区交界，北部则与昌平区接壤。

本研究使用ArcGIS对研究范围内街道路网数据进行预处理，最终获得街道735条，其中主干道121条，次干道325条，支路289条（图9）。本研究采用Python语言编写代码，并利用百度地图的API接口，获取北京市海淀区的街景图像数据，并将每个采样点四个角度的街景图像拼接成全景图，共获得全景图11478张（图10）。基于ADE20K开放图像数据集训练的FCN模型框架，对全景图进行图像语义分割训练，量化各项影响因素指标（图10）。而后，基于TrueSkill算法的评价模型得到小规模主观视觉感觉评分后，使用大规模机器学习预测所有街景图像视觉感知评分。

图9 海淀区矢量路网

图10 海淀区街景图像语义分割示意图

通过对比随机森林模型和XGBoost模型的MAE和MSE拟合优度发现，在相同的迭代次数下，XGBoost模型的拟合效果更佳。因此，为了获得更准确的预测结果和进行深入的解释性分析，本研究选择XGBoost作为后续研究的基准模型，预测得出海淀区1.2w张街景图像视觉环境评价评分。

表3 随机森林和XGBoost模型拟合结果比较

结语

街道是城市中重要的公共空间，直接关系到市民的日常生活质量和城市的活力，但其关注度仍有待提升。从街道中的视觉感知入手优化街道空间，对于推动街道空间设计的人性化，改善城市环境品质，提升居民生活体验，增强居民归属感和满意度等方面具有重要价值。

在视觉感知评分过程中，以往的研究常受限于技术和数据，多依赖于专家的手工分析和个人经验，这阻碍了其在实际应用中的广泛且迅速的推广。为了克服这一难题，本研究提出了一种新型的空间品质量化评估框架，该框架基于开放数据构建，能实现高效且迅速的评估操作。结合小规模打分评价与机器学习技术支持下的大规模街景数据预测，可以迅速对较大尺度的街道空间品质进行高精度的评价。这一方法不仅能针对各个区域乃至每条街道的空间品质提供数值化的精确测量，还能通过直观的可视化展示，清晰地呈现空间品质的特征，为街道空间品质评价带来了全新的可能性。总的来说，本研究运用图像语义分割、TureSkill算法、机器学习等方法，可以更客观、准确地评估街道空间视觉感知评分，量化生活性街道空间要素，分析视觉感知的影响要素，为城市规划者和决策者提供科学、合理的评价手段，为城市规划和街道设计提供科学的依据和指导，从而提升城市空间的人性化、美观度和整洁性。

参考文献（上滑查看全部）

[1] Zhang F, Zhou B, Liu L, et al. Measuring human perceptions of a large-scale urban region using machine learning[J]. Landscape and Urban Planning, 2018, 180: 148-160.

[2] Yao Y, Liang Z, Yuan Z, et al. A human-machine adversarial scoring framework for urban perception assessment using street-view images[J]. International Journal of Geographical Information Science, 2019, 33(12): 2363-2384.

[3] Biljecki F, Ito K. Street view imagery in urban analytics and GIS: A review[J]. Landscape and Urban Planning, 2021, 215: 104217.

[4] 徐磊青,孟若希,黄舒晴,陈筝.疗愈导向的街道设计:基于VR实验的探索[J].国际城市规划,2019,34(01):38-45.

[5] Xu F, Jin A, Chen X, et al. New Data, Integrated Methods and Multiple Applications: A Review of Urban Studies based on Street View Images[C]//2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS. IEEE, 2021: 6532-6535.

[6] 崔成,任红艳,赵璐等.基于街景影像多特征融合的广州市越秀区街道空间品质评估[J].地球信息科学学报,2020,22(06):1330-1338

[7] 郑屹,杨俊宴.基于大规模街景图片人工智能分析的精细化城市修补方法研究[J].中国园林,2020,36(08):73-77.DOI:10.19775/j.cla.2020.08.0073.

[8] 韩君伟,董靓.基于心理物理方法的街道景观视觉评价研究[J].中国园林,2015,31(05):116-119.

[9] 黄竞雄,梁嘉祺,杨盟盛等.基于街景图像的旅游地街道空间视觉品质评价方法[J/OL].地球信息科学学报:1-15[2023-05-11].http://kns.cnki.net/kcms/detail/11.5809.p.20221219.0958.002.html.

[10] 叶宇,张昭希,张啸虎等.人本尺度的街道空间品质测度——结合街景数据和新分析技术的大规模、高精度评价框架[J].国际城市规划,2019,34(01):18-27.

[11] 戴智妹,华晨.基于街景的街道空间品质测度方法完善及示例研究[J].规划师,2019,35(09):57-63.

[12] 胡昂,戴维维,郭仲薇等.城市生活型街道空间视觉品质的大规模测度[J].华侨大学学报(自然科学版),2021,42(04):483-493.

[13] 余付蓉. 基于腾讯街景的长三角主要城市林荫道景观视觉评价[D].上海师范大学,2019.

[14] 李鑫,吴丹子,李倞等.基于深度学习的城市滨河绿道景观视觉感知评价研究[J].北京林业大学学报,2021,43(12):93-104.

[15] 董贺轩,高翔.街道植物空间对步行愉悦度的影响[J].风景园林,2023,30(01):54-62.

[16] [1]方智果,刘聪,肖雨,等.基于深度学习和多源数据的街道美感评价与影响因素分析——以上海为例[J].国际城市规划,2023,38(06):48-58.DOI:10.19830/j.upi.2022.371.

[17] 甘伟,胡雯,周钰.历史文化街区的街景天际线分形特征研究——以凤凰古城为例[J].华中建筑,2020,38(05):125-129.DOI:10.13942/j.cnki.hzjz.2020.05.028.

[18] 马兰,张华,郭梓峰.以分形维数测算建筑几何图形的视觉复杂度[J].计算机辅助设计与图形学学报,2019,31(10):1809-1816.

[19] Ho T K. Random decision forests[C]//Proceedings of 3rd international conference on document analysis and recognition. IEEE, 1995, 1: 278-282.

[20] 郭珮珺. 基于社会感知数据的行人交通事故建模与影响因素分析[D]. 华东师范大学, 2021.

[21] Zhou L, Dang X, Sun Q, et al. Multi-scenario simulation of urban land change in Shanghai by random forest and CA-Markov model[J]. Sustainable Cities and Society, 2020, 55: 1-10.

[22] Chen T, Guestrin C. Xgboost: A scalable tree boosting system[C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016: 785-794.

*本文为2024中国城市规划年会论文

【免责声明】本公众号发布的内容仅供学习交流使用，不以任何形式进行牟利。内容版权归原作者所有。如有侵犯您的权益，请及时与我们联系，我们将于第一时间协商版权问题或删除内容。内容为作者个人观点，不代表本公众号立场和对其真实性负责。

你可能还想看这些

理论研究 | 王明田：县城体检指标与方法

点击图片阅读全文

理论研究 | 共享城市理念下城中村更新改造研究——以成都伏龙小区为例

点击图片阅读全文

理论研究 | 更新空间，更新生活：外滩街道山北街区更新和治理一体化机制探索

点击图片阅读全文