基于机器学习的中国284个城市碳排放效率：驱动因素与区域异质性

本推文来源：水环境碳达峰碳中和碳足迹

原文信息

文章导读

原文链接：Carbon emission efficiency of 284 cities in China based on machine learning approach Driving factors and regional heterogeneity.pdf

发表期刊介绍

Energy Economics是能源经济学和能源金融领域的主要期刊，JCR一区，影响因子12.8。该期刊关注的主题涵盖能源开发、转换和利用，能源商品和衍生品市场，监管与税收，预测，环境与气候，国际贸易，发展以及货币政策。

摘要

对碳排放效率（CEE）及其驱动因素的合理分类和评估对于应对全球气候危机至关重要。针对单变量建模存在的偏差和忽视城市间驱动因素异质性的问题，本研究探讨了不同类型城市和区域碳排放驱动因素之间的差异，揭示了城市CEE的空间分布特征和减排潜力的异质性。

我们使用SBM-DDF模型来评估2006-2020年期间284个城市的CEE。应用机器学习算法识别城市特征，以确定城市发展类型及其特征驱动因素的影响。驱动因素分析结果表明，能源消耗、区域生产总值、空间面积和人口规模是影响城市CEE异质性的关键因素，重要性排名分别为0.578、0.507、0.432和0.418。城市异质性研究结果进一步证实，能源消费对能源依赖型城市（EDCs）、经济发展型城市（ECDCs）和低碳潜力城市（LPCs）的影响最大，而在低碳增长型城市（LCGs）中，科学、技术和创新、城市绿化和电力消费在促进绿色化和低碳发展方面发挥着重要作用。这有助于确定每种类型城市的低碳发展模式。最后，能源消耗对中部地区城市的影响大于东部和西部地区。基于城市碳排放率异质性估算结果，提出针对性的减排发展路径，以指导城市低碳发展，制定减碳政策。

研究背景

中国致力于解决全球二氧化碳排放问题，并承诺到2030年达到碳达峰，到2060年实现碳中和。城市作为人类生产生活的中心，在实现“双碳”战略目标方面承担着首要责任。排放效率（CEE）旨在最大限度地减少二氧化碳排放和资源消耗，同时最大限度地提高经济产出，因此，CEE是衡量一个城市实现碳减排能力的重要指标。

研究的

不足

当代城市碳排放理论和方法的研究主要集中在国外发达城市，包括提高能效、碳捕获和储存模式以及碳足迹，这可能不足以解决当前中国城市的低碳发展问题。

同时，城市层面的碳效率研究大多关注“问题城市”（如传统能源城市和传统工业基地城市）在长期环境破坏下的转型和经济适应性有限。目前的研究广泛采用了异质性建模方法，即将群体按个体变量手工划分，进行效率评估；一方面，这可能导致评估结果存在偏差；另一方面，由于缺乏从城市异质性的角度对驱动因素对碳排放效率的影响的研究，这种方法是不够的。

此外，随着城市发展的多样性和分化程度的不断增加，根据区域标准进行的分类很难反映碳排放与城市发展之间的联系。这是因为不同的城市发展可能具有同质的碳减排发展潜力，如经济因素和技术进步，而更多的城市保持异质的减排特征，如自然因素和能源消耗。

主要

贡献

首先，构建了驱动因素识别框架；我们通过机器学习进行仿真优化，并最终从28个驱动变量中识别出CEE驱动变量，从而得到一个稳定的驱动序列。

其次，本研究选择了一种完全不同的聚类方法来分析CEE的异质性。我们使用决策树算法进行多变量决策识别，并通过分类变量对决策组进行分类。本文基于不同类型城市CEE驱动因素的顺序，分析了不同类型城市碳减排潜力的异质性。

研究方法

SBM-DDF

模型

DEA方法无需特定的功能形式或假设即可解决优化问题，并提供多个指标。然而，它不能分离随机误差，并且很难通过将偏差视为非效率来检验统计特性。除了DEA之外，一种常见的效率度量是随机前沿分析（SFA）。SFA方法可以将错误与非效率区分开来，但它可能会将设置误差与效率估计混淆，并且这两种方法都没有考虑环境对碳效率的影响。另一方面，SBM-DDF模型引入了对元素方向性的讨论，在考虑技术不完备性的情况下测量碳效率，并优化了方向矢量的参数，此外，该模型允许将环境因素引入模型中，以便更好地应对上述挑战。

决策树

本文假设决策单元（DMU）内的城市由决策变量确定。目标是基于这些分类变量对具有相似属性的决策单元进行分组，从而实现不同城市组的碳排放效率评价。然而，分类变量表现出时间序列波动，这可能导致同一城市单位在不同时间被分配给不同的组。为了解决这个问题，我们采用了时间加权变量将面板数据转换为横截面数据的方法，确保每个城市单元只分配到一个组，防止DMU在不同时间被归类到不同的组中。

随机

森林

为了识别城市CEE背后的机制，本研究设计了一个使用随机森林进行驱动因子识别的工作流程，包括三个主要步骤（图1）：首先，从城市发展与碳排放效率的协同关系角度，初步选取30个潜在驱动因素，并采用Pearson相关分析揭示潜在驱动因素之间的多重共线性，作为选择关键代表性因素的依据；其次，利用从城市相关数据集中提取的多维变量作为输入特征，生成随机森林模型的训练数据集，并利用各种城市类型驱动因素的重要性作为输出变量；测试和模拟准确性以评估模型性能。最后，将训练好的随机森林模型与交叉验证相结合，确定各城市的核心因素，并对驱动因素的重要性进行排序。

图1. 基于随机森林的城市碳排放核心驱动因子的识别过程

数据选择

和来源

（1）指标选择

本研究调查了CEE，它指的是一个地区在稳定二氧化碳排放以满足人类生产和环境需求方面实现的最大经济增长。在文献综述的基础上，我们建立了一个包括能源、劳动力、资本投入以及经济和污染物产出的投入产出体系。

（2）驱动因素的选择

本研究从社会经济和环境的角度考虑了30个CEE因素。具体来说，基于以往的研究，我们将CEE因素分为六类，涉及城市人口、经济、空间、能源、生态和自然环境的七个方面。此外，还考虑了温度、湿度、降水等环境因素以及来自国家气象科学来源的数据。利用机器学习方法对CEE的基本因素进行筛选和排序，探讨了不同城市群体间CEE驱动因素的异质性。

（3）数据源

本研究主要利用2006-2020年《中国环境年鉴》、《中国城市建设统计年鉴》和《中国区域经济年鉴》以及各城市统计局网站的信息。此外，从美国国家海洋和大气管理局（NOAA）国家地球物理数据中心（NGDC）的网站获得了DMSP/OLS稳定的夜间灯光数据。驱动因素中包含的一些社会经济指标主要来源于《中国城市统计年鉴》，并从上述数据来源补充缺失数据。

研究结果

1.CEE模型

识别

为了比较DEA、SFA和SBM-DDF模型估计结果的差异，本文选择非参数显著性检验方法进行模型鲁棒性分析。SBM-DDF模型在标准J-T统计量、渐近显著性和蒙特卡洛双尾显著性方面表现更好。根据提供的结果，SBM-DDF模型可以被认为是本研究的最佳模型。因此，在进行碳效率评估时，使用SBM-DDF方法可以产生更全面和可靠的结果。

2.CEE的

时空格局

本研究以2006-2020年中国284个城市的CEE为研究对象。如图2所示，图（a）显示了这些年来CEE波动的总体趋势，平均值在0.61附近振荡，表明CEE分布呈左偏态分布。从2006年到2009年，CEE一直处于相对较低的水平；在2010年至2012年期间，它经历了轻微的下降；2013年之后，CEE开始上升。总体而言，城市CEE遵循“U”形曲线。与Wang等人（2021b）的研究结果类似，该研究确定了2017年的低水平碳拐点。

图2. 中国碳排放效率的发展趋势

注：(a)图描述了城市层面上CEE的变化趋势值，(b)图描述了城市的CEE分布。

图3. 2006年、2011年、2016年和2020年中国地级市的CEE排名

为进一步探究2006-2020年CEE时空分布，本文基于自然断点法将中国城市CEE划分为5个层级。结果如图3所示。总体而言，从2006年到2020年，中国城市的CEE呈上升趋势。然而，各城市之间的碳排放效率存在显著差异。前期空间分布呈现“分散分布”的特点，即“东高西低”和“南高北低”。

3.多重共线性分析和随机森林模型训练

本节包括从变量和模型的角度优化模型的两个方面：潜在驱动因素筛选和随机森林模型训练。首先，使用Pearson相关分析处理高度共线的特征变量，以减小模型变量的处理误差。然后，将选定的驱动因子导入到模型中。基于平均边际指数找到决策树的最佳分割点，以优化模型的变量和决策树的数量，并更好地进行后续的驱动因素分析。

（1）驱动因素的多重共线性分析

随机森林算法可以通过随机选择特征和样本来构建多个决策树，从而降低特征之间的相关性，从而减少共线性的影响。因此，与其他线性回归算法相比，随机森林回归不太可能受到多重共线性的影响。但是，如果数据集中存在高度共线特征，则在构建CEE回归模型时，仍需要对数据集进行度量，以避免潜在问题，并确保变量重要性评估的合理性。

图4. 驱动因素的多重共线性的确定

（2）随机森林模型训练结果

使用随机森林模型的两个关键参数是测试的变量数量和生成的决策树数量。其目的是在生成决策树时实现最佳分割。输入特征的平方根决定了变量的数量。训练试验的平均余量将用于确定最小树木数量。它可以通过观察每个特征变量在模型中内置的树水平上预测结果的相对变化来反映每个特征变量对预测结果的贡献。为了避免任何类型城市的代表性样本不足而导致的误差，我们通过随机、一般抽样选择了平衡的训练集。所有样本的平均裕度测量训练性能，快速增加并降低到峰值0.70，如图5所示。换言之，当树数增加到某个点时，代表随机森林模型泛化误差的平均裕度变得稳定，模型性能相对稳定，损失的时间更少。因此，使用具有95棵树的随机森林模型可以获得最佳结果。

图5. 平均效度与决策树数量的函数关系

（3）不同类型城市的分类结果

本研究采用的分类和回归树（CART）是一种专门的监督分类方法。在分类之前，训练样本分为两部分进行模型测试和验证。实验表明，随着训练样本从70% 增加了5%，决策结构和模型准确性都会提高。然而，当等效地减少测试样本时，决策效果不会发生显着变化。观察到，当训练样本达到 80% 时，该模型会产生最佳分类结果。如图6所示，本文选择基尼系数最小的子树作为最佳值。根据CEE和基尼水平的不同，该模型将城市分为7类，即规模经济城市（ESCs）、工业发展城市（IDCs）、低碳潜力城市（LPCs）、经济发展城市（ECDC）、低碳增长城市（LCG）、人口发展城市（PDCs）、能源依赖型城市（EDCs）。图7显示了决策树方法确定的城市群的空间分布。

图6. 城市分组决策树结果

4.不同类型城市的分类结果

决策树方法将 284 个城市分为七组。不同组别的城市空间分布如图7所示。分组前的平均CEE值为0.617，而分组后的平均CEE值在0.612至0.732之间。聚类分析表明，城市区划总体上表现出空间相关性。

图7. 不同群体中城市的空间分布

5.碳排放的驱动因素

图8（a）展示了城市七维特征变量的重要测量结果。城市人口（A1和A3）、经济（B1、B2、B5）、能源（E1、E2）和社会（D4）因素是最关键的变量，其次是城市建成区面积、工业污染物排放和建成区绿化率。

图8. CEE驱动因素对城市发展的重要性排名

注：图(a)表示不同城市维度的特征变量的重要性，图(b)表示驱动因素序列的测量结果

驱动因素的排名因城市类型而异。由于CEE在排名12位后对城市碳排放的影响相对较小，图9仅显示了7类城市中排名前12位的驱动因素。能源因素在 EDC、ECDC 和 LPC 中起着更关键的作用。在ECDC中，能源消耗、用电量和固定资产投资总额占据前三位。相比之下，EDC的主要因素是能源消耗和区域GDP，这与图8（b）中观察到的CEE驱动因素重要性的趋势一致。在LCG中，技术支出的比例最高，城市绿化和电力消耗起着至关重要的作用。这意味着发展绿色低碳工业技术，加快传统产业转型升级，减少重点行业的污染物排放，可以有效改善CEE。

图9. 对不同类型城市中CEE驱动因素的重要性进行排名

6.碳排放驱动因素的区域异质性

结果表明：东部地区城市，尤其是东部沿海城市的技术效率高于西部地区城市。东部地区在地理、政策支持、人才等方面具有优势，科技成果转化水平高。中部地区城市能源消耗的重要性超过东部和西部地区。一方面，中部战略的兴起在一定程度上扩大了化石能源的使用。另一方面，也与黄长经济带的建设有关。中部地区为经济带建设提供了相当量的能源支撑，承担了能源生产的碳排放压力。西部地区城市人口因素占重要比重，特别是以重庆、成都为代表的人口和经济发展集中的西南经济区，为协调CEE与经济社会发展的联系提供了有利的智力、物质和财政支持。

结论和政策影响

本研究将机器学习方法与SBM-DDF模型相结合，以计算城市的CEE并确定其在中国的主要驱动因素。结果表明：2006-2020年中国城市整体CEE呈“U”形曲线；CEE呈现出“城市群”和“东高西低”的空间布局，集聚中心往往位于省会城市，交通便利。人口规模、地区GDP、电力消耗和城市面积等因素对城市CEE有显著影响。能源消耗对碳排放的影响最为突出，而自然因素对碳排放的影响最小。不同地区碳效率的主要驱动因素各不相同。东部地区的碳效率主要受技术效率因素的影响，前沿技术的发展显著提升了其碳效率。中部地区的碳效率由能源消耗驱动，对能源消耗类型的变化很敏感。西部地区的人口因素是其碳效率的重要驱动因素。

基于研究结果，确定能够提高不同类型城市减碳效率的关键因素，有助于了解不同城市的特点和发展模式，并针对不同城市制定更有针对性的低碳发展政策。北京、广州、杭州等ESC可以通过提高建筑能效来提高能源效率和碳效率。黄冈、黄山等LPC可以出台相关政策，促进能源消费转型，加大对绿色技术发展的投入。芜湖、温州等ECDC要落实节能措施，推动经济发展向低能耗方向发展；潍坊、湖州等IDC可以加大节能减排设备的投入，提高工业废弃物处理效率，优化产业结构。常州、大连等LCG可以加大低碳技术研发投入，打造绿色节能城市，增加城市绿化面积；常德、承德等人口发展城市要制定吸引人才的政策，提高城市人口素质，充分发挥人才在提高碳效率过程中的智力支撑作用。鞍山、安庆等能源开发城市要加快能源消费转型，提升经济发展质量，加大城市节能和污染治理设备的建设。

本研究采用随机森林方法识别了各类城市CEE的驱动因素。然而，可以使用其他机器学习算法和数据挖掘技术对城市CEE驱动因素的相关性和影响进行进一步研究。由于公共数据有限，本研究仅选择了30个城市发展因素。未来，应扩大驱动因素的范围，建立更加精细化的指标体系。此外，将城市规划和能源政策因素纳入模型分析有助于制定更准确、更有效的低碳发展战略。