荧屏“辩论”何时了？用机器学习研究政治文本 | Journal of Computational Social Science

编者荐语：

“我不该同意与肯尼迪进行电视辩论”，尼克松曾这样回忆1960年的大选失利。这篇研究揭示了在媒介化的作用下，电视上的竞选总统的辩手们表现出的道德分歧。作者通过对1960年以来美国大选的电视辩论材料进行分析，指出电视辩论中总统候选人更倾向于自身形象的塑造，而非关注彼此的差异并讨论有意义的问题。正如媒介化理论的预测，辩论双方的道德分歧已经逐步扩大。除了为该理论提供具体的经验证据外，这篇文章还在方法上充分运用了基于自然语言处理的分布式字典表示法，改进了以往词频统计的方法，更加准确地适应了不同语境和背景下的量化需求。

因公众号推送规则变更

点击标题下方蓝字关注+星标 “Political理论志”

不错过社会科学前沿精彩信息哦

具体操作如右 →

使用DDR方法追踪60年来总统辩论中的道德分歧

摘要：

电视总统辩论是专为引发问题观点有意义的冲突而设计的沟通形式，但几十年来却因缺乏真正的问题和有益讨论而备受批评。本文基于道德基础理论和媒介化理论研究这一长期悖论的演变。作为媒介化的结果，政治家一直在寻求通过媒体进行宣传以获取权威，因此他们在社会行动中将自身形象塑造置于问题讨论之上。通过分布式字典表示法量化道德基础，本文使用道德负荷作为指标，检验了每一对总统辩手的道德分歧并量化描述了这种媒介化过程。结果发现，民主党人与共和党人的总统候选者越发关注不同的道德判断，媒介化成为电视总统辩论的重大挑战，这为媒介化理论提供了定量的经验证据。此外，本文也展示出分布式字典表示法作为机器学习中的一块里程碑在未来通信研究中的潜力。

作者简介：

Mengyao Xu 密苏里大学新闻学院

Lingshu Hu 华盛顿与李大学工商管理系

Glen T. Cameron 密苏里大学新闻学院

文献来源：

Xu, M., Hu, L., & Cameron, G.T. (2023). Tracking moral divergence with DDR in presidential debates over 60 years. Journal of Computational Social Science, 6: 339-357.

本文作者（从左往右） Mengyao Xu、Lingshu Hu、Glen T. Cameron

一、前言

总统辩论有助于提高选民的参与度和知情度，从而很好地服务于美国的民主（McKinney & Carlin, 2004）。然而，电视总统辩论因缺乏真正的思想冲突、未能引发对主要问题的讨论以及过度关注候选人对形象而不是问题的关注而受到批评。根据媒介化理论，这些批评应该是预料之中的。

媒介化讨论了媒体作为一种社会变革进程，是如何对所有社会行动施加系统性影响的（Hjarvard, 2013）。由于政治媒介化，政治家更有可能将个人形象建设置于政治讨价还价之上。在电视辩论中，总统候选人的首要任务是塑造自身形象。他们可能更注重陈述自己的问题立场并为之正名，而非理解竞争对手的立场。使用道德基础理论（Moral Foundation Theory, MFT）可以发现这一点。

MFT认为，人类基于五个先天道德基础（总共十个维度）来构建道德美德和意义：关怀/伤害、公平/欺诈、忠诚/背叛、权威/颠覆，神圣/堕落。研究发现，保守派和自由派对这五个基础有不同的敏感性，从而产生不同判断。由于政治的媒介化，优先考虑自身形象塑造可能会导致电视总统辩手越来越多地谈论自己敏感的道德判断来证明自己的问题立场，而非讨论问题并关注它们之间的差异。他们的道德分歧——道德判断差异——已经扩大了。

具体来说，本研究使用道德负荷（moral loading）——使用分布式字典表示（Distributed Dictionary Representations, DDR）检验的道德判断指标，定量追踪了1960-2020年来每位电视总统辩手的论点在每个道德基础上的判断。它提供了几十年来总统辩论者道德判断的定量描述，可以检验他们道德分歧的变化和演变。本文认为，媒介化这一涉及每个社会参与者的社会变革进程，是总统辩论中缺乏有意义冲突的潜在原因。这一研究结果能促进更有效的政治沟通，并为媒介化理论提供具体的经验证据。

二、文献综述

在美国，政治辩论（包括总统辩论）是不同政治态度的直接表达。MFT提供了通过探索道德心态来理解政治态度的形成的创新工具，从而对电视总统辩论的主要挑战进行定量描述，帮助我们理解为何辩论——专门为促进问题讨论和开展有意义的观点冲突而设计的沟通形式，却如此缺乏对相互冲突的想法和重要问题的彻底讨论。

道德基础理论

MFT认为人类具备五个先天的道德基础：保护他人和防止伤害（关怀/伤害）；确保结果的公平分配（公平/欺诈）；促进团体利益和忠诚度（忠诚/背叛）；尊重权威和等级制度（权威/颠覆）；避免卑劣并维护神圣的事物（神圣/堕落）（Graham et al., 2009; Haidt, 2012）。每一个道德基础都会自动产生快速的道德判断，指导人们分辨是非。关注保护个体权利和福祉，“关怀/伤害”和“公平/欺骗”被认为是以个体为中心的道德基础。关注将个体结合起来形成稳定的群体，“忠诚/背叛”、“权威/颠覆”和“神圣/堕落”被认为是以群体为中心的道德基础（Graham et al., 2009）。不同人群因“不同的文化和背景”对每个道德基础的敏感程度有所不同（Sagi & Dehghani, 2014）。自由派对以个人为中心的道德基础更敏感，而保守派则对以群体为中心的道德基础更敏感。敏感度差异导致了不同的道德判断，进而导致不同的“党派和意识形态认同以及各种政治态度”（Clifford & Jerit, 2013）。例如，对某些道德基础的认可可以比“意识形态、年龄、性别、宗教信仰和政治兴趣”更好地预测个人对文化战争议题（如堕胎、枪支管控、死刑等社会争议）的态度（Koleva et al., 2012）。此外，不同的道德判断可能会导致道德分歧，成为群体之间有效沟通的障碍。

道德分歧成为焦点，一方面是因为一个群体重视的道德判断可能不被其他群体认可，如Fernandes（2020）认为人们对消费者政治行为的参与主要是由与自身敏感道德基础相关的道德关切（moral concerns）决定的；Hadit和Graham（2007）认为，自由派可能无法理解保守派对“忠诚/背叛”的关注，因为他们的道德关切基于“关怀”和“公平”。另一方面，个人对某一问题的态度会无意识地受到道德关切的影响（Wheatley & Haidt, 2005），如果无法认识到背后的道德分歧，冲突群体在讨论中就只会关注自己敏感的道德问题，而阻碍真正的问题讨论。

在政治表达中，自由派更多谈论“关怀”和“公平”，而保守派则强调“忠诚”（Kraft, 2018）。Clifford和Jerit（2013）发现，政治精英在干细胞研究政策辩论中“使用独特的道德话语模式（与不同的道德基础相关）来影响公众”：自由派几乎只关注对“伤害”的担忧，而保守派则同时关注“伤害”和“神圣”问题。不同的党派忠诚意味着道德问题的敏感度不同，总统候选人可能会在辩论中关注并强调植根于自己敏感道德基础的道德问题，由此扩大了分歧。本研究以电视背景作为典型的媒介化环境，讨电视总统辩论者道德分歧的演变。

媒介化理论

媒介化描述了媒体的价值、格式和惯例被政治、经济、宗教等其他社会部门吸收和内化的过程（Hjarvard, 2013）。这些价值、格式和惯例构成了“媒体逻辑”的概念，如Strömbäck（2008）将其描述为“媒体利用新闻价值观和讲故事技巧在社会进程中占据主导地位，从而发挥自身优势并持续吸引人们的注意力”。

政治行为体也受到媒介化的驱动（Mazzoleni, 2008; Mazzoleni & Schulz, 1999）。例如，Bastien（2020）发现，自1968年以来，媒体报道话题的方式被纳入加拿大总统辩手自身的话语中并不断增加。Hjarvard（2013）将媒介化给政治家带来的变化概括为“个性化”，即个人形象的塑造更加重要。他们越来越多地谈论自己的立场和道德判断，而非理解分歧并作出回应。由此本文提出了3个假设：

H1：与共和党相比，民主党总统候选人（相对自由）对以个人为中心的道德基础更加敏感，因此他们在辩论中更加强调以个人为中心的道德关切。

H2：与民主党相比，共和党总统候选人（相对保守）对以群体为中心的道德基础更加敏感，因此他们在辩论中更加强调以群体为中心的道德关切。

H3：民主党（相对自由派）和共和党（相对保守派）总统候选人之间的道德分歧已经扩大。

三、研究方法

本文检验了每位总统候选人在13次总统选举（1960-2020年）的35场电视辩论的完整记录中的道德负荷。分析语言使用是检验道德敏感度的一种不显眼但有效的方式（Araque, Gatti & Kalimeri, 2020），在道德基础探索中被广泛采用。DDR是一种近期开发的自然语言分析算法，被用于检验嵌入每场总统辩论的演讲中，每个道德维度（共五个道德基础、十个维度）的道德负荷。

数据

第一次电视总统辩论于1960年举行，此后于1976年恢复，每个选举年举办一次。1960年至2020年共举行了13届35场辩论。本文以每位候选人在每次辩论中的完整记录（可通过Debates.org获取）为分析单位，转换为纯文本以进行DDR分析。

分布式字典表示法（DDR）

分布式表示指将单词转换为n维（通常1≤n≤1000）向量空间中的向量，使计算机能够分析其相似性来实现语义分析（Mikolov et al., 2013）。DDR是源于神经网络的方法，将心理学词典与分布式表示结合，测量“词典中的“种子词”（seed words）与从完整文档到单个单词的文本范围（spans of text）之间的“语义相似性”（Garten et al., 2018）。简言之，DDR测量了相似度，并在相应维度（如MFT的道德基础维度、情绪语气维度等）建立文本的索引。

道德基础词典（Moral Foundation Dictionary, MFD）被广泛用于量化MFT框架下的道德负荷（moral loading）（Matsuo et al., 2019），它共包括324个英文单词，覆盖五类道德基础。但词语统计面临两大挑战：任何词典都不可能完全覆盖多样化的上下文和不断变化的语言模式（Garten et al., 2018）。DDR则能通过测量文本内容与来自词典的种子词之间的相似度克服这一困难。此外，测量相似度允许使用体量较小的词典，却能展现强大的效能。Garten等人（2018）还发现，如果把MFD在每个道德维度上提供的4个种子词基于Google News的语料库转换为向量，它们将更好的促使DDR检验道德负荷。

因此，本研究采取DDR的方法，将每个道德维度的种子词扩大到12个（种子词在MFD中随机选择，如表1），并使用Google News语料库的Word2Vec（Mikolov et al., 2013）生成了它们的向量表示。

表1

四、研究结果

本文使用lme4构建了一个三级随机截距的多级模型（Bate et al., 2014），以演讲中的每个维度的道德负荷为因变量，道德维度、党派及其相互作用的拟似变量为固定效应，辩论的轮次和选举年份是二级和三级组变量。

结果表明，多级模型的类内相关性（ICC）在第二（ICC=0.343）和第三（ICC=0.173）组中相对较高，即结果中34.3%的方差是由辩论轮次造成的，17.3%的方差是由选举年造成的，这表明我们的模型中道德负荷出现了重大差异，这可以通过辩论轮次和选举年来解释。换言之，它表明给定辩论的道德负荷在十个道德维度上是相关的（r=0.343），即个体可能同时调用多个道德领域。进一步检验每两个道德维度之间的相关性发现，在45对相关性中，只有4对的相关系数低于0.25，进一步支持了上述结论。这与Hoover等人（2018）关于社交媒体上嵌入捐赠信息中的道德负荷的研究结论一致。

多级模型进一步表明（如图1），民主党人通常在“关怀”（b=0.013, 95% CI [0.007, 0.019]）和“公平”（b=0.013, 95% CI [0.007, 0.019]）上的道德负荷更高，支持假设H1。共和党人在“堕落”（b=-0.007, 95% CI [-0.013, -0.001]）上更高，部分支持假设H2。然而，共和党人在“权威”（b=0.014, 95% CI [0.008, 0.019]）和“忠诚”（b=0.016, 95% CI [0.010, 0.022]）上却较低，不支持假设H2。因此，只有假设H1可信。尽管这些差异显著，但影响较小，其中最大值出现在“忠诚”上，标准差也仅有0.28。进一步检验每个选举年内两党道德负荷之间的相关性，发现存在强正相关关系（β=0.990, 95% CI [0.967, 1.013]），反映出每个选举年内的道德负荷差异较小。

图1

假设H3提出，自1980年以来，共和党总统候选人和民主党总统候选人在辩论中的道德分歧一直在增加。为检验该假设，首先计算两党候选人在每次辩论中每个道德维度上的负荷差异，再将绝对值相加得到该选举年的总差异，将各选举年数据拟合到OLS回归中，发现总道德负荷的差异每4年增加0.005个点（b=0.005, t(32)=2.52, p=0.017, R2=16.6%），支持假设H3（如图2）。但2012年是一个特殊点，该年举办的三场辩论中道德负荷的平均差是第二低的，仅高于1960年（第一次电视辩论）。

图2

本文还发现，第一轮辩论通常是道德负荷差异最大的（如图2）。以总差异分数为因变量，辩论轮次为固定效应，选举年份作为二级组变量再次建立一个二级随机截距模型，发现差异分数的显著方差发生在第二级（ICC=0.63），表明年份的方差大于辩论轮次的方差。当控制年份的影响时，第一轮辩论的分数平均差显著高于第二轮辩论（b=-0.035, 95％ CI [-0.059, -0.011]），也高于第三轮和第四轮辩论，后两者的数量较少，在统计学上不显著。

此外，以每个道德维度的道德负荷为因变量，选举年、政党及其相互作用为自变量时，本文预期发现年份和政党间显著的相互作用，从而证明某一维度上政党的分歧。然而，并未观测到这种显著影响（如图3），说明尽管两党道德负荷的总差异在增加，但每个维度上的模式尚不清楚。造成这一结果的原因可能是，（1）仅有32场辩论作为变量，限制了检测微小影响的统计能力；（2）在2004、2008和2012年等一些年份的道德负荷违背了以往的趋势。例如，在“关怀”维度上，民主党从1976-2000年，和2016年的道德负荷都较高，但2004-2012年却较低。

图3

五、讨论

本研究考察了从1960年第一次电视转播到2020年共13轮系列美国总统大选辩论的道德负荷。使用基于分布式表示的自然语言处理工具，本文定量描述了基于MFT的辩手的道德判断。数十年来，电视总统辩论面临的主要挑战之一——缺乏真正的冲突和对问题的讨论，可能是由辩论双方的道德分歧造成的。一方面，本研究揭示了不同群体之间基于道德判断的有效政治沟通的发展；另一方面，它显示出比字数统计更加先进的，分布式表示方法在未来通信研究中的潜力。

研究反映出，辩论双方道德分歧正随着媒介化进程而显著扩大。每系列辩论中，第一场比其他的场次分歧更大。此外，几乎所有民主党候选人都在除了“堕落”的其他维度上承担了更高的道德负荷，即使是在“忠诚/背叛”和“权威/颠覆”两个对自由派预期较低的维度上也如此。本研究揭示了两个对确保总统辩论服务于美国的民主至关重要的问题：民主党和共和党候选人能否相互理解并共同讨论问题，他们是否想了解彼此的立场并相互讨论？

他们能否理解？

如前所述，人们可能无法理解天生不敏感的道德基础类别中的道德关切，但本文的结果表明，总统候选人有能力克服这种天生的障碍。首先，每个道德维度的道德负荷之间存在强正相关关系，说明没有一个维度是孤立的。对一种道德基础的敏感性可以弥补对其他道德基础的迟钝。这为未来的研究提出了一个有趣的问题：这种敏感性补偿会发生在其他情况下，例如国会的辩论吗？

其次，除了“堕落”以外，其他所有维度上民主党候选人的道德负荷总是高于共和党候选人的道德负荷。如果按MFT的预测，自由派本应在“关怀”和“公平”上拥有更高的道德负荷，而保守派将在其他三类道德基础上拥有更高的负荷。这一有趣的差异留待今后研究，本文想强调的是，民主党候选人确实在一些预期较低的道德基础上也表达了比共和党候选人更强烈的关切，这说明总统候选有能力理解和表达所有五个先天道德基础所产生的道德问题。

第三，尽管民主党和共和党候选人的道德负荷在某些道德维度上存在显著差异，但这些差异的影响非常小，并且两党所有道德负荷值之间的相关性非常强。这表明辩手之间不存在实质性差异，并且都能够回应对手的道德担忧，哪怕这来自于他们并不敏感的道德基础。这说明，总统辩论者不仅可以回应对手的道德担忧，还可以在同一道德基础上调整自己的回应。

总之，总统候选人在辩论中有能力理解、表达和回应他们本身敏感度低的道德基础相对应的道德关切，问题就变成了，他们是否愿意？

他们是否愿意？

随着时间的推移，辩论者之间的道德负荷差异显著增加，这表明他们很可能不愿意理解对方。经过数十年旨在缩小道德分歧的民主讨论，分歧反而扩大了，一个可能的原因是媒介化。总统辩手可能会通过阐述自己的道德立场、塑造自身形象回应对手，因为媒介化让辩手关注自身，而非理解和讨论他人。

注重政治形象建设可能对民主产生积极和消极的影响。它可以吸引更多媒体报道，从而引起更多公众关注和参与民主，但也可能会限制公众了解可能的解决方案（Blumler, 2014）。一个潜在的原因是，适应媒体迫使政客在对公众讲话时“用流行语并博取大众支持”（Blumler & Kavanagh, 1999），因此涉及民粹主义（Mazzoleni, 2014）。此外，讨好媒体的政治决策着眼于短期（即新闻周期）媒体利益，而不是长期可持续的考虑。政治家必须越来越关注媒体想要什么，而不是社会需要什么，从而尽可能在新闻报道中被视作可信赖的。结果，政治家越是适应媒体，他们就越关注自己，而不会关注如何相互合作，尤其是在电视辩论的有限时间内。因此，他们的道德判断就会出现更大的差异。

本文发现，每个选举年的第一场辩论几乎总是道德分歧最大的，支持了Van Aelst等人（2014）的论点，即“政治家对媒体做出反应是因为他们想要这样做，而不仅仅是因为他们必须这样做”。第一场辩论比接下来的辩论更重要，因为它通常会吸引最高的收视率。此外，到第二次辩论时，许多选民已经投票了。结果是候选人若希望吸引选票，在第一场辩论中树立形象可能会更有效。因此，第一场辩论最以自我为中心，道德分歧也最大。简言之，总统候选人在第一轮总统辩论中选择更加注重形象。

本文的研究受到电视辩论数据规模的限制，由于在1980年以前只有两个系列辩论（1960年和1976年），无法准确的描述这一时期的情况。

编译 | Publius

审核 | 何升宇

终审 | 李晶晶

“在看”给我一朵小黄花