[3] Interpretable Action Recognition on Hard to Classify Actions[cs.CV] 标题:难以分类动作的可解释动作识别 作者:Anastasia Anichenko, Frank Guerin, Andrew Gilbert 链接:http://arxiv.org/abs/2409.13091 摘要:我们研究了一种类似人类的可解释视频理解模型。人类通过识别显式识别的对象和部分之间的关键时空关系来识别视频中的复杂活动,例如,物体进入容器的开口。为了模拟这种行为,我们在一个使用物体和手的位移及其运动来识别活动的模型上构建。为了改进这个模型,我们专注于三种(对这个模型)最为混淆的类别,并发现缺乏三维信息是主要问题。为了解决这个问题,我们通过两种方式扩展了我们的基本模型以增加三维意识:(1)一个最先进的目标检测模型经过微调,以确定“容器”和“非容器”之间的差异,以便将对象形状信息整合到现有的对象特征中。(2)使用一个最先进的深度估计模型来提取单个物体的深度值并计算深度关系,以扩展我们可解释模型中使用的现有关系。我们对“Something-Something-v2”数据集中的三个表面上相似的“放置”动作子集进行了这些基本模型的3D扩展评估。结果表明,容器检测器并没有提高性能,但是深度关系的增加显著提高了性能。 备注:5 pages, This manuscript has been accepted at the Human-inspired Computer Vision (HCV) ECCV 2024 Workshop. arXiv admin note: text overlap with arXiv:2107.05319
[4] Federated Learning with Label-Masking Distillation[cs.CV] 标题:联邦学习与标签掩码蒸馏 作者:Jianghu Lu, Shikun Li, Kexin Bao, Pengju Wang, Zhenxing Qian, Shiming Ge 链接:http://arxiv.org/abs/2409.13136 摘要:联邦学习提供了一种保护隐私的协作方式,通过全球服务器的协调在多个本地客户端上分布式数据进行模型训练。在这篇论文中,我们聚焦于联邦学习中的标签分布倾斜问题,由于客户端用户行为的不同,导致不同客户端之间的标签分布存在显著差异。面对这种情况,大多数现有方法由于未能充分利用客户端中的标签分布信息,将导致次优化的优化。受此启发,我们提出了一种标签掩码蒸馏方法,称为FedLMD,通过感知每个客户端的各类标签分布来促进联邦学习。在训练过程中,我们将标签分为多数标签和少数标签,基于每类的样本数量。客户端模型从本地数据中学习多数标签的知识。蒸馏过程通过掩码全球模型对多数标签的预测,以便它能更多地关注保留客户端的少数标签知识。一系列实验表明,所提出的方法能在各种情况下实现最先进性能。此外,考虑到客户端的资源有限,我们还提出了一种FedLMD-Tf变体,该变体不需要额外的教师节点,在不增加计算成本的情况下,优于之前的轻量级方法。我们的代码可在以下https URL处获得。 代码:https://github.com/wnma3mz/FedLMD 备注:Accepted by ACM MM 2023
[5] Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling[cs.CV] 标题:利用文本定位进行场景文本移除通过文本感知掩码图像建模 作者:Zixiao Wang, Hongtao Xie, YuXin Wang, Yadong Qu, Fengjun Guo, Pengwei Liu 链接:http://arxiv.org/abs/2409.13431 摘要:现有场景文本去除(STR)任务因像素级标注成本高昂而受到训练数据不足的困扰。在本文中,我们通过引入一种文本感知的掩码图像建模算法(TMIM)来解决这个问题,该算法可以使用低成本文本检测标签(如文本边界框)进行STR模型的预训练。与之前使用间接辅助任务仅仅增强隐式特征提取能力的预训练方法不同,我们的TMIM首先使STR任务能够以弱监督的方式进行直接训练,这明确且高效地探索了STR知识。在TMIM中,首先构建一个背景建模流通过恢复掩码的非文本区域来学习背景生成规则,同时提供掩码文本区域的伪STR标签。其次,提出一个文本去除流,通过伪标签进行学习并赋予模型端到端的STR能力。得益于这两个协作的流,我们的STR模型在仅使用公共文本检测数据集的情况下就能实现令人印象深刻的性能,这大大缓解了昂贵STR标签的限制。实验表明,我们的方法优于其他预训练方法,并实现了最先进的性能(在SCUT-EnsText上PSNR达到了37.35)。代码将在以下https URL处提供。 代码:https://github.com/wzx99/TMIM 备注:Accepted by ECCV 2024
[2] Unsupervised Domain Adaptation for Keyphrase Generation using Citation Contexts[cs.CL] 标题:无监督领域自适应关键短语生成基于引用上下文 作者:Florian Boudin, Akiko Aizawa 链接:http://arxiv.org/abs/2409.13266 摘要:将关键短语生成模型适应新领域通常需要使用领域内标记数据进行少量样本的微调。然而,用关键短语标注文档往往代价高昂且不切实际,需要专业注释员。本文提出了一种名为silk的无监督方法,旨在通过从引文上下文中提取银标准关键短语来创建合成标记数据,以解决领域适应问题。在三个不同领域的广泛实验表明,我们的方法产生了高质量合成样本,与强大基线相比,在领域内性能有显著的持续提升。 备注:Accepted at EMNLP 2024 Findings
[3] GAProtoNet: A Multi-head Graph Attention-based Prototypical Network for Interpretable Text Classification[cs.CL] 标题:GAProtoNet:基于多头图注意力机制的可解释文本分类原型网络 作者:Ximing Wen, Wenjuan Tan, Rosina O. Weber 链接:http://arxiv.org/abs/2409.13312 摘要:预训练的基于转换器的语言模型(LMs)因其强大的词嵌入能力而广为人知,能够在文本分类任务上实现显著提高,但它们黑盒的本质,导致缺乏可解释性,一直是主要担忧。在这项工作中,我们引入了GAProtoNet,这是一种新颖的白盒多头图注意力原型网络,旨在解释使用LM编码器构建的文本分类模型的决定。在我们的方法中,输入向量和原型被视为图中的节点,我们利用多头图注意力来选择性地构建输入节点和原型节点之间的边,以学习可解释的原型表示。在推理过程中,模型根据每个原型分配的注意力分数的加权和进行决策,其选择可由注意力权重和投影到最近匹配的训练样本的原型透明地解释。在多个公共数据集上的实验表明,我们的方法在不牺牲原黑盒LM精度的情况下实现了更优的结果。我们还与四种不同的原型网络变体进行了比较,我们的方法在所有方法中实现了最佳准确率和F1值。我们的案例研究和原型聚类的可视化也展示了使用LM构建的黑盒模型决策的解释效率。 备注:8 pages, 5 figues, submitted to COLING 2025
[4] EmotionQueen: A Benchmark for Evaluating Empathy of Large Language Models[cs.CL] 标题:情感女王:评估大型语言模型同理心的基准 作者:Yuyan Chen, Hao Wang, Songzhou Yan, Sijia Liu, Yueze Li, Yi Zhao, Yanghua Xiao 链接:http://arxiv.org/abs/2409.13359 摘要:在大语言模型(LLMs)中,情感智能在自然语言处理中非常重要。然而,先前的研究主要集中在基本情感分析任务上,如情感识别,这不足以全面评估LLMs的情感智能。因此,本文提出了一种名为EmotionQueen的新框架,用于评估LLMs的情感智能。该框架包括四个独特任务:关键事件识别、混合事件识别、隐含情感识别和意图识别。要求LLMs识别重要事件或隐含情绪并生成同情的反应。我们还设计了两个指标来评估LLMs对情绪相关陈述的识别和响应能力。实验得出了关于LLMs在情感智能能力方面的显著结论。 备注:Accepted to ACL 2024 (Findings)
[5] Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper[cs.CL] 标题:快速流式听觉感知器ASR原型设计:结合Whisper进行知识蒸馏 作者:Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello, Shashi Kumar, Pradeep Rangappa, Sergio Burdisso, Petr Motlicek, Karthik Pandia, Aravind Ganapathiraju 链接:http://arxiv.org/abs/2409.13499 摘要:自动语音识别(ASR)在少量或没有监督数据下的训练仍然是一个未解决的问题。在本工作中,我们展示了流式Transformer-Transducer(TT)模型可以从零开始,通过消费级和易于访问的GPU,使用基础语音模型(FSM)的伪标签(PL)语音进行全部训练。这允许仅在一个阶段内就训练出一个鲁棒的ASR模型,与包含预训练和微调的两步骤场景相比,不需要大量数据和计算预算。我们对基于PL的流式TT模型的不同方面进行了全面的消融研究,例如(1)n-gram语言模型的浅层融合对(2)利用命名实体的上下文偏差、(3)用于低延迟流应用的分块解码、以及(4)TT整体性能作为FSM规模函数的影响。我们的结果显示,即使在进行非常嘈杂的PL时,TT也能在没有监督数据的情况下从头开始进行训练。我们将在CommonVoice中的6种语言上验证所提出的框架,并提出多个启发式方法来过滤掉虚构的PL。 备注:Accepted to EMNLP Findings 2024
[6] YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models[cs.CV] 标题:YesBut:用于评估视觉-语言模型讽刺理解能力的优质标注多模态数据集 作者:Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly 链接:http://arxiv.org/abs/2409.13592 摘要:理解讽刺和幽默对于当前的视觉-语言模型来说是一项挑战性的任务。在本文中,我们提出了三个挑战性任务:讽刺图像检测(检测图像是否讽刺)、理解(生成图像讽刺的原因)和补全(给定图像的一半,从两个给定选项中选择另一半,使得完整的图像讽刺),并推出一个包含2547张图像的高质量数据集YesBut,其中1084张是讽刺图像,1463张是非讽刺图像,包含不同的艺术风格,用于评估这些任务。数据集中的每张讽刺图像都描绘了一个正常场景,以及一个有趣或讽刺的冲突场景。尽管当前视觉-语言模型在视觉问答和图像标题等多模态任务上取得了成功,但我们的基准实验表明,这些模型在Zero-Shot设置下对YesBut数据集上的提出的任务表现不佳,无论是自动化评估还是人工评估。此外,我们还发布了一个包含119张真实讽刺照片的数据集,以供进一步研究。数据集和代码可在以下URL找到。 代码:https://github.com/abhi1nandy2/yesbut_dataset 备注:EMNLP 2024 Main (Long), 18 pages, 14 figures, 12 tables
[8] Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning[cs.CV] 标题:超越准确度优化:用于大型语言模型微调的计算机视觉损失 作者:Daniele Rege Cambrin, Giuseppe Gallipoli, Irene Benedetto, Luca Cagliero, Paolo Garza 链接:http://arxiv.org/abs/2409.13641 摘要:大型语言模型(LLMs)在各种任务中展现出了令人印象深刻的表现。然而,目前的训练方法通常将标准的交叉熵损失与大量数据、人工反馈或临时方法结合以提升性能。由于这些方案所涉及的成本、复杂度或资源需求,它们往往不具有可扩展性或实用性。本研究探讨了在自然语言生成中使用既定的语义分割损失函数,为微调不同架构提供一个通用、实用且可扩展的解决方案。我们评估了它们在各种不同规模模型中解决数学单词问题和问答的有效性。对于所分析的作业,我们发现传统的交叉熵损失并不是一个最优选择,而经过训练以最小化其他(任务相关)损失,如焦点或洛瓦兹损失的模型,在无需额外数据或人工反馈的情况下,实现了平均+42%的精确匹配提升。这些发现为更高效和易于访问的训练过程提供了一条有希望的道路。 备注:Accepted in EMNLP 2024 Findings