计算机视觉会议: 7篇

[0] Across-Game Engagement Modelling via Few-Shot Learning[cs.CV]
标题：跨游戏参与度建模通过少样本学习
作者：Kosmas Pinitas, Konstantinos Makantasis, Georgios N. Yannakakis
链接：http://arxiv.org/abs/2409.13002
摘要：领域泛化涉及学习能够在特定任务内多个不同领域内维持高表现的的人工智能（AI）模型。例如，在视频游戏中，这样的AI模型理论上可以学会检测不同游戏中的玩家动作。尽管人工智能领域近期取得了进展，但用于模拟用户体验的领域泛化仍然 largely （很大程度上）未被发现。由于视频游戏具有动态和丰富的语境特性，它们为用户体验分析提供了独特的挑战和机遇——然而，由于数据集通常规模较小，对这种体验进行建模受到了限制。因此，传统的建模方法由于依赖于大规模标记的训练数据和有关用户体验普遍分布的假设，常常难以弥合用户与游戏之间的领域差异。在本文中，我们通过引入一个框架来解决这一挑战，该框架将用户体验的通用领域无关建模分解为多个特定领域和游戏相关的任务，这些任务可以通过少样本学习来解决。我们对我们框架的测试使用了公开可用的GameVibe语料库的变种，它是专门设计来测试模型预测不同第一人称射击游戏中玩家参与度的能力的。我们的发现证明了少样本学习者相较于传统建模方法的优越性能，从而展示了少样本学习在视频游戏和其他领域用于稳健体验建模的潜力。
备注：17 pages, accepted for publication at ECCV 2024 CV2 Workshop

[1] DNI: Dilutional Noise Initialization for Diffusion Video Editing[cs.CV]
标题：扩散视频编辑中的稀释噪声初始化
作者：Sunjae Yoon, Gwanhyeong Koo, Ji Woo Hong, Chang D. Yoo
链接：http://arxiv.org/abs/2409.13037
摘要：基于文本的扩散视频编辑系统在以高保真度和文本对齐的方式执行编辑方面已取得成功。然而，这种成功仅限于刚性编辑，如风格转换和对象叠加，同时保留了输入视频的原有结构。这种限制源于扩散视频编辑系统最初采用的潜在噪声。扩散视频编辑系统通过逐步向输入视频注入高斯噪声来准备初始潜在噪声以进行编辑。然而，我们发现输入视频的视觉结构仍然存在于这种初始潜在噪声中，从而限制了需要结构修改的非刚性编辑，如运动变化。为此，本文提出了一种稀释噪声初始化（DNI）框架，该框架使编辑系统能够执行精确和动态的修改，包括非刚性编辑。DNI引入了“噪声稀释”的概念，在要编辑的区域向潜在噪声添加更多的噪声，以减少输入视频施加的结构刚性，从而实现更接近目标提示的有效编辑。大量的实验证明了DNI框架的有效性。
备注：17 pages, 11 figures, ECCV 2024

[2] Embedding Geometries of Contrastive Language-Image Pre-Training[cs.CV]
标题：嵌入对比语言-图像预训练的几何结构
作者：Jason Chuan-Chih Chou, Nahid Alam
链接：http://arxiv.org/abs/2409.13079
摘要：自CLIP（Contrastive Language−Image Pre-training）论文发布以来，利用InfoNCE损失函数进行对比预训练的方法在连接两种或更多模态数据方面变得非常流行。尽管这种方法得到了广泛的应用，但CLIP原始设计中使用的L2归一化和余弦相似度对数的选择却很少被重新审视。我们对语言-图像预训练中替代的几何结构和softmax对数进行了系统性的实验，发现直观的欧几里得几何变体欧几里得CLIP（EuCLIP）的性能与CLIP相当甚至更强，并且在支持层次关系方面的表现至少与更复杂的双曲性替代方法一样好。
备注：ECCV 2024 - Beyond Euclidean Workshop

[3] Interpretable Action Recognition on Hard to Classify Actions[cs.CV]
标题：难以分类动作的可解释动作识别
作者：Anastasia Anichenko, Frank Guerin, Andrew Gilbert
链接：http://arxiv.org/abs/2409.13091
摘要：我们研究了一种类似人类的可解释视频理解模型。人类通过识别显式识别的对象和部分之间的关键时空关系来识别视频中的复杂活动，例如，物体进入容器的开口。为了模拟这种行为，我们在一个使用物体和手的位移及其运动来识别活动的模型上构建。为了改进这个模型，我们专注于三种（对这个模型）最为混淆的类别，并发现缺乏三维信息是主要问题。为了解决这个问题，我们通过两种方式扩展了我们的基本模型以增加三维意识：（1）一个最先进的目标检测模型经过微调，以确定“容器”和“非容器”之间的差异，以便将对象形状信息整合到现有的对象特征中。（2）使用一个最先进的深度估计模型来提取单个物体的深度值并计算深度关系，以扩展我们可解释模型中使用的现有关系。我们对“Something-Something-v2”数据集中的三个表面上相似的“放置”动作子集进行了这些基本模型的3D扩展评估。结果表明，容器检测器并没有提高性能，但是深度关系的增加显著提高了性能。
备注：5 pages, This manuscript has been accepted at the Human-inspired Computer Vision (HCV) ECCV 2024 Workshop. arXiv admin note: text overlap with arXiv:2107.05319

[4] Federated Learning with Label-Masking Distillation[cs.CV]
标题：联邦学习与标签掩码蒸馏
作者：Jianghu Lu, Shikun Li, Kexin Bao, Pengju Wang, Zhenxing Qian, Shiming Ge
链接：http://arxiv.org/abs/2409.13136
摘要：联邦学习提供了一种保护隐私的协作方式，通过全球服务器的协调在多个本地客户端上分布式数据进行模型训练。在这篇论文中，我们聚焦于联邦学习中的标签分布倾斜问题，由于客户端用户行为的不同，导致不同客户端之间的标签分布存在显著差异。面对这种情况，大多数现有方法由于未能充分利用客户端中的标签分布信息，将导致次优化的优化。受此启发，我们提出了一种标签掩码蒸馏方法，称为FedLMD，通过感知每个客户端的各类标签分布来促进联邦学习。在训练过程中，我们将标签分为多数标签和少数标签，基于每类的样本数量。客户端模型从本地数据中学习多数标签的知识。蒸馏过程通过掩码全球模型对多数标签的预测，以便它能更多地关注保留客户端的少数标签知识。一系列实验表明，所提出的方法能在各种情况下实现最先进性能。此外，考虑到客户端的资源有限，我们还提出了一种FedLMD-Tf变体，该变体不需要额外的教师节点，在不增加计算成本的情况下，优于之前的轻量级方法。我们的代码可在以下https URL处获得。
代码：https://github.com/wnma3mz/FedLMD
备注：Accepted by ACM MM 2023

[5] Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling[cs.CV]
标题：利用文本定位进行场景文本移除通过文本感知掩码图像建模
作者：Zixiao Wang, Hongtao Xie, YuXin Wang, Yadong Qu, Fengjun Guo, Pengwei Liu
链接：http://arxiv.org/abs/2409.13431
摘要：现有场景文本去除（STR）任务因像素级标注成本高昂而受到训练数据不足的困扰。在本文中，我们通过引入一种文本感知的掩码图像建模算法（TMIM）来解决这个问题，该算法可以使用低成本文本检测标签（如文本边界框）进行STR模型的预训练。与之前使用间接辅助任务仅仅增强隐式特征提取能力的预训练方法不同，我们的TMIM首先使STR任务能够以弱监督的方式进行直接训练，这明确且高效地探索了STR知识。在TMIM中，首先构建一个背景建模流通过恢复掩码的非文本区域来学习背景生成规则，同时提供掩码文本区域的伪STR标签。其次，提出一个文本去除流，通过伪标签进行学习并赋予模型端到端的STR能力。得益于这两个协作的流，我们的STR模型在仅使用公共文本检测数据集的情况下就能实现令人印象深刻的性能，这大大缓解了昂贵STR标签的限制。实验表明，我们的方法优于其他预训练方法，并实现了最先进的性能（在SCUT-EnsText上PSNR达到了37.35）。代码将在以下https URL处提供。
代码：https://github.com/wzx99/TMIM
备注：Accepted by ECCV 2024

[6] Formula-Supervised Visual-Geometric Pre-training[cs.CV]
标题：公式监督的视觉-几何预训练
作者：Ryosuke Yamada, Kensho Hara, Hirokatsu Kataoka, Koshi Makihara, Nakamasa Inoue, Rio Yokota, Yutaka Satoh
链接：http://arxiv.org/abs/2409.13535
摘要：在计算机视觉的历史长河中，尽管研究已经探索了图像（视觉）和点云（几何）的集成，但许多图像和3D物体识别的进步往往倾向于单独处理这些模态。我们的目标是通过在统一的变换器模型上集成图像和点云来弥合这一差距。这种方法集成了图像和点云的模态特性，并通过学习视觉-几何表示，在统一的变换器模型上实现了图像和3D物体识别中的基本下游任务。在这项工作中，我们引入了公式监督可视化-几何预训练（FSVGP），一种新型的合成预训练方法，可以从数学公式中自动生成对齐的合成图像和点云。通过跨模态监督，我们实现了视觉和几何模态之间的监督预训练。FSVGP还可以减少对真实数据收集、跨模态对齐和人工标注的依赖。我们的实验结果表明，FSVGP在六个任务上（图像和3D物体分类、检测和分割）预训练效果优于VisualAtom和PC-FractalDB。这些成果证明了FSVGP在图像和3D物体识别中的优越泛化能力，并强调了合成预训练在视觉-几何表示学习中的潜力。我们的项目网站可通过以下https URL访问。
备注：Accepted to ECCV2024

自然语言处理会议: 9篇

[0] TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning[cs.CL]
标题：TACO-RL：基于强化学习的任务感知提示压缩优化
作者：Shivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue Zhang, Qianhui Wu, Victor Rühle
链接：http://arxiv.org/abs/2409.13035
摘要：大型语言模型（LLMs）如GPT-4在各项应用中的日益普及，导致对优化性能所需的提示大小急剧增加，进而给计算效率带来了挑战。提示压缩旨在通过最小化输入标记来降低推理成本，同时不损害任务性能。然而，现有的提示压缩技术要么依赖于次优指标如信息熵，要么将其建模为无特定任务的标记分类问题，未能捕捉到任务特定的信息。为了解决这些问题，我们提出了一种基于强化学习（RL）的、循任务感知的提示压缩方法。为确保低延迟需求，我们利用现有的基于Transformer编码器的标记分类模型，同时通过使用轻量级的REINFORCE算法，利用任务特定的奖励信号来指导学习过程。我们在文本摘要、问答和代码摘要等三个多样且具有挑战性的任务上评估了我们的方法。我们证明了在我们的RL引导式压缩方法下，这三个场景相对于最先进的压缩技术在保持相同压缩率和延迟要求的情况下，任务性能提升了8%至260%。
备注：Submitted to COLING 2025

[1] Guided Profile Generation Improves Personalization with LLMs[cs.CL]
标题：引导性适应配置文件生成提升LLM个性化
作者：Jiarui Zhang
链接：http://arxiv.org/abs/2409.13093
摘要：在现代商业系统中，包括推荐、排名和电子商务平台，存在一种趋势，即通过将个性化环境作为输入引入大型语言模型（LLMs）来改善客户体验。然而，LLMs往往难以在没有额外处理或环境丰富的情况下有效解析和使用稀疏和复杂的个人信息，凸显了需要更高级的环境理解机制。在这项工作中，我们提出了引导个人资料生成（GPG），这是一种旨在生成自然语言中个人资料的一般方法。观察发现，中间引导个人资料生成能够使LLMs总结并将个人信息中的重要、独特特征提取为简洁、描述性的句子，更精确地定制其生成，使其更贴近个人的独特习惯和偏好。我们的实验结果表明，GPG在不同任务中提高了LLMs的个性化能力，例如，在预测个人偏好方面，相较于直接向LLMs提供原始个人信息，GPG将其准确性提高了37%。
备注：EMNLP 2024 Findings

[2] Unsupervised Domain Adaptation for Keyphrase Generation using Citation Contexts[cs.CL]
标题：无监督领域自适应关键短语生成基于引用上下文
作者：Florian Boudin, Akiko Aizawa
链接：http://arxiv.org/abs/2409.13266
摘要：将关键短语生成模型适应新领域通常需要使用领域内标记数据进行少量样本的微调。然而，用关键短语标注文档往往代价高昂且不切实际，需要专业注释员。本文提出了一种名为silk的无监督方法，旨在通过从引文上下文中提取银标准关键短语来创建合成标记数据，以解决领域适应问题。在三个不同领域的广泛实验表明，我们的方法产生了高质量合成样本，与强大基线相比，在领域内性能有显著的持续提升。
备注：Accepted at EMNLP 2024 Findings

[3] GAProtoNet: A Multi-head Graph Attention-based Prototypical Network for Interpretable Text Classification[cs.CL]
标题：GAProtoNet：基于多头图注意力机制的可解释文本分类原型网络
作者：Ximing Wen, Wenjuan Tan, Rosina O. Weber
链接：http://arxiv.org/abs/2409.13312
摘要：预训练的基于转换器的语言模型（LMs）因其强大的词嵌入能力而广为人知，能够在文本分类任务上实现显著提高，但它们黑盒的本质，导致缺乏可解释性，一直是主要担忧。在这项工作中，我们引入了GAProtoNet，这是一种新颖的白盒多头图注意力原型网络，旨在解释使用LM编码器构建的文本分类模型的决定。在我们的方法中，输入向量和原型被视为图中的节点，我们利用多头图注意力来选择性地构建输入节点和原型节点之间的边，以学习可解释的原型表示。在推理过程中，模型根据每个原型分配的注意力分数的加权和进行决策，其选择可由注意力权重和投影到最近匹配的训练样本的原型透明地解释。在多个公共数据集上的实验表明，我们的方法在不牺牲原黑盒LM精度的情况下实现了更优的结果。我们还与四种不同的原型网络变体进行了比较，我们的方法在所有方法中实现了最佳准确率和F1值。我们的案例研究和原型聚类的可视化也展示了使用LM构建的黑盒模型决策的解释效率。
备注：8 pages, 5 figues, submitted to COLING 2025

[4] EmotionQueen: A Benchmark for Evaluating Empathy of Large Language Models[cs.CL]
标题：情感女王：评估大型语言模型同理心的基准
作者：Yuyan Chen, Hao Wang, Songzhou Yan, Sijia Liu, Yueze Li, Yi Zhao, Yanghua Xiao
链接：http://arxiv.org/abs/2409.13359
摘要：在大语言模型（LLMs）中，情感智能在自然语言处理中非常重要。然而，先前的研究主要集中在基本情感分析任务上，如情感识别，这不足以全面评估LLMs的情感智能。因此，本文提出了一种名为EmotionQueen的新框架，用于评估LLMs的情感智能。该框架包括四个独特任务：关键事件识别、混合事件识别、隐含情感识别和意图识别。要求LLMs识别重要事件或隐含情绪并生成同情的反应。我们还设计了两个指标来评估LLMs对情绪相关陈述的识别和响应能力。实验得出了关于LLMs在情感智能能力方面的显著结论。
备注：Accepted to ACL 2024 (Findings)

[5] Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper[cs.CL]
标题：快速流式听觉感知器ASR原型设计：结合Whisper进行知识蒸馏
作者：Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello, Shashi Kumar, Pradeep Rangappa, Sergio Burdisso, Petr Motlicek, Karthik Pandia, Aravind Ganapathiraju
链接：http://arxiv.org/abs/2409.13499
摘要：自动语音识别（ASR）在少量或没有监督数据下的训练仍然是一个未解决的问题。在本工作中，我们展示了流式Transformer-Transducer（TT）模型可以从零开始，通过消费级和易于访问的GPU，使用基础语音模型（FSM）的伪标签（PL）语音进行全部训练。这允许仅在一个阶段内就训练出一个鲁棒的ASR模型，与包含预训练和微调的两步骤场景相比，不需要大量数据和计算预算。我们对基于PL的流式TT模型的不同方面进行了全面的消融研究，例如（1）n-gram语言模型的浅层融合对（2）利用命名实体的上下文偏差、（3）用于低延迟流应用的分块解码、以及（4）TT整体性能作为FSM规模函数的影响。我们的结果显示，即使在进行非常嘈杂的PL时，TT也能在没有监督数据的情况下从头开始进行训练。我们将在CommonVoice中的6种语言上验证所提出的框架，并提出多个启发式方法来过滤掉虚构的PL。
备注：Accepted to EMNLP Findings 2024

[6] YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models[cs.CV]
标题：YesBut：用于评估视觉-语言模型讽刺理解能力的优质标注多模态数据集
作者：Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
链接：http://arxiv.org/abs/2409.13592
摘要：理解讽刺和幽默对于当前的视觉-语言模型来说是一项挑战性的任务。在本文中，我们提出了三个挑战性任务：讽刺图像检测（检测图像是否讽刺）、理解（生成图像讽刺的原因）和补全（给定图像的一半，从两个给定选项中选择另一半，使得完整的图像讽刺），并推出一个包含2547张图像的高质量数据集YesBut，其中1084张是讽刺图像，1463张是非讽刺图像，包含不同的艺术风格，用于评估这些任务。数据集中的每张讽刺图像都描绘了一个正常场景，以及一个有趣或讽刺的冲突场景。尽管当前视觉-语言模型在视觉问答和图像标题等多模态任务上取得了成功，但我们的基准实验表明，这些模型在Zero-Shot设置下对YesBut数据集上的提出的任务表现不佳，无论是自动化评估还是人工评估。此外，我们还发布了一个包含119张真实讽刺照片的数据集，以供进一步研究。数据集和代码可在以下URL找到。
代码：https://github.com/abhi1nandy2/yesbut_dataset
备注：EMNLP 2024 Main (Long), 18 pages, 14 figures, 12 tables

[7] MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension[cs.CV]
标题：MaPPER：多模态先验引导的参数高效调优用于指代表达理解
作者：Ting Liu, Zunnan Xu, Yue Hu, Liangtao Shi, Zhiqiang Wang, Quanjun Yin
链接：http://arxiv.org/abs/2409.13609
摘要：指代表达理解（REC），旨在通过自然语言定位于局部视觉区域，是一项高度依赖多模态对齐的任务。现有方法大多利用强大的预训练模型通过全量微调来迁移视觉/语言知识。然而，全量微调整个骨干网络不仅破坏了预训练中嵌入的丰富先验知识，而且还带来了显著的计算成本。受到近期参数高效迁移学习（PETL）方法出现的启发，我们旨在以有效和高效的方式解决REC任务。直接将这些PETL方法应用于REC任务是不恰当的，因为它们缺乏特定领域的能力，无法实现精确的局部视觉感知和视觉-语言对齐。因此，我们提出了一种新型多模态先验引导的参数高效调优框架，即MaPPER。具体来说，MaPPER包含由对齐先验引导的动态先验适配器和用于提取精确局部语义以改善视觉感知的局部卷积适配器。此外，还提出了先验引导文本模块，进一步利用先验知识以促进跨模态对齐。在三个广泛使用的基准测试上的实验结果表明，与全量微调和其他PETL方法相比，MaPPER在仅1.41%可调骨干参数的情况下实现了最佳的准确率。
备注：EMNLP 2024

[8] Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning[cs.CV]
标题：超越准确度优化：用于大型语言模型微调的计算机视觉损失
作者：Daniele Rege Cambrin, Giuseppe Gallipoli, Irene Benedetto, Luca Cagliero, Paolo Garza
链接：http://arxiv.org/abs/2409.13641
摘要：大型语言模型（LLMs）在各种任务中展现出了令人印象深刻的表现。然而，目前的训练方法通常将标准的交叉熵损失与大量数据、人工反馈或临时方法结合以提升性能。由于这些方案所涉及的成本、复杂度或资源需求，它们往往不具有可扩展性或实用性。本研究探讨了在自然语言生成中使用既定的语义分割损失函数，为微调不同架构提供一个通用、实用且可扩展的解决方案。我们评估了它们在各种不同规模模型中解决数学单词问题和问答的有效性。对于所分析的作业，我们发现传统的交叉熵损失并不是一个最优选择，而经过训练以最小化其他（任务相关）损失，如焦点或洛瓦兹损失的模型，在无需额外数据或人工反馈的情况下，实现了平均+42%的精确匹配提升。这些发现为更高效和易于访问的训练过程提供了一条有希望的道路。
备注：Accepted in EMNLP 2024 Findings

CV&AIGC顶会速递 [2024-09-23]

今日更新16篇：

请注意，大模型的论文多发布于自然语言处理会议中。而由于多模态的发展迅速，部分计算机视觉相关的论文也会发布在自然语言处理顶会中。

计算机视觉会议: 7篇

自然语言处理会议: 9篇

感谢arxiv.org