计算机视觉会议: 14篇

[0] BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models[cs.CV]
标题：贝尔姆：用于扩散模型精确反演的双向显式线性多步采样器
作者：Fangyikang Wang, Hubery Yin, Yuejiang Dong, Huminhao Zhu, Chao Zhang, Hanbin Zhao, Hui Qian, Chen Li
链接：http://arxiv.org/abs/2410.07273
备注：accepted paper by NeurIPS
摘要：扩散模型采样的反演旨在找到对应样本的初始噪声，这在各种任务中发挥着关键作用。最近，已经提出了一些启发式精确反演采样器来以无需训练的方式解决精确反演的问题。然而，这些启发式采样器的理论性质尚未为人所知，且它们的采样质量往往一般。在本论文中，我们介绍了一种通用的精确反演采样器公式，称为双向显式线性多步（BELM）采样器，它包含了先前提出的所有启发式精确反演采样器作为特例。BELM公式通过整合双向显式约束从变量步长变量公式线性多步法导出。我们强调，这种双向显式约束是实现数学精确反演的关键。我们在BELM框架内系统地研究了局部截断误差（LTE），并表明现有的启发式精确反演采样器设计导致次优的LTE。因此，我们通过LTE最小化方法提出了最优BELM（O-BELM）采样器。我们还进行了额外的分析，以证实所提出的最优采样器的理论稳定性和全局收敛性质。综合实验表明，我们的O-BELM采样器建立了精确反演的性质，同时实现了高质量的采样。在图像编辑和图像插值中的额外实验凸显了O-BELM在不同应用中的广泛潜力。

[1] ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model[cs.CV]
标题：加强扩散模型：创建符合物理可能性的运动
作者：Gaoge Han, Mingjiang Liang, Jinglei Tang, Yongkang Cheng, Wei Liu, Shaoli Huang
链接：http://arxiv.org/abs/2410.07296
备注：Accepted by WACV 2025 in Round 1
摘要：从文本描述中生成人类动作是一个具有挑战性的任务。现有方法要么在物理可信度上遇到困难，要么受到物理模拟复杂性的限制。本文提出了一种名为 \emph{ReinDiffuse} 的方法，该方法结合了强化学习和运动扩散模型来生成与文本描述相符并且物理可信度高的人类动作。我们的方法将运动扩散模型调整为输出参数化的动作分布，使其与强化学习范式相兼容。我们通过强化学习，以最大化物理上可信的奖励为目标来优化动作生成，以提高物理保真度。我们的方法在两个主要数据集HumanML3D和KIT-ML上优于现有最先进模型，在物理可信度和动作质量上实现了显著的提升。项目地址：\url{this https URL}

[2] Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching[cs.CV]
标题：泰迪：通过泰勒近似匹配的效率大规模数据集蒸馏
作者：Ruonan Yu, Songhua Liu, Jingwen Ye, Xinchao Wang
链接：http://arxiv.org/abs/2410.07579
代码：https://github.com/Lexie-YU/Teddy
备注：Accepted by ECCV2024
摘要：数据集蒸馏或浓缩指的是将大规模数据集压缩成规模小得多的小数据集，使得在该合成数据集上训练的模型能有效泛化到真实数据。解决这一挑战，根据定义，依赖于双层次优化算法：在每个嵌套循环的迭代中对新型模型进行训练，通过展开的计算图传播梯度。然而，这种方法引起了高内存和时间复杂度，给将算法扩展到像ImageNet这样的大规模数据集带来了困难。针对这些担忧，本文介绍了Teddy，一个泰勒近似的数据集蒸馏框架，旨在处理大规模数据集并提高效率。一方面，依托理论分析，我们提出了一个基于泰勒展开的内存高效近似，它将依赖于多步梯度的原始形式转化为一次方程式。另一方面，我们揭开了一个预缓存弱模型池的方法，该模型池可以由单个基础模型生成，从而在每次迭代中不必重复训练新型模型，这种方法同时提高了时间和性能，特别是在处理大规模数据集时。广泛的实验表明，所提出的方法TeddyTiny-ImageNet和原始尺寸的ImageNet-1K数据集上实现了最先进的效率和性能，显著超越了现有方法，最高提升了12.8%，同时将运行时间减少了46.6%。我们的代码将于此https URL处可用。

[3] A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks[cs.CV]
标题：统一的跨模态和任务视觉-语言模型去偏方法
作者：Hoin Jung, Taeuk Jang, Xiaoqian Wang
链接：http://arxiv.org/abs/2410.07593
备注：NeurIPS 2024, the Thirty-Eighth Annual Conference on Neural Information Processing Systems
摘要：近期的视觉-语言模型（VLMs）进展通过同时处理文本和图像数据，实现了复杂的多模态任务，显著推动了人工智能领域的发展。然而，这些模型往往表现出偏差，可能导致输出结果偏向于社会刻板印象，因此需要去偏差策略。现有的去偏差方法通常只针对特定模态或任务进行优化，且需要大规模的重新训练。为了解决这些局限性，本文提出了针对去偏差的精选特征插入（SFID）方法，这是一种结合特征修剪和低置信度插补（LCI）的全新方法，能够有效减少VLMs中的偏差。SFID具有通用性，在保持输出语义完整性的同时，通过消除重新训练的需求而实现成本效益。我们的实验结果表明，SFID在零样本分类、文本到图像检索、图像描述和文本到图像生成等VLMs任务中均展现出高效性，通过显著减少性别偏差而不会损害性能。这种方法不仅提高了VLMs应用中的公平性，而且保持了它们在多种场景下的效率和应用价值。

[4] Breaking the curse of dimensionality in structured density estimation[cs.CV]
标题：打破结构密度估计中的维度诅咒
作者：Robert A. Vandermeulen, Wai Ming Tai, Bryon Aragam
链接：http://arxiv.org/abs/2410.07685
备注：Work accepted to NeurIPS 2024
摘要：我们考虑了一个在非定向图所隐含的马尔可夫条件下的结构化多元密度估计问题。在没有马尔可夫假设的情况下，这个问题在最坏情况下会遭受维度灾难。我们主要的结果展示了在马尔可夫性质下如何避免或大幅缓解维度灾难，并适用于任意图。尽管现有结果沿着这个方向通常关注稀疏性或流形假设，我们引入了一种新的图形量，称为“图弹性”，并展示了它是如何控制样本复杂性的。出人意料的是，尽管人们可能会预计这个问题的样本复杂度会随着局部图参数（如度数）而变化，但实际上并非如此。通过具体的例子，我们计算了一致的偏差界限，并说明了如何从密度估计中的维度灾难中绕过。在测序、层次和空间数据中，显著改进速率的例子包括。

[5] MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting[cs.CV]
标题：MotionGS：探索对变形3D高斯碎片的显式运动引导
作者：Ruijie Zhu, Yanzhe Liang, Hanzhi Chang, Jiacheng Deng, Jiahao Lu, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang
链接：http://arxiv.org/abs/2410.07707
备注：Accepted by NeurIPS 2024. 21 pages, 14 figures,7 tables
摘要：动态场景重建是3D视觉领域的一个长期挑战。最近，3D高斯刷绘的出现为解决这个问题提供了新的见解。尽管后续的工作迅速将静态3D高斯扩展到动态场景，但它们通常缺乏物体运动的显式约束，导致优化困难和性能下降。为了解决上述问题，我们提出了一种新颖的可变形3D高斯刷绘框架，称为MotionGS，该框架通过探索显式的运动先验来引导3D高斯的变化。具体而言，我们首先引入了一个光流解耦模块，该模块将光流解耦为相机流和运动流，分别对应相机运动和物体运动。然后，运动流可以有效地约束3D高斯的变化，从而模拟动态物体的运动。此外，我们还提出了一种相机姿态细化模块，通过交替优化3D高斯和相机姿态，减轻了不精确相机姿态的影响。在单目动态场景的大量实验验证了MotionGS超越了最先进的方法，并在定性和定量结果上都表现出显著的优势。项目页面：this https URL

[6] MMHead: Towards Fine-grained Multi-modal 3D Facial Animation[cs.CV]
标题：MMHead：迈向细粒度多模态3D面部动画
作者：Sijing Wu, Yunhao Li, Yichao Yan, Huiyu Duan, Ziwei Liu, Guangtao Zhai
链接：http://arxiv.org/abs/2410.07757
备注：Accepted by ACMMM 2024. Project page: this https URL
摘要：由于在多媒体领域的广泛应用，3D面部动画引起了相当大的关注。音频驱动的3D面部动画已得到广泛研究并取得了一些有希望的结果。然而，多模态3D面部动画，尤其是文本指导的3D面部动画，由于缺乏多模态3D面部动画数据集而很少被探索。为了填补这一空白，我们首先构建了一个大规模的多模态3D面部动画数据集，MMHead，该数据集包含49小时的3D面部运动序列、语音音频以及丰富的层次化文本注释。每个文本注释包含抽象动作和情感描述，细粒度的面部和头部运动描述（即表情和头部姿态），以及可能导致此类情感的三种可能场景。具体来说，我们整合了五个公开的2D肖像视频数据集，并提出了一条自动化流程，以便于1）从单目视频中重建3D面部运动序列；2）在声学单位检测和ChatGPT的帮助下获得层次化文本注释。基于MMHead数据集，我们为两个新任务建立了基准：文本驱动的3D说话人头部动画和文本到3D面部运动的生成。此外，我们提出了一种名为MM2Face的简洁而 Efficient VQ-VAE 方法，该方法旨在统一多模态信息并生成多样化且合理的3D面部运动，在两个基准上均取得了有竞争力的结果。大量的实验和综合分析表明，我们的数据集和基准在推动多模态3D面部动画发展方面具有显著的潜在价值。

[7] HARIVO: Harnessing Text-to-Image Models for Video Generation[cs.CV]
标题：HARIVO：利用文本到图像模型进行视频生成
作者：Mingi Kwon, Seoung Wug Oh, Yang Zhou, Difan Liu, Joon-Young Lee, Haoran Cai, Baqiao Liu, Feng Liu, Youngjung Uh
链接：http://arxiv.org/abs/2410.07763
备注：ECCV2024
摘要：我们提出了一种从预训练的文本到图像（T2I）模型创建基于扩散的视频模型的方法。最近，AnimateDiff 提出了冻结 T2I 模型而只训练时序层的方法。我们通过提出一个独特的架构，融合了映射网络和帧级标记，针对视频生成而保持了原始 T2I 模型的多样性和创意，改进了该方法。关键创新包括用于时序平滑度的创新损失函数和缓解梯度采样的技巧，尽管公共视频数据有限，也能确保生成的视频逼真且时序上连续。我们已经成功将视频特定的归纳偏见集成到架构和损失函数中。我们基于冻结的 StableDiffusion 模型构建的方法简化了训练流程，并允许无缝集成 ControlNet 和 DreamBooth 等现成的模型。项目页面：这个 URL https

[8] Optimal-State Dynamics Estimation for Physics-based Human Motion Capture from Videos[cs.CV]
标题：基于物理学的人体动作捕捉视频中的最优状态动态估计
作者：Cuong Le, Viktor Johansson, Manon Kok, Bastian Wandt
链接：http://arxiv.org/abs/2410.07795
代码：https://github.com/cuongle1206/OSDCap
备注：16 pages, 7 figure, accepted to NeurIPS 2024
摘要：近年来，单目视频的人体运动捕捉取得了显著进展。然而，现代方法往往产生时间上的伪影，例如颤抖运动，且难以实现平滑且符合物理规律的动态。通过显式地整合物理属性，如内部力和外部扭矩，有助于减轻这些伪影。当前最先进的方法利用自动PD控制器来预测扭矩和反作用力，以重新模拟输入的动力学，即预定义骨骼的关节角度。然而，由于物理模型的不完美，这些方法往往需要简化假设并对输入动力学进行大量预处理以实现良好的性能。为此，我们提出了一种新颖的方法，在在线设置中选择性地结合物理模型和动力学观测结果，受神经卡尔曼滤波方法启发。我们开发了一个控制环路作为一个元-PD控制器来预测内关节扭矩和外反作用力，随后进行基于物理的运动模拟。引入了一种循环神经网络来实现一个卡尔曼滤波器，该滤波器精准地平衡动力学输入和模拟运动，从而实现最优状态的动态预测。我们表明，这一滤波步骤对于提供在线监督至关重要，有助于弥补相应输入运动的不足，因此对于不仅捕捉准确的全局运动轨迹，而且产生符合物理规律的人体姿态都具有重要意义。与现有技术相比，提出的方法在基于物理的人体姿态估计任务中表现出色，并证明了预测动力学方法的物理合理性。该代码可在以下https URL上获得。

[9] Generalizable and Animatable Gaussian Head Avatar[cs.CV]
标题：可泛化和可动画化的高斯头部头像
作者：Xuangeng Chu, Tatsuya Harada
链接：http://arxiv.org/abs/2410.07971
代码：https://github.com/xg-chu/GAGAvatar
备注：NeurIPS 2024, code is available at this https URL, more demos are available at this https URL
摘要：在本文中，我们提出了一种通用的、可动画的高斯头像（GAGAvatar），用于一次性的可动头部头像重建。现有方法依赖于神经辐射场，导致渲染消耗重，重播速度低。为了解决这些局限性，我们通过单次正向传递从单张图像中生成3D高斯参数。我们工作的关键创新点是提出的双重提升方法，它产生高保真的3D高斯，能够捕捉身份和面部细节。此外，我们利用全局图像特征和3D变形模型来构建控制表情的3D高斯。经过训练后，我们的模型能够在没有特定优化的情况下重建未见过的身份，并以实时速度执行重播渲染。实验表明，与之前的方法相比，我们的方法在重建质量和表情准确性方面表现出更优越的性能。我们相信我们的方法可以为未来的研究设立新的基准，并推进数字头像的应用。代码和演示文稿可在以下链接找到：https URL。

[10] RegionGrasp: A Novel Task for Contact Region Controllable Hand Grasp Generation[cs.CV]
标题：区域抓取：可控接触区域手抓取生成的新任务
作者：Yilin Wang, Chuan Guo, Li Cheng, Hai Jiang
链接：http://arxiv.org/abs/2410.07995
备注：Accepted for ECCV Workshop: HANDS@ECCV2024
摘要：针对给定3D物体特定接触区域，能否自动生成多个独特且自然的徒手抓取？这激励我们考虑一个新任务，即区域可控徒手抓取生成（RegionGrasp）。具体来说，给定一个3D物体以及选定的预定接触区域表面，生成一组多样化的、可能的物体徒手抓取，其中手指尖端在接触区域触摸物体表面。为了解决这个问题，提出了RegionGrasp-CVAE，它包含两个主要部分。首先，为了实现接触区域意识，我们提出了ConditionNet作为条件编码器，其中包含一个基于transformer架构的物体编码器O-Enc；O-Enc采用了一种预训练策略，即随机遮盖物体表面的点片并随后恢复，以进一步捕捉物体的表面几何信息。其次，为了实现交互意识，引入了HOINet，通过几何感知多头交叉注意力机制将高级手部特征与嵌入的物体特征交织，以编码手物体交互特征。经验性评估显示，我们的方法在质和量上都表现出有效性，与现有最佳方法相比表现出优势。

[11] OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling[cs.CV]
标题：一种基于掩码引用模型的统一单塔表达语义接地和分割方法
作者：Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu
链接：http://arxiv.org/abs/2410.08021
代码：https://github.com/linhuixiao/OneRef
备注：Accepted by NeurIPS 2024. The project page: this https URL
摘要：面向视觉和语言的独立编码，现有的基础和指称分割工作高度依赖于庞大的Transformer基础的编码/解码器以及各种早期阶段交互技术。同时，当前的掩码视觉语言模型（MVLM）在指称任务中未能捕捉到图像-文本之间细微的指称关系。在本文中，我们提出了一种名为OneRef的最简指称框架，它基于模态共享的单塔Transformer，统一了视觉和语言特征空间。为了建模指称关系，我们引入了一种新的MVLM范式，称为掩码指称建模（MRefM），它涵盖了指称感知的掩码图像建模和指称感知的掩码语言建模。这两个模块不仅重建了模态相关的内容，还实现了跨模态的指称内容。在MRefM中，我们提出了一种指称感知的动态图像掩码策略，它了解所指区域，而不是依赖于固定的比率或通用的随机掩码方案。通过利用统一的视觉语言特征空间，并整合MRefM建模指称关系的能力，我们的方法无需使用各种复杂的技巧即可直接回归指称结果。我们的方法在基础和分割任务上都持续超越现有方法，并实现了最先进（SoTA）的性能，为未来的研究提供了宝贵的见解。我们的代码和模型可在以下URL获取：[https://]。

[12] SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation[cs.CV]
标题：SG-Nav：基于LLM的零样本对象导航的在线3D场景图提示
作者：Hang Yin, Xiuwei Xu, Zhenyu Wu, Jie Zhou, Jiwen Lu
链接：http://arxiv.org/abs/2410.08189
备注：Accepted to NeurIPS 2024. Project page: this https URL
摘要：本文提出了一种新的零样本物体导航框架。现有的零样本物体导航方法通过向语言模型提供空间封闭物体的文本，缺乏足够的场景上下文以支持深入推理。为了更好地保留环境信息并充分发挥语言模型的推理能力，我们提出用3D场景图来表示观察到的场景。场景图以对语言模型友好的结构编码物体、群体和房间之间的关系，为此我们设计了一种层级思维提示词链，帮助语言模型通过遍历节点和边根据场景上下文推断目标位置。此外，利用场景图表示的优势，我们进一步设计了一种重新感知机制，赋予物体导航框架纠正感知错误的能力。我们在MP3D、HM3D和RoboTHOR环境中进行了广泛实验，其中SG-Nav在所有基准测试中均优于之前的零样本方法超过10%的平均运行时间（SR），而其决策过程也是可解释的。据我们所知，SG-Nav是第一个在具有挑战性的MP3D基准测试上，实现了比监督式物体导航方法更高性能的零样本方法。

[13] HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation[cs.CV]
标题：混合帐篷：高效主题驱动生成中的混合提示逆变换
作者：Shanyan Guan, Yanhao Ge, Ying Tai, Jian Yang, Wei Li, Mingyu You
链接：http://arxiv.org/abs/2410.08192
备注：ECCV 2024, the project page: this https URL
摘要：最近在文本到图像扩散模型方面的进展展示了其在文本提示下的显著创意能力，但基于特定主题生成个性化实例，即所谓的主驱生成，仍具挑战性。为了解决这一问题，我们提出了一种名为HybridBooth的新混合框架，该框架融合了基于优化方法和直接回归方法的优势。HybridBooth分为两个阶段运行：首先是词嵌入探测器，使用微调的编码器生成一个鲁棒的初始词嵌入；其次是词嵌入细化，通过对关键参数进行优化，进一步调整编码器以适应特定的主题图像。这种方法能够有效地、快速地将视觉概念逆转换成文本嵌入，甚至是从单一图像中，同时保持模型的一般化能力。

自然语言处理会议: 16篇

[0] DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models[cs.CL]
标题：DA-Code：为大型语言模型的代理数据分析代码生成基准
作者：Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
链接：http://arxiv.org/abs/2410.07331
代码：https://da-code-bench.github.io
备注：EMNLP 2024
摘要：我们引入了DA-Code，这是一个专为评估大型语言模型在基于代理的数据科学任务上的表现而设计的代码生成基准。该基准包含三个核心元素：首先，DA-Code中的任务与传统的代码生成任务本质上是具有挑战性的，使其区别开来，并要求具备高级的编码技能，特别是在定位和规划方面。其次，DA-Code中的示例全部基于真实、多样化的数据，涵盖了广泛复杂的数据处理和分析任务。第三，为了解决这些任务，模型必须利用复杂的数据科学编程语言，进行复杂的数据处理并得出答案。我们将基准测试环境设置在一个可控且可执行的环境中，它符合现实世界的数据分析场景，并具有可扩展性。评估者精心设计了评估套件，以确保评估的准确性和鲁棒性。我们开发了DA-Agent基准线。实验表明，虽然基准线比其他现有框架表现更好，但使用当前最先进的LLM只能达到30.5%的准确率，仍有很大的改进空间。我们将我们的基准公布在[这个https URL](this https URL)。

[1] Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning[cs.CL]
标题：C4数据集对剪枝来说是最优的吗？对大型语言模型剪枝的校准数据的调查
作者：Abhinav Bandari, Lu Yin, Cheng-Yu Hsieh, Ajay Kumar Jaiswal, Tianlong Chen, Li Shen, Ranjay Krishna, Shiwei Liu
链接：http://arxiv.org/abs/2410.07461
代码：https://github.com/abx393/llm-pruning-calibration-data
备注：EMNLP 2024
摘要：网络剪枝已成为使大型语言模型（LLMs）部署成本更低的一种潜在解决方案。然而，现有的LLM剪枝方法普遍依赖于C4数据集作为计算剪枝分数的校准数据，其最优性尚未得到探索。在这项研究中，我们评估了校准数据选择对LLM剪枝的影响，涵盖了一组在LLM培训和评估中最常用的数据集，包括四个相关的数据集以及三个涵盖九个数据集的下游任务类别。每个下游数据集分别通过上下文学习（ICL）和思维链（CoT）进行提示。除了已经发现的校准数据选择对剪枝LLMs性能产生重大影响的有趣观察外，我们的结果还揭示了几个微妙且往往出人意料的发现，总结如下：（1）C4并非LLM剪枝的最佳选择，即使在常用的预训练数据集中；（2）算术数据集作为校准数据使用时，其表现与传统预训练数据集相当甚至更好；（3）与预训练数据相比，使用下游数据集进行剪枝并不一定能够帮助相应的下游任务；（4）ICL对所有数据分类都有广泛的好处，而CoT仅在某些任务上有用。我们的发现揭示了为LLM剪枝 careful选择校准数据的重要性，并为这些强大模型在现实世界应用中的更高效部署铺平了道路。我们已在以下网址发布我们的代码：this https URL。

[2] MKGL: Mastery of a Three-Word Language[cs.CL]
标题：掌握三词语言
作者：Lingbing Guo, Zhongpu Bo, Zhuo Chen, Yichi Zhang, Jiaoyan Chen, Yarong Lan, Mengshu Sun, Zhiqiang Zhang, Yangyifei Luo, Qian Li, Qiang Zhang, Wen Zhang, Huajun Chen
链接：http://arxiv.org/abs/2410.07526
备注：NeurIPS 2024 (spotlight)
摘要：大型语言模型（LLMs）在自然语言处理（NLP）领域的各项任务中取得了显著进步。然而，它们在知识图谱（KGs）中的应用，描述事实的三元组形式和允许最小程度的幻觉性，仍是一个未被充分探索的领域。在这篇论文中，我们通过引入一种专门的KG语言（KGL），探讨了LLMs与KGs的集成。在KGL中，一个句子精确地由一个实体名词、一个关系动词以及以另一个实体名词结尾构成。尽管KGL对LLM来说是陌生的词汇，我们通过定制词典和示例句子来促进它的学习，并通过实时KG上下文检索和KGL标记嵌入增强来提高上下文理解能力。我们的结果显示，LLMs可以在KGL中实现流畅表达，与传统的KG嵌入方法相比，在KG补全任务上大幅减少错误。此外，我们的增强型LLM在从初始实体生成准确的三词句子以及在KG中解释新未见术语方面表现出非凡的能力。

[3] OneNet: A Fine-Tuning Free Framework for Few-Shot Entity Linking via Large Language Model Prompting[cs.CL]
标题：OneNet：基于大型语言模型提示的免微调框架实现的少样本实体链接
作者：Xukai Liu, Ye Liu, Kai Zhang, Kehang Wang, Qi Liu, Enhong Chen
链接：http://arxiv.org/abs/2410.07549
备注：Accepted by EMNLP 2024 Main
摘要：实体链接（EL）是将模糊的文本提及与知识库中的特定实体相关联的过程。传统的实体链接方法高度依赖大量数据集来提升其性能，但这种依赖在少数样本实体链接的背景下变得有问题，因为在训练中只有有限数量的示例可用。为了解决这一挑战，我们提出了OneNet，一个创新的框架，它利用了大型语言模型（LLM）的少样本学习能力，而无需进行微调。据我们所知，这标志着将LLM应用于少样本实体链接任务的一个开创性方法。OneNet围绕LLM启发的三个关键组件构建：（1）一个实体削减处理器，通过总结和筛选出无关实体简化输入；（2）一个双视角实体链接器，结合上下文提示和先验知识进行精确的实体链接；（3）一个实体共识裁判器，采用独特的致性算法来减轻实体链接推理中的幻觉。在七个基准数据集上的综合评估显示，OneNet优于当前的实体链接最先进方法。

[4] StablePrompt: Automatic Prompt Tuning using Reinforcement Learning for Large Language Models[cs.CL]
标题：稳定提示：使用强化学习自动对大型语言模型进行提示调整
作者：Minchan Kwon, Gaeun Kim, Jongsuk Kim, Haeil Lee, Junmo Kim
链接：http://arxiv.org/abs/2410.07652
备注：EMNLP 2024 cam-ready
摘要：随着大型语言模型（LLM）应用的扩展，为特定任务找到合适的提示成为了重要问题。强化学习（RL）被广泛用于提示优化，但其固有的不稳定性以及环境依赖性使其在实际应用中难以使用。本文我们提出了一种名为StablePrompt的方法，它在训练稳定性和搜索空间之间取得平衡，缓解了RL的不稳定性，并生成了高性能的提示。我们将提示优化定义为代理和目标LLM之间的在线RL问题，并引入了自适应近端策略优化（APPO）。APPO引入了一个LLM锚模型，以自适应地调整策略更新的速率。这使得在保持预训练LLM的语言能力的同时，可以进行灵活的提示搜索。StablePrompt在包括文本分类、问答和文本生成在内的多种任务上优于先前的方法。我们的代码可在github上找到。

[5] AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories[cs.CL]
标题：AgentBank：通过在超过5万个交互轨迹上进行微调，向着通用LLM智能体演进
作者：Yifan Song, Weimin Xiong, Xiutian Zhao, Dawei Zhu, Wenhao Wu, Ke Wang, Cheng Li, Wei Peng, Sujian Li
链接：http://arxiv.org/abs/2410.07706
备注：Findings of EMNLP 2024
摘要：在开源大型语言模型（LLMs）中，通过增强智能体与环境交互轨迹数据进行微调，对于挖掘通用智能体能力具有重大潜力。在本工作中，我们提出了AgentBank，它是迄今为止最大的轨迹微调数据集，包含了超过50k个多样化的高质量交互轨迹，涵盖了16个子任务，涉及五个不同的智能体技能维度。利用一种新颖的标注流程，我们能够扩展标注轨迹并生成最小化难度偏差的轨迹数据集。此外，我们在AgentBank上对LLMs进行微调，得到一系列智能体模型，称为Samoyed。我们的比较实验证实了扩展交互轨迹数据以获得通用智能体能力的效果。额外的实验还揭示了关于轨迹微调和智能体技能泛化的关键观察。

[6] GameTraversalBenchmark: Evaluating Planning Abilities Of Large Language Models Through Traversing 2D Game Maps[cs.CL]
标题：游戏遍历基准：通过遍历二维游戏地图评估大型语言模型的规划能力
作者：Muhammad Umair Nasir, Steven James, Julian Togelius
链接：http://arxiv.org/abs/2410.07765
代码：https://github.com/umair-nasir14/Game-Traversal-Benchmark
备注：Accepted at 38th Conference on Neural Information Processing Systems (NeurIPS 2024) Track on Datasets and Benchmarks
摘要：大型语言模型（LLMs）最近在生成和理解自然语言方面展示了极大的成功。虽然它们也在自然语言领域之外显示出潜力，但它们能够规划和在何种程度上规划仍然是一个未解之谜。我们通过提出GameTraversalBenchmark（GTB），一个由多样化的2D网格游戏地图构成的基准，来调查它们的规划能力。如果LLM能够以最少的步骤和最少的生成错误穿越给定的目标，它就成功了。我们在GTB上评估了多个LLMs，并发现GPT-4-Turbo在GTB_Score（GTBS）上达到了最高的44.97%分，这是一个结合了上述三个标准的综合分数。此外，我们初步测试了大型推理模型，即o1，它在GTBS上得分为67.84%，表明该基准对当前模型来说仍然具有挑战性。代码、数据和文档可通过以下网址获取。

[7] Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine Translation[cs.CL]
标题：使用自动指标构建用户偏好模型：为机器翻译创建高质量偏好数据集
作者：Sweta Agrawal, José G. C. de Souza, Ricardo Rei, António Farinhas, Gonçalo Faria, Patrick Fernandes, Nuno M Guerreiro, Andre Martins
链接：http://arxiv.org/abs/2410.07779
备注：Accepted at EMNLP Main 2024
摘要：与人类偏好一致是开发准确且安全的大型语言模型的重要一步。这在机器翻译（MT）领域也不例外，对该领域语言细微差别和特定上下文变化的更好处理能提升翻译质量。然而，从大规模人类反馈中获取并编制偏好数据可能非常昂贵。另一方面，自动度量标准可以诱导偏好，但它们可能无法完全符合人类的期望。在本文中，我们提出了一种借鉴两种最佳方法的方法。我们首先从多名专业语言学家那里收集了由多个高质量MT系统生成的翻译的句子级质量评估，并评估了当前自动度量标准回收这些偏好的能力。然后，我们利用这种分析来编制一个新的数据集，MT-Pref（基于度量标准的翻译偏好）数据集，该数据集包含18k个实例，涵盖了18种语言方向，使用的是来自2022年后多个领域的文本。我们展示了在MT-Pref上对TOWER模型进行对齐，显著提高了WMT23和FLORES基准测试中的翻译质量。

[8] Fine-Tuning Language Models for Ethical Ambiguity: A Comparative Study of Alignment with Human Responses[cs.CL]
标题：对伦理模糊的微调：与人类响应的一致性比较研究
作者：Pranav Senthilkumar, Visshwa Balasubramanian, Prisha Jain, Aneesa Maity, Jonathan Lu, Kevin Zhu
链接：http://arxiv.org/abs/2410.07826
备注：Accepted to NeurIPS 2024, SoLaR workshop
摘要：语言模型常常因为处理模糊性不当而误解人类意图，这使得其在自然语言处理研究中的局限性得到了充分的认可。在道德明确的情况下，大型语言模型（LLM）可能更加容易识别，但在道德模糊的情境中则会遇到更大的困难。在本研究中，我们探索了LLM校准，以表明在这种情况下人类和LLM的判断存在很差的匹配。我们使用了来自Scruples项目的两个定制数据集进行评估：DILEMMAS，它涉及包含不同道德场景的对子，用于评估模型比较和对比伦理情况的能力；以及ANECDOTES，它提供个人叙述来评估模型在提取细节、解释和分析不同道德场景方面的技能。我们从所有可能的选择中提取了模型答案的概率，并将其与人类标注进行比较，以衡量三个模型（Llama-3.1-8b、Zephyr-7b-beta和Mistral-7b）的匹配度。经过微调后，观察到显著的改进，尤其是在交叉熵和狄利克雷得分方面（后者尤为明显）。值得注意的是，在微调后，Mistral-7B-Instruct-v0.3的表现与GPT-4o相当。然而，在交叉熵得分方面，所有被检查的实验模型仍然不如BERT和RoBERTa模型。我们的微调方法，通过改善模型在文本到文本格式中对文本分布的理解，有效提高了复杂决策情境中的性能和匹配度，凸显了进一步研究以完善道德推理技巧和捕捉人类判断细微差别的重要性。

[9] Why do objects have many names? A study on word informativeness in language use and lexical systems[cs.CL]
标题：为什么物体有很多名称？关于语言使用和词汇系统中文信息的研讨
作者：Eleonora Gualdoni, Gemma Boleda
链接：http://arxiv.org/abs/2410.07827
备注：Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 2024)
摘要：人类词汇中包含许多不同的词，说话者可以用这些词来指代同一个物体，例如，“紫色”或“洋红色”指代同一种颜色的色调。一方面，语言使用的研究探讨了说话者如何调整他们的指代表达式以在特定语境中成功进行沟通，并没有关注词汇系统的特性。另一方面，语言进化研究讨论了信息量和简洁性之间的竞争压力如何塑造词汇系统，但并未涉及语境中的沟通。我们旨在弥合这些传统之间的差距，并探究为什么在语境沟通和词汇结构都考虑的情况下， soft mapping（软映射）的指代表达和词汇是一种优秀的沟通解决方案。我们提出了一种基于视觉空间的词汇和词汇系统的简单信息量度量方法，并分析了英语和普通话中的颜色命名数据。我们得出结论，最优的词汇系统是那些对于同一指代表达可以使用多个词汇，传递不同量的信息。这样的系统使得说话者能够在谈论语境中的指代表达时，最大化沟通的准确性并最小化传递的信息量。

[10] NusaMT-7B: Machine Translation for Low-Resource Indonesian Languages with Large Language Models[cs.CL]
标题：新西兰MT-7B：大型语言模型助力低资源印尼语种机器翻译
作者：William Tan, Kevin Zhu
链接：http://arxiv.org/abs/2410.07830
备注：Accepted to SoLaR @ NeurIPS 2024
摘要：大型语言模型（LLMs）在高资源语言的翻译任务中展现出卓越的潜力。然而，由于平行语料库和单语语料库的稀缺以及噪声的存在，它们在低资源语言中的表现受到限制，导致这些LLMs在对齐方面存在问题，并且在这些设置中落后于最先进的（SoTA）神经机器翻译（NMT）模型。本文介绍了一种基于LLM的低资源印尼语机器翻译模型NusaMT-7B，起初应用于巴厘语和马觔语。利用预训练的LLaMA2-7B，我们的方法集成了在单语数据上的继续预训练、监督微调（SFT）、自我学习和基于LLM的语料库清洁器，以减少平行句子中的噪声。在FLORES-200多语言翻译基准测试中，NusaMT-7B在将内容翻译成巴厘语和马觔语时在spBLEU指标上优于SoTA模型，最高提升了+6.69 spBLEU，但在翻译到较高资源语言时则表现不佳，最高低了-3.38 spBLEU。我们的结果表明，经过微调的LLMs可以提升低资源语言的翻译质量，有助于语言的保护和跨文化交流。

[11] Enhancing Language Model Reasoning via Weighted Reasoning in Self-Consistency[cs.CL]
标题：加权自洽推理强化语言模型推理
作者：Tim Knappe, Ryan Li, Ayush Chauhan, Kaylee Chhua, Kevin Zhu, Sean O'Brien
链接：http://arxiv.org/abs/2410.07839
备注：Accepted to MATH-AI at NeurIPS 2024
摘要：尽管大型语言模型（LLMs）在众多任务上的性能得到快速提升，但它们在推理任务上仍然常常表现不佳。随着LLMs在众多现实世界任务中得到更广泛的集成，提升其推理能力对其有效地解决微妙复杂的难题至关重要。王等人提出的自洽性框架揭示，在采取多数投票之前，通过多次采样多个理由，可以可靠地提高各种封闭答案推理任务的模型性能。基于这一框架的标准方法聚合了这些理由的最终决策，但未能利用这些理由应用的具体逐步推理路径。我们的工作通过纳入和分析这些理由在多数投票之前的推理路径和最终决策来增强这种方法。这些方法不仅提高了推理路径的可靠性，而且在复杂推理任务上实现了更稳健的性能。

[12] Private Language Models via Truncated Laplacian Mechanism[cs.CL]
标题：通过截断拉普拉斯机制实现私人语言模型
作者：Tianhao Huang, Tao Yang, Ivan Habernal, Lijie Hu, Di Wang
链接：http://arxiv.org/abs/2410.08027
备注：Accepted by EMNLP 2024, Main Track
摘要：深度学习模型在进行自然语言处理（NLP）任务时容易遭受隐私攻击的变体。为了防止隐私泄露，研究人员已研究词汇层面的扰动，依托词嵌入空间中差分隐私（DP）的形式保证。然而，许多现有方法在使用拉普拉斯机制或高斯机制时，在高隐私环境下并不能达到令人满意的性能，或者依赖于比标准差分隐私弱化的版本，其在隐私强度上劣于标准的差分隐私。这引发了一个问题：是否可以设计一种新方法来对隐私词嵌入进行优化，从而克服这些限制。在本文中，我们提出了一种新型私有嵌入方法，称为高维截断拉普拉斯机制。具体而言，我们引入了截断拉普拉斯机制的非平凡扩展，该机制之前仅在单维度空间案例中进行了研究。理论上，我们显示了与之前的私有词嵌入方法相比，我们的方法具有更低的方差。为了进一步验证其有效性，我们在三个数据集上就私有嵌入和下游任务进行了全面实验。令人印象深刻的是，即使在高隐私环境下，我们的方法与无隐私的情况相比，仅导致效用的轻微下降。

[13] Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions[cs.CL]
标题：关闭循环：通过模拟学生修订学习生成写作反馈
作者：Inderjeet Nair, Jiaye Tan, Xiaotian Su, Anne Gere, Xu Wang, Lu Wang
链接：http://arxiv.org/abs/2410.08058
备注：Accepted to EMNLP 2024
摘要：提供反馈被广泛认为对学生写作技能的改进至关重要。近年来，语言模型（LMs）的进步使得自动生成可操作且与人类指定的属性高度一致性的反馈成为可能。然而，目前还不清楚这些模型生成的反馈是否真正能够有效提升学生修订的质量。此外，由于对能导致修订表现提高的具体属性缺乏共识，使用精确的指令提示LMs生成反馈是一个复杂的问题。为了解决这些挑战，我们提出了PROF（PROduces Feedback），它通过学习LM模拟的学生修订来生成反馈。PROF旨在通过直接最大化LM模拟的学生总体修订效果来迭代优化反馈生成器。我们聚焦于经济学论文作业，实证测试了PROF的效力，并观察到我们的方法不仅在提升学生写作效果方面超过了各种基线方法，还展现了增强的教学价值，尽管它并未被明确训练用于这一方面。

[14] Robust AI-Generated Text Detection by Restricted Embeddings[cs.CL]
标题：鲁棒限制嵌入的AI生成文本检测
作者：Kristian Kuznetsov, Eduard Tulchinskii, Laida Kushnareva, German Magai, Serguei Barannikov, Sergey Nikolenko, Irina Piontkovskaya
链接：http://arxiv.org/abs/2410.08113
代码：https://github.com/SilverSolver/RobustATD
备注：Accepted to Findings of EMNLP 2024
摘要：人工智能生成文本的数量和质量都在增长，使得检测此类内容变得更加困难。在大多数真实场景中，生成数据的领域（风格和主题）以及生成模型都是事先未知的。在本工作中，我们关注基于分类器的AI生成文本检测器的鲁棒性，即它们转移到未见过的生成器或语义领域的迁移能力。我们研究了基于Transformer的文本编码器的嵌入空间几何结构，并表明清理有害的线性子空间有助于训练一个鲁棒的分类器，忽略特定领域的虚假特征。我们研究了多种子空间分解和特征选择策略，并在跨域和跨生成器迁移方面超越了现有最佳方法。我们最好的头向和坐标基础子空间去除方法分别将RoBERTa和Bert嵌入的均值分布式外分类分数提高了多达9%和14%。我们发布了我们的代码和数据：此https URL。

[15] Think Beyond Size: Dynamic Prompting for More Effective Reasoning[cs.CL]
标题：超越尺寸思考：动态提示以实现更有效的推理
作者：Kamesh R
链接：http://arxiv.org/abs/2410.08130
备注：Submitted to ICLR 2025. This is a preprint version. Future revisions will include additional evaluations and refinements
摘要：本文提出了一种名为动态提示的新框架，旨在提高大型语言模型（LLMs）的推理能力。与传统静态提示方法不同，动态提示可以根据实时任务复杂度和模型性能来自适应地修改提示序列和步数。这种动态调整有助于更有效地解决问题，尤其是在较小模型中，通过减少幻觉和重复循环。我们的实证评估表明，动态提示使得较小的LLMs能够与远大规模的模型具有竞争力，从而挑战了将模型规模视为推理效果主要决定因素的惯例。

CV&AIGC顶会速递 [2024-10-11]

今日更新30篇：

请注意，大模型的论文多发布于自然语言处理会议中。而由于多模态的发展迅速，部分计算机视觉相关的论文也会发布在自然语言处理顶会中。

计算机视觉会议: 14篇

自然语言处理会议: 16篇

感谢arxiv.org