[3] ReFIR: Grounding Large Restoration Models with Retrieval Augmentation[cs.CV] 标题:ReFIR:通过检索增强将大型修复模型进行归因 作者:Hang Guo, Tao Dai, Zhihao Ouyang, Taolin Zhang, Yaohua Zha, Bin Chen, Shu-tao Xia 链接:http://arxiv.org/abs/2410.05601 备注:Accepted by NeurIPS 2024 摘要:近年来,基于扩散的大规模修复模型(LRMs)的进展显著提高了照片逼真的图像修复效果,这是通过利用模型权重中嵌入的内部知识实现的。然而,现有的LRMs由于过分依赖有限的内部知识,往往遭受幻觉难题,即在网络严重退化处理时生成错误的内容或纹理。在本文中,我们提出了一种称为检索增强的图像修复框架(ReFIR)的正交解决方案,它将检索到的图像作为外部知识以扩展现有LRMs在生成忠于原始场景的细节时的知识边界。具体来说,我们首先引入了最近邻查询以便检索与内容相关的优质图像作为参考,随后提出跨越图像注入方法以修改现有LRMs,使其能够利用检索图像中的高质量纹理。得益于额外的外部知识,我们的ReFIR可以很好地应对幻觉挑战并提供忠实于原文的修复结果。大量实验表明,ReFIR不仅可以实现高保真修复,还能获得逼真的修复效果。重要的是,我们的ReFIR无需训练,并可适应各种LRMs。
[4] CLOSER: Towards Better Representation Learning for Few-Shot Class-Incremental Learning[cs.CV] 标题:CLOSER:面向更优表示学习的少样本类增量学习方法 作者:Junghun Oh, Sungyong Baik, Kyoung Mu Lee 链接:http://arxiv.org/abs/2410.05627 代码:https://github.com/JungHunOh/CLOSER_ECCV2024 备注:Accepted at ECCV2024 摘要:旨在仅用少量样本增量学习新类别同时保留基础(旧)类别的知识,少样本类别增量学习(FSCIL)面临着包括过拟合和灾难性遗忘在内的诸多挑战。这样的难题通常通过将一个在基础类别上训练的特征提取器固定下来来解决,以减少过拟合和遗忘的负面影响。在这种框架下,我们主要关注基础类别的表征学习,以解决FSCIL的独特挑战:同时实现学习到的表征的可迁移性和可辨异性。基于最近增强迁移性的努力,例如促进特征扩散,我们发现在一个更受限的特征空间内确保特征扩散可以使得学习到的表征在可迁移性和可辨异性之间取得更好的平衡。因此,与我们以前的认识——类间距离应最大化——形成鲜明对比,我们提出,不同类别越接近,对FSCIL越好。从信息瓶颈理论的角度进行的实证结果和数据分析证实了我们简单却看似反直观的表征学习方法,提出了研究问题并建议了替代的研究方向。代码可在以下https URL获取。
[5] Cefdet: Cognitive Effectiveness Network Based on Fuzzy Inference for Action Detection[cs.CV] 标题:认知有效性模糊推理动作检测网络:Cefdet 作者:Zhe Luo, Weina Fu, Shuai Liu, Saeed Anwar, Muhammad Saqib, Sambit Bakshi, Khan Muhammad 链接:http://arxiv.org/abs/2410.05771 备注:The paper has been accepted by ACM MM. If you find this work helpful, please consider citing our paper. Zhe Luo, Weina Fu, Shuai Liu, Saeed Anwar, Muhammad Saqib, Sambit Bakshi, Khan Muhammad (2024) Cefdet: Cognitive Effectiveness Network Based on Fuzzy Inference for Action Detection, 32nd ACM International Conference on Multimedia, online first, https://doi.org/10.1145/3664647.3681226 摘要:动作检测与理解是多媒体内容生成与交互的基础。然而,现有方法主要集中于构建复杂的关联推理网络,忽视了检测有效性的判断。此外,这些方法经常产生具有认知异常的检测结果。为了解决上述问题,本研究提出了一种基于模糊推理的认知有效性网络(Cefdet),该网络引入了“基于认知的检测”概念来模拟人类认知。首先,建立了一个模糊驱动的认知有效性评估模块(FCM),将模糊推理引入动作检测中。FCM结合人体动作特征模拟了基于认知的检测过程,明确定位了具有认知异常的帧的位置。接着,基于FCM提出了一种模糊认知更新策略(FCS),利用模糊逻辑重新检测基于认知的检测结果,并有效地更新具有认知异常的检测结果。实验结果表明,Cefdet在公共数据集上对多个主流算法展现出优越的性能,验证了其有效性和优越性。
[6] SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution[cs.CV] 标题:clearer的语义蒸馏增强视频超分辨率像素压缩 作者:Qi Tang, Yao Zhao, Meiqin Liu, Chao Yao 链接:http://arxiv.org/abs/2410.05799 代码:https://github.com/Tang1705/SeeClear-NeurIPS24 备注:Accepted to NeurIPS 2024 摘要:基于扩散的视频超分辨率(VSR)因其能够生成感知上真实的视频而闻名,但它在因随机波动而维持帧间细节一致性方面存在挑战。传统的像素级对齐方法由于迭代干扰而对扩散处理的帧无效。为了克服这一点,我们引入了SeeClear——一个利用条件视频生成的新颖VSR框架,该框架由以实例为中心和通道语义控制的编排。该框架集成了语义蒸馏器和像素浓缩器,它们协同工作,从低分辨率帧中抽取和上采样语义细节。实例中心对齐模块(InCAM)利用视频剪辑级别的标记来动态地将帧内和帧间的像素联系起来,增强了连贯性。此外,通道纹理聚合记忆(CaTeGory)注入了外部知识,利用了长期存在的语义纹理。我们的方法还通过ResShift机制创新了模糊扩散过程,在锐度和扩散效果之间进行了精细的平衡。全面的实验证实了我们的框架在基于扩散的VSR技术中的优势。代码已开源:请访问此https URL。
[7] Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts[cs.CV] 标题:无训练自由端对象检测和分割:通过提示专注实现 作者:Zhiwei Lin, Yongtao Wang, Zhi Tang 链接:http://arxiv.org/abs/2410.05963 备注:Accepted by NeurIPS 2024 摘要:现有的感知模型通过学习大量标记数据取得了巨大成功,但它们在开放世界场景中仍然面临困难。为了减轻这一问题,研究者们提出了开放集感知任务来检测或分割训练集中的未见对象。然而,这些模型在推理期间需要预定义的对象类别作为输入,这在现实世界场景中是不存在的。最近,研究者们提出了一个更加实用的新问题,即无界对象检测,它通过没有任何对象类别作为输入来发现未见对象。在本文中,我们提出了一种无需训练的框架VL-SAM,它将广义对象识别模型(即视觉-语言模型)与广义对象定位模型(即Segment-Anything Model)相结合,以解决无界对象检测和分割任务。无需额外训练,我们利用注意力图作为提示将这两个广义模型相连。具体而言,我们设计了一个注意力图生成模块,采用头部聚合和正则化注意力流来聚合和传播VLM中所有头和层的注意力图,从而生成高质量的注意力图。然后,我们使用提示生成模块从注意力图中迭代采样正负点,并将采样点发送到SAM进行对应对象的分割。在LVIS长尾实例分割数据集上的实验结果表明,我们的方法在对象检测任务上优于之前的无界方法,并可以提供额外的实例分割掩码。此外,VL-SAM在角案例对象检测数据集(CODA)上取得了良好的性能,证明了VL-SAM在实际应用中的有效性。另外,VL-SAM展现出良好的模型泛化能力,可以整合各种VLM和SAM。
[8] DeMo: Decoupling Motion Forecasting into Directional Intentions and Dynamic States[cs.CV] 标题:DeMo:分解运动预测为方向意图和动态状态 作者:Bozhou Zhang, Nan Song, Li Zhang 链接:http://arxiv.org/abs/2410.05982 备注:NeurIPS 2024 摘要:准确预测交通代理的运动对于确保动态变化环境中文动车驾驶系统的安全性和效率至关重要。主流方法采用一种“一查询一轨迹”范式,其中每个查询对应一个独特的轨迹来预测多模态轨迹。虽然这种方法简单有效,但由于代理状态随时间动态演变,缺少对未来轨迹的详细表示可能会导致次优结果。为了解决这一问题,我们引入了DeMo框架,将多模态轨迹查询分解为两种类型:模式查询捕获独特的方向意图,状态查询跟踪代理随时间变化的动态状态。通过利用这种格式,我们分别优化轨迹的多模性和动态演变特性。随后,将模式和状态查询整合以获得轨迹的全面和详细表示。为实现这些操作,我们此外还引入了结合注意力机制和Mamba技术的全局信息聚合和状态序列建模,利用它们各自的优势。在Argoverse 2和nuScenes基准数据集上的大量实验表明,我们的DeMo在运动预测方面达到了最先进的性能。
[9] Motion Forecasting in Continuous Driving[cs.CV] 标题:连续驾驶中的运动预测 作者:Nan Song, Bozhou Zhang, Xiatian Zhu, Li Zhang 链接:http://arxiv.org/abs/2410.06007 代码:https://github.com/fudan-zvg/RealMotion 备注:Accepted at NeurIPS 2024 Spotlight 摘要:自动驾驶中代理的动预测极为困难,因为每个代理的下一步动作都有众多可能性,且它们在时空中的复杂交互也很多。在实际应用中,自动驾驶汽车移动时,运动预测会不断反复进行。然而,现有的预测方法通常独立处理每个驾驶场景内的特定范围,完全忽略了连续驾驶场景之间的情境和上下文关系。这使得预测任务被简化,使得解决方案在实际应用中既不最优也低效。为了解决这一基本限制,我们提出了一个名为RealMotion的全新连续驱动运动预测框架。它包含场景级别的两个核心流:(1)场景上下文流逐步累积历史场景信息,直到当前时刻,从而捕捉场景元素之间的时间交互关系。(2)代理轨迹流通过顺序传递过去的预测来优化当前的预测。此外,引入了一种数据重组策略,以缩小现有基准与实际应用之间的差距,与我们的网络保持一致。这些方法使得更广泛地利用情境和动态运动的空间和时间渐进洞察成为可能。在Argoverse系列数据集上进行的广泛实验,与不同设置展示了我们RealMotion达到了最先进的性能,同时还具有高效的现实世界推理优势。源代码将在以下https URL处提供。
[10] UnSeGArmaNet: Unsupervised Image Segmentation using Graph Neural Networks with Convolutional ARMA Filters[cs.CV] 标题:无监督图像分割:带卷积自回归滑动平均(ARMA)滤波器的图神经网络 作者:Kovvuri Sai Gopal Reddy, Bodduluri Saran, A. Mudit Adityaja, Saurabh J. Shigwan, Nitin Kumar, Snehasis Mukherjee 链接:http://arxiv.org/abs/2410.06114 代码:https://github.com/ksgr5566/UnSeGArmaNet 备注:Accepted at BMVC-2024. arXiv admin note: text overlap with arXiv:2405.06057 摘要:数据驱动的监督分类方法促使研究人员转向无监督方法,特别是在像医学图像分割这样的问题中,标注数据难以获取。受近期视觉变换器(ViT)在多种计算机视觉任务中取得成功的影响,我们提出了一种采用预训练ViT的无监督分割框架。此外,通过利用图像中固有的图结构,该方法在分割任务中取得了显著的性能,特别是在医学图像分割方面。我们进一步引入基于模块化的损失函数,结合自回归移动平均(ARMA)滤波器来捕捉图像中固有的图拓扑结构。最后,我们观察到在提出的图神经网络(GNN)架构中采用缩放指数线性单元(SELU)和SILU(Swish)激活函数可以提高分割性能。在ECSSD、DUTS和CUB等基准图像分割数据集以及KVASIR、CVC-ClinicDB、ISIC-2018等具有挑战性的医学图像分割数据集上,提出的方法提供了最先进的性能(甚至可以与监督方法相媲美)。该代码的GitHub仓库可在\url{此 https URL}找到。
[11] Towards Unsupervised Eye-Region Segmentation for Eye Tracking[cs.CV] 标题:迈向无监督眼部区域分割以进行眼动追踪 作者:Jiangfan Deng, Zhuang Jia, Zhaoxue Wang, Xiang Long, Daniel K. Du 链接:http://arxiv.org/abs/2410.06131 备注:ECCV2024 ICVSE workshop 摘要:寻找眼球并解析出各个部分(例如瞳孔和虹膜)是图像式眼动追踪的关键前提条件,而这一技术已成为当前头戴式VR/AR设备中不可或缺的模块。然而,训练一个分割器的典型路径需要繁琐的手动标注。在这项工作中,我们探索了一种无监督的方法。首先,我们利用人眼先验信息从图像中提取信号,以建立指明眼球区域结构的粗略线索。在这些稀疏且噪声的线索基础上,训练一个分割网络,以逐步识别每个部分的精确区域。为了实现眼球区域准确解析,我们首先以自动的方式利用预训练的基础模型Segment Anything(SAM)来精细眼球指示。然后,学习过程以端到端的方式设计,遵循渐进和重视先验原则。实验表明,我们无监督的方法在监督学习下可以轻松实现90%(瞳孔和虹膜)和85%(整个眼球区域)的性能。
[12] Happy: A Debiased Learning Framework for Continual Generalized Category Discovery[cs.CV] 标题:快乐:一种用于持续广义类别发现的去偏学习框架 作者:Shijie Ma, Fei Zhu, Zhun Zhong, Wenzhuo Liu, Xu-Yao Zhang, Cheng-Lin Liu 链接:http://arxiv.org/abs/2410.06535 代码:https://github.com/mashijie1028/Happy-CGCD 备注:Accepted at NeurIPS 2024 摘要:不断发现新颖的概念在变化的环境中至关重要。本文探讨了尚被低估的持续性广义类别发现(C-GCD)任务,该任务旨在增量地从无标签数据中发现新类别,同时保持识别先前学习类别的能力。尽管已经提出了几种设置来研究C-GCD任务,但它们存在局限性,不能反映真实世界的情况。因此,我们研究了一个更实际的多类别渐进发现C-GCD设置,该设置在更长时间内增加了更多新类别,而不存储过去类别的样本。在C-GCD中,模型最初在已知类别的有标签数据上进行训练,随后进入多个增量阶段,在这些阶段中,模型被喂入包含新旧类别的无标签数据。核心挑战涉及两个相互冲突的目标:发现新类别和防止遗忘旧类别。我们深入研究这些冲突,并发现模型容易受到预测偏差和难度偏差的影响。为了解决这些问题,我们引入了一个去偏学习框架,称为Happy。对于预测偏差,我们首先引入聚类指导初始化,以提供稳健的特征。此外,我们提出软熵正则化,为新类别分配合适的概率,这可以显著增强新类别的聚类性能。对于难度偏差,我们提出了难度感知原型采样,可以有效减轻先前看到的类别的遗忘问题,特别是对于难度较大的类别。实验结果表明,我们的方法有效地管理了C-GCD的冲突,并在各种数据集上实现了显著的性能提升,例如在ImageNet-100上整体提升了7.5%。我们的代码公开可在以下https网址处获得。
[13] Deep Correlated Prompting for Visual Recognition with Missing Modalities[cs.CV] 标题:深度基于缺失模态的视觉识别关联提示 作者:Lianyu Hu, Tongkai Shi, Wei Feng, Fanhua Shang, Liang Wan 链接:http://arxiv.org/abs/2410.06558 备注:NeurIPS 2024 摘要:大型多模态模型在利用大量成对的多模态训练数据集的任务中表现出色。通常情况下,人们假设它们总是接受模态完整的输入。然而,由于隐私限制或收集难度,这个简单的假设在现实世界中可能并不总是成立,预先在模态完整数据上训练的模型在缺失模态的情况下往往表现出性能下降。为了解决这个问题,我们借鉴提示学习的方法,通过将不同的缺失情况视为不同类型的输入,来使大型预训练的多模态模型适应处理缺失模态的场景。我们不仅将独立的提示添加到中间层,而且提出利用提示与输入特征之间的相关性,挖掘不同层提示之间的关系,以精心设计指令。我们还将不同模态的互补语义纳入指导每个模态的提示设计。在三个常用的数据集上进行的广泛实验一致地表明,与之前的方法相比,我们提出的方法在处理不同的缺失场景时具有优越性。此外,我们还给出了大量的消融实验,以展示我们方法在不同模态缺失比率和类型上的普适性和可靠性。
[14] Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models[cs.CV] 标题:打破视觉感知:针对大型视觉语言模型编码视觉标记的对抗性攻击 作者:Yubo Wang, Chaohu Liu, Yanqiu Qu, Haoyu Cao, Deqiang Jiang, Linli Xu 链接:http://arxiv.org/abs/2410.06699 备注:Accepted to ACMMM 2024 摘要:大型视觉语言模型(LVLMs)将视觉信息集成到大型语言模型中,展现了出色的多模态对话能力。然而,视觉模块为LVLMs带来了新的挑战,因为攻击者可以构建视觉上干净但可能误导模型生成错误答案的对抗性图像。一般来说,LVLMs依赖于视觉编码器将图像转换成视觉标记,这对于语言模型有效感知图像内容至关重要。因此,我们提出了一个问题:当编码的视觉标记被攻击并破坏视觉信息时,LVLMs还能生成正确的回答吗?为此,我们提出了一种称为VT-Attack(视觉标记攻击)的非目标攻击方法,它从多个角度构建对抗性示例,目标是全面破坏特征表示和内在关系以及图像编码器输出视觉标记的语义属性。在攻击中仅使用对图像编码器的访问,生成的对抗性示例在不同LVLMs中表现出可迁移性,并在不同任务中表现出一般性。广泛的实验验证了VT-Attack超过基线方法的高级攻击性能,证明了其攻击具有图像编码器的LVLMs的有效性,这反过来可以为LVLMs的鲁棒性提供指导,尤其是在视觉特征空间的稳定性方面。
[15] Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles[cs.CV] 标题:弱评-强调整:使用情境谜题评估和激发大型语言模型的横向思维 作者:Qi Chen, Bowen Zhang, Gang Wang, Qi Wu 链接:http://arxiv.org/abs/2410.06733 代码:https://github.com/chenqi008/LateralThinking 备注:Accepted by NeurIPS 2024 摘要:尽管自然语言处理(NLP)的进步显著提高了大语言模型(LLMs)在需要垂直思维的任务上的表现,但它们横向思维的能力仍被低估并难以衡量,这归因于评估创造性思维过程的复杂性和相关数据的稀缺。为了解决这些挑战,我们介绍了SPLAT,这是一个利用情景谜题来评估和激励LLMs横向思维的基准。这个基准包含975个按难度分为三个级别的分级情景谜题,采用了一种新的多轮玩家-评委框架,而不是传统的基于模型的评估,后者通常需要更强的评估模型。该框架模拟了一个交互游戏,其中模型(玩家)就一个不完整的剧情向评估模型(评委)提问,以推断整个场景。评委根据详细的参考情景或评估玩家预测是否与参考情景一致。这种方法减少了对外更强评估模型的依赖,使得能够评估最先进的LLMs。实验表明,像WizardLM-2这样的鲁棒评估模型在中间问题回答和最终场景准确性方面与人类判断非常接近,达到超过80%的一致性,这与人类之间的一致性水平相似。此外,将我们的基准中的数据和推理过程应用于其他横向思维相关基准,例如RiddleSense和BrainTeaser,可以带来性能提升。这表明我们的基准有效地评估和激发了LLMs的横向思维能力。代码可在以下网址获取:this https URL。
[16] MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes[cs.CV] 标题:MimicTalk:几分鐘內模仿个性化的3D表情说话脸 作者:Zhenhui Ye, Tianyun Zhong, Yi Ren, Ziyue Jiang, Jiawei Huang, Rongjie Huang, Jinglin Liu, Jinzheng He, Chen Zhang, Zehan Wang, Xize Chen, Xiang Yin, Zhou Zhao 链接:http://arxiv.org/abs/2410.06734 代码:https://mimictalk.github.io 备注:Accepted by NeurIPS 2024 摘要:谈话面部生成(TFG)旨在对目标身份的面部进行动画处理,以创建逼真的谈话视频。个性化TFG是一种变体,强调合成结果的感知身份相似性(从外观和谈话风格的角度来看)。虽然以往的工作通常通过为每个身份学习一个独立的神经网络辐射场(NeRF)来解决这个问题,以隐式存储其静态和动态信息,但我们发现由于按身份划分的培训框架和有限的训练数据,这种方法效率低下且缺乏通用性。因此,我们提出了MimicTalk,这是第一次尝试利用基于NeRF的人无关通用模型中的丰富知识来提高个性化TFG的效率和鲁棒性。具体来说,我们做了以下工作:(1)首先,我们提出一个无人的3D TFG模型作为基础模型,并建议将其适配到特定的身份上;(2)我们提出了一种静态-动态-混合适配流程,以帮助模型学习个性化的静态外观和面部动态特征;(3)为了生成个性化的谈话风格的 facial motion,我们提出了一种上下文风格的音频到运动模型,该模型模仿了参考视频中提供的隐式谈话风格,并通过显式的风格表示来避免信息损失。适应未见身份的过程可在15分钟内完成,这比之前的基于个人的方法快47倍。实验表明,我们的MimicTalk在视频质量、效率和表现力方面超过了以往的比较基准。源代码和视频样本可在以下https链接找到。
[17] DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation[cs.CV] 标题:DreamMesh4D:稀疏控制的高斯网格混合表示的视频到四维生成 作者:Zhiqi Li, Yiming Chen, Peidong Liu 链接:http://arxiv.org/abs/2410.06756 备注:NeurIPS 2024 摘要:最近,在2D/3D生成技术方面取得的进步使得从单目视频生成动态3D物体成为可能。先前的方法主要依赖于隐式神经网络辐射场(NeRF)或显式高斯混合技术作为底层表示,但在实现满意的时空一致性和表面外观方面存在困难。受现代3D动画流程的启发,我们引入了DreamMesh4D,这是一个将网格表示与几何皮肤化技术相结合的新型框架,用于从单目视频中生成高质量的4D物体。我们不是利用传统的纹理图来表示外观,而是将高斯混合贴接到网格的三角形面上,以对纹理和网格顶点进行可微优化。特别地,DreamMesh4D首先通过图像到3D生成过程获得一个粗糙的网格。随后,在网格表面上均匀地采样稀疏点,并用于构建变形图,以驱动3D物体的运动,以达到计算效率和提供额外约束的目的。对于每一步,使用变形网络预测稀疏控制点的变换,并通过一种新的几何皮肤化算法对网格顶点以及表面高斯进行变形,该算法是将LBS(线性混合皮肤化)和DQS(双四元数皮肤化)相结合的混合方法,减轻了这两种方法的相关缺点。静态表面高斯、网格顶点以及变形网络通过参考视图光度损失、得分蒸馏损失以及其他正则化器以两阶段的方式学习。大量的实验表明,我们的方法具有优越的性能。此外,我们的方法与现代图形流程兼容,展示了其在3D游戏和电影行业的潜力。
[18] Bridge the Points: Graph-based Few-shot Segment Anything Semantically[cs.CV] 标题:连接点:基于图的少样本语义分割任何东西的方法 作者:Anqi Zhang, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei 链接:http://arxiv.org/abs/2410.06964 代码:https://andyzaq.github.io/GF-SAM/ 备注:Accepted to NeurIPS 2024 as Spotlight 摘要:最近,大规模预训练技术在视觉基础模型的能力上取得了显著进展,特别是分段任何模型(Segment Anything Model,SAM),该模型可以根据点和框提示生成精确的掩码。最近的研究将SAM扩展到少样本语义分割(Few-shot Semantic Segmentation,FSS),重点在于SAM自动语义分割的提示生成。然而,这些方法在选择合适的提示时存在困难,需要对不同场景进行特定的超参数设置,并且由于过度使用SAM,单次推理时间过长,导致效率低下和自动化能力有限。为了解决这些问题,我们提出了一种基于图分析的创新而有效的方法。具体来说,一个正负对齐模块动态选择生成掩码的点提示,特别是利用背景上下文作为负参考的开端。另一个后续的点-掩码聚类模块根据掩码覆盖点的情况,将掩码和选择的点作为有向图对齐粒度。然后,这些点通过有效解析有向图的弱连接分量进行聚合,构建独特的自然簇。最后,得益于基于图的有向粒度对齐,正负超射门控组合聚合高度可信的掩码,并过滤掉最终预测中的假阳性掩码,减少额外超参数的使用和无用掩码生成。在标准FSS、单次部分分割和跨域FSS数据集上进行了广泛的实验分析,验证了所提方法的效率和有效性,在COCO-20i上mIoU达到58.7%,在LVIS-92i上达到35.2%,超过了最先进的通用模型。代码可在本https URL获取。
[19] S2HPruner: Soft-to-Hard Distillation Bridges the Discretization Gap in Pruning[cs.CV] 标题:S2HPruner:软硬蒸馏跨越剪枝中的离散化差距 作者:Weihao Lin, Shengji Tang, Chong Yu, Peng Ye, Tao Chen 链接:http://arxiv.org/abs/2410.07046 备注:NeurIPS 2024 accepted 摘要:近期,可微分掩码剪枝方法以连续松弛架构(软网络)作为修剪的离散网络(硬网络)的代理来优化优越的子架构搜索。然而,由于离散化过程的不可知影响,硬网络在等效表示容量上与软网络存在差距,即离散化间隙,这严重破坏了剪枝性能。在本文中,我们首先研究了离散化间隙,并提出了一种新型结构可微分掩码剪枝框架,命名为S2HPruner,以单阶段方式弥合离散化间隙。在训练过程中,S2HPruner同时前向传播软网络及其对应的硬网络,然后在软网络的监督下提炼硬网络。为了优化掩码并防止性能下降,我们提出了一种解耦的双向知识蒸馏。它在保持对应掩码的梯度的同时,阻止了硬网络到软网络的权重更新。与现有的剪枝技术相比,S2HPruner在包括CIFAR-100、Tiny ImageNet和具有多种网络架构的ImageNet在内的综合基准上实现了超越的剪枝性能,而无需微调。此外,调查和分析实验解释了S2HPruner的有效性。代码将很快发布。
[20] Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology[cs.CV] 标题:迈向现实可行的无人机视觉-语言导航:平台、基准和方法 作者:Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu, Hongsheng Li, Yue Liao, Si Liu 链接:http://arxiv.org/abs/2410.07087 备注:Under review as a conference paper at ICLR 2025 摘要:开发能够根据语言指令和视觉信息导航到目标位置的代理系统,称为视觉语言导航(VLN),已引起广泛关注。大多数研究集中在地面代理上,而基于无人机(UAV)的VLN相对较少被探索。近期在无人机视觉语言导航方面的努力,主要采用地面VLN的设置,依赖于预定义的离散动作空间,忽视了代理运动动力学在地面和空中环境之间的固有差异以及导航任务的复杂性。为了解决这些差异和挑战,我们从三个角度提出解决方案:平台、基准和方法。为了在VLN任务中实现现实无人机轨迹的模拟,我们提出了OpenUAV平台,该平台具备多元化的环境、现实的飞行控制以及广泛的算法支持。我们进一步构建了一个以目标为导向的VLN数据集,包括约12k个轨迹,在该平台上进行,作为第一个专门设计用于实现现实无人机VLN任务的数据集。为了应对复杂空中环境带来的挑战,我们提出了一种辅助引导无人机物体搜索基准,称为UAV-Need-Help,它提供不同级别的引导信息,以帮助无人机更好地完成现实VLN任务。我们还提出了一种无人机导航的LLM,它接受多视图图像、任务描述和辅助指令,利用多模态理解能力联合处理图像和文本信息,并执行分层轨迹生成。我们方法的评价结果显著优于基线模型,而我们结果与人类操作者达成结果的差距仍然相当大,这突出了UAV-Need-Help任务提出的挑战。
[21] VHELM: A Holistic Evaluation of Vision Language Models[cs.CV] 标题:VHELM:对视觉语言模型的全面评估 作者:Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang 链接:http://arxiv.org/abs/2410.07112 备注:NeurIPS 2024. First three authors contributed equally 摘要:当前的评估视觉语言模型(VLM)的基准通常关注其感知或问题解决能力,忽略了公平性、多语言性或毒性等其他关键方面。此外,它们在评估程序和评估范围上存在差异,使得模型之间的比较变得困难。为了解决这些问题,我们将HELW框架扩展到VLM,以呈现视觉语言模型的全景评估(VHELM)。VHELM通过汇集各种数据集来覆盖9个方面的一个或多个:视觉感知、知识、推理、偏见、公平性、多语言性、鲁棒性、毒性和安全性。通过这样做,我们为我们对VLM在这些重要因素上的能力提供了一个全面、多维的视角。此外,我们标准化了标准的推理参数、提示方法和评估指标,以使模型之间的比较更加公平。我们的框架设计得轻量级和自动化,以便评估运行成本低且速度快。我们的初始运行评估了22个VLM在21个现有数据集上的表现,以提供对模型的全面概述。我们发现了一些新的关键发现,例如,关注效率的模型(例如,Claude 3 Haiku或Gemini 1.5 Flash)在偏见基准测试中的表现显著差于其完整模型(例如,Claude 3 Opus或Gemini 1.5 Pro),但在其他方面评估时则没有。为了提高透明度,我们在我们的网站上发布了原始模型生成和完整结果(本https URL)。VHELM旨在成为一个活跃的基准,我们希望随着时间的推移继续添加新的数据集和模型。
[0] Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild[cs.CL] 标题:模型-GLUE:democratized for a Large Model Zoo in the Wild的规模化处理 作者:Xinyu Zhao, Guoheng Sun, Ruisi Cai, Yukun Zhou, Pingzhi Li, Peihao Wang, Bowen Tan, Yexiao He, Li Chen, Yi Liang, Beidi Chen, Binhang Yuan, Hongyi Wang, Ang Li, Zhangyang Wang, Tianlong Chen 链接:http://arxiv.org/abs/2410.05357 代码:https://github.com/Model-GLUE/Model-GLUE 备注:24 pages, 4 figures, accepted to NeurIPS 2024 Datasets and Benchmarks Track 摘要:随着大型语言模型(LLMs)在各项任务和特定领域表现出色,基于现有模型扩展LLMs引起了广泛关注,但这种方法在组合不同模型时会出现性能下降的挑战。已经提出了各种技术来聚合预训练的LLMs,包括模型合并、专家混合和堆叠。尽管这些技术有其优点,但它们在多样化的模型库中综合比较和协同应用的全面研究尚未得到充分解决。针对这一研究空白,本文介绍了Model-GLUE,这是一项全面的LLM扩展指南。首先,我们的工作从评估现有的LLM扩展技术开始,特别是选择性合并和混合的变体。利用基准测试的结果洞察,我们制定了一个用于选择和聚合具有不同架构和初始化策略的异构模型库的策略。我们的方法包括对可合并模型进行聚类和最佳合并策略的选择,以及通过模型混合整合这些聚类。最后,通过我们在多样化的Llama-2模型库上的实验证明,Model-GLUE显示出平均性能提升了5.61%,而且无需额外的训练。代码可在以下网址获得:this https URL.
[1] Narrative-of-Thought: Improving Temporal Reasoning of Large Language Models via Recounted Narratives[cs.CL] 标题:思维叙事:通过叙述叙事改进大语言模型的时间推理能力 作者:Xinliang Frederick Zhang, Nick Beauchamp, Lu Wang 链接:http://arxiv.org/abs/2410.05558 代码:https://github.com/launchnlp/NoT 备注:EMNLP'24 Findings 摘要:推理时间和时间关系是人类认知的一个基本方面,对于感知世界和导航经验至关重要。尽管大型语言模型(LLMs)在许多推理任务上展现了令人印象深刻的性能,但由于其固有的复杂性,时间推理仍然是一个挑战。在这项工作中,我们首先研究了时间推理的一个基本任务——时间图生成,以揭示LLMs内在的、全局的推理能力。我们发现,即使是像GPT-3.5/4这样最强大的LLM,在完成这个任务时也面临着巨大的挑战。我们还注意到,小型模型(小于10B)落后LLM 50%的显著性能差距。接下来,我们研究了如何在预算约束下(例如,不使用模型微调)缩小这个差距。我们提出了一种针对时间推理的新提示技术——思维叙事(NoT),它首先将事件集转换为Python类,然后提示一个小模型生成一个时间基础叙事,引导最终生成时间图。大量的实验展示了NoT在提高各种指标方面的有效性。值得注意的是,NoT在Schema-11评估集中实现了最高的F1值,同时其整体F1值与GPT-3.5相当。NoT在整个测试中甚至与GPT-3.5/4相比也实现了最佳的结构相似度。我们的代码可在以下网址获得:https URL。
[2] Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification[cs.CL] 标题:大型语言模型属性控制微调:解毒案例研究 作者:Tao Meng, Ninareh Mehrabi, Palash Goyal, Anil Ramakrishna, Aram Galstyan, Richard Zemel, Kai-Wei Chang, Rahul Gupta, Charith Peris 链接:http://arxiv.org/abs/2410.05559 备注:Accepted to EMNLP Findings 摘要:我们提出了一种用于具有属性控制的细粒度调整大型语言模型(LLM)的约束学习方案。给定一个训练语料库和控制标准,将其作为模型输出的序列级约束,我们的方法在训练语料库上对LLM进行微调,同时以最小的对其实用性和生成质量的负面影响来增强约束的满足度。具体来说,我们通过惩罚目标输出分布与LLM的后验分布之间的KL散度来规范化LLM的训练。这个正则化项可以通过训练一个辅助模型来近似,该辅助模型将序列级约束分解为词汇级指导,使得该项可以通过封闭形式的表达式来衡量。为了进一步提高效率,我们设计了一种并行方案,以同时更新LLM和辅助模型。我们通过在训练LLM时控制毒性来评估我们方法的经验性能。我们表明,我们的方法导致生成的LLM产生了更少的错误响应,同时在基准测试和毒性检测任务上实现了具有竞争力的性能。
[3] Chain and Causal Attention for Efficient Entity Tracking[cs.CL] 标题:链式与因果注意力机制在高效实体跟踪中的应用 作者:Erwan Fagnou, Paul Caillon, Blaise Delattre, Alexandre Allauzen 链接:http://arxiv.org/abs/2410.05565 备注:15 pages, 5 figures, EMNLP 2024 Main 摘要:本文探讨了 Transformer 在大型语言模型中用于实体跟踪任务时的局限性。我们识别出一个理论约束,表明 Transformer 处理具有 个状态变化的实体跟踪需要至少 层。为了解决这个问题,我们提出了一种高效且节约的标准注意力机制增强方案,使其能够更有效地管理长期依赖关系。通过对注意力视为邻接矩阵,我们的模型可以只用一层来跟踪实体状态。实验结果表明,在实体跟踪数据集上取得了显著的改进,同时在标准自然语言模型性能上保持竞争力。我们改进的注意力机制使得我们在显著减少层数的情况下达到相同的性能。此外,我们的增强机制揭示了注意力内部的有序结构化表示。在玩具数据和复杂数据集上的大量实验验证了我们的方法。我们的贡献包括理论见解、改进的注意力机制和实证验证。
[4] Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve?[cs.CL] 标题:大型语言模型中的适应性远征:为什么额外的预训练有时会失败? 作者:Fırat Öncel, Matthias Bethge, Beyza Ermis, Mirco Ravanelli, Cem Subakan, Çağatay Yıldız 链接:http://arxiv.org/abs/2410.05581 备注:Accepted to EMNLP 2024 Main Conference 摘要:在过去十年中,深度学习模型的泛化和适应能力通常在固定的训练和测试分布上进行评估。与传统深度学习不同,大型语言模型(LLMs)有(i)更严重的过参数化,(ii)在没有人类干预的情况下,在从互联网上整理的无标签文本语料库上训练,以及(iii)以在线方式训练。这些鲜明的差异阻碍了研究人员将深度学习场景中关于模型泛化和适应学的经验教训迁移到LLMs。为此,我们的短文介绍了旨在揭示进一步训练预训练语言模型的实证观察。具体来说,我们展示了在某个文本领域上训练模型可能会降低其在同一领域测试部分的困惑度。我们接着观察到,性能下降与LLMs的额外预训练数据集与原始预训练数据集之间的相似性呈正相关。我们进一步在标记级别对困惑度的观察显示,困惑度的降低是由于少数对领域没有信息量的标记。我们希望这些发现能帮助我们确定何时适应模型,何时依赖其基础能力。
[5] Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context Learning[cs.CL] 标题:跨越模态:通过少量样本情境学习提升跨模态仇恨言论检测 作者:Ming Shan Hee, Aditi Kumaresan, Roy Ka-Wei Lee 链接:http://arxiv.org/abs/2410.05600 备注:Accepted at EMNLP'24 (Main)
摘要:互联网上仇恨言论的广泛存在,包括基于文本的推文和视觉语言梗等形式,对数字平台的安全构成了重大挑战。最近的研究已经开发出针对特定模式的检测模型;然而,在跨不同格式传递检测能力方面存在一个显著的差距。本研究通过使用大语言模型的少量样本上下文学习进行了大量实验,以探索仇恨言论检测在不同模态之间的迁移性。我们的发现表明,基于文本的仇恨言论示例可以显著提升视觉语言仇恨言论的分类准确度。此外,基于文本的演示在少量样本学习环境中优于视觉语言演示。这些结果突出了跨模态知识转移的有效性,并为改进仇恨言论检测系统提供了宝贵的见解。
[6] Does RoBERTa Perform Better than BERT in Continual Learning: An Attention Sink Perspective[cs.CL] 标题:RoBERTa在持续学习中是否优于BERT:从注意力汇聚的角度看 作者:Xueying Bai, Yifan Sun, Niranjan Balasubramanian 链接:http://arxiv.org/abs/2410.05648 备注:COLM 2024 摘要:持续学习(CL)旨在训练能够顺序学习新任务而不遗忘以前任务知识的模型。尽管先前的工作观察到预训练有助于CL,但尚不清楚具有更高下游能力的预训练模型在CL中也表现更好。在这篇论文中,我们发现预训练模型可能会给一些“陷落”标记,如[SEP]标记,分配高注意力分数,这些标记在各种任务中都普遍存在。这种注意力陷落可能导致模型在单任务学习中的过度平滑和在顺序任务学习中的干扰,这可能会损害模型尽管拥有高预训练能力,但仍会降低其在CL中的性能。为了减少这些影响,我们提出了一种预缩放机制,该机制鼓励所有标记中的注意力多样性。具体来说,它在探测阶段首先缩放任务的注意力到非陷落标记,然后使用缩放微调模型。实验表明,预缩放在没有经验重放或逐渐存储先前任务的参数的情况下,对CL有显著的提升。
[7] Unlocking the Boundaries of Thought: A Reasoning Granularity Framework to Quantify and Optimize Chain-of-Thought[cs.CL] 标题:解锁思维边界:一种量化和优化思维链粒度框架 作者:Qiguang Chen, Libo Qin, Jiaqi Wang, Jinxuan Zhou, Wanxiang Che 链接:http://arxiv.org/abs/2410.05695 代码:https://github.com/LightChen233/reasoning-granularity 备注:Accepted at NeurIPS2024 (Oral) 摘要:思维链(CoT)推理已成为一种提升大型语言模型(LLMs)在复杂推理任务上性能的有希望方法。最近,一系列研究试图解释CoT背后的机制,旨在加深对其效用的理解。然而,现有研究面临着两大挑战:(1)缺乏定量指标来评估CoT能力,(2)缺乏优化CoT性能的指导。受此启发,在本工作中,我们提出了一种新颖的推理粒度框架(RGF)来解决这些挑战。为了解决量化不足的问题,我们首先定义了推理粒度(RG)来量化CoT的上限,并建立了一个RG的组合法则,使其成为一种适用于各种现实世界CoT任务的实用定量方法。为了解决优化不足的问题,我们提出了三类RG。我们进一步采用专注于RG提升和推理路径优化组合法来优化这些类别,以改善CoT。通过在25个模型和4个任务上进行的广泛实验,本研究验证了所提出框架的存在性和合理性。此外,它还解释了10种CoT策略的有效性,并从两个角度指导了优化。我们希望这项工作可以为LLMs中推理的边界和优化策略提供一个全面的了解。我们的代码和数据可在以下https URL找到。
[8] A Two-Step Approach for Data-Efficient French Pronunciation Learning[cs.CL] 标题:法国发音数据高效学习两步法 作者:Hoyeon Lee, Hyeeun Jang, Jong-Hwan Kim, Jae-Min Kim 链接:http://arxiv.org/abs/2410.05698 备注:Accepted at EMNLP 2024 Main 摘要:近期的研究关注了法国语中的复杂语音现象,要么依赖于广泛的语言学知识,要么依赖大量的句子层面发音数据。然而,创建此类资源昂贵且复杂。为此,我们提出了一种新颖的两步走方法,它涵盖了两个发音任务:字符到音素和后词汇处理。然后,我们使用有限数量的句子层面发音数据来调查该方法的效用。我们的研究发现,所提出的两步走方法有效地缓解了大量标记数据的缺乏,并在资源受限的环境下成为一种可行的解决法国语音现象的方法。
[9] Enhancing Temporal Modeling of Video LLMs via Time Gating[cs.CV] 标题:提升视频LLMs的时序建模通过时间门控 作者:Zi-Yuan Hu, Yiwu Zhong, Shijia Huang, Michael R. Lyu, Liwei Wang 链接:http://arxiv.org/abs/2410.05714 代码:https://github.com/LaVi-Lab/TG-Vid 备注:EMNLP 2024 Findings (Short) 摘要:视频大型语言模型(Video LLMs)在视频与语言任务,如视频问答上取得了令人印象深刻的性能。然而,大多数现有的Video LLMs忽略了视频数据中的时间信息,导致在时间感知视频理解上存在困难。为了解决这个差距,我们提出了一种时间门控视频LLM(TG-Vid),通过一个新颖的时间门控模块(TG)来增强时间建模。TG模块对其子模块采用时间门控机制,包括门控空间注意力、门控时间注意力和门控MLP。这种架构使我们的模型能够在视频中获得对时间信息稳健的理解。对时间敏感的视频基准(即MVBench、TempCompass和NExT-QA)的广泛评估表明,我们的TG-Vid模型显著优于现有的Video LLMs。此外,全面的消融研究表明,性能提升归因于我们TG模块的设计。我们的代码可在以下网址找到:https URL。
[10] Label Confidence Weighted Learning for Target-level Sentence Simplification[cs.CL] 标题:标签置信度加权学习用于目标级句子简化 作者:Xinying Qiu, Jingshen Zhang 链接:http://arxiv.org/abs/2410.05748 备注:Accepted to EMNLP 2024 摘要:多级句子简化生成不同语言水平等级的简化句子。我们提出了标签置信度加权学习(LCWL)这一新颖方法,它将在编码器-解码器模型训练损失中融入标签置信度加权方案,与主要为分类而设计的现有置信度加权方法相区别。在英语年级简化数据集上的实验表明,LCWL优于最先进的无监督基线。在领域内数据上微调LCWL模型并结合对称交叉熵(SCE)能持续地提供比强监督方法更好的简化效果。我们的结果突出了标签置信度加权技术在具有编码器-解码器架构的文本简化任务中的有效性。
[11] Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation[cs.CL] 标题:检索、反思和修改:验证链条可以提高检索增强生成效果 作者:Bolei He, Nuo Chen, Xinran He, Lingyong Yan, Zhenkai Wei, Jinchang Luo, Zhen-Hua Ling 链接:http://arxiv.org/abs/2410.05801 备注:Accepted to EMNLP 2024 Findings. 9 pages, 4 figures, 7 tables 摘要:近期检索增强生成(RAG)旨在通过结合从外部来源检索的大量知识来提升大型语言模型(LLMs)。然而,这种方法面临着一些挑战:首先,原始查询可能不适合精确检索,导致错误的知识背景;其次,由于知识边界限制,语言模型很容易产生与外部参考不一致的答案。为了解决这些问题,我们提出了一种证据链验证(CoV-RAG)方法来增强外部检索的正确性和内部生成的连贯性。具体来说,我们将验证模块集成到RAG中,进行评分、判断和重写。为了纠正外部检索错误,CoV-RAG使用修订后的查询检索新的知识。为了纠正内部生成错误,我们在训练过程中通过思维链(CoT)推理将问答和验证任务统一。我们在各种LLMs上的全面实验表明,与其他强大基线相比,该方法的有效性和适应性。特别是,我们的CoV-RAG可以显著超越使用不同LLM骨干构件的现有最佳基线。
[12] Probing Language Models on Their Knowledge Source[cs.CL] 标题:探测语言模型在其知识来源上 作者:Zineddine Tighidet, Andrea Mogini, Jiali Mei, Benjamin Piwowarski, Patrick Gallinari 链接:http://arxiv.org/abs/2410.05817 备注:Accepted at BlackBoxNLP@EMNLP2024 摘要:大型语言模型(LLMs)在内部学习知识(参数知识,PK)与推理过程中提供的外部知识(上下文知识,CK)之间经常出现冲突。理解LLMs如何优先选择一种知识源而非另一种知识源仍然是一个挑战。在本文中,我们提出了一种新的探查框架来探究LLMs中左右PK和CK选择机制的原理。使用旨在与模型PK相矛盾的受控提示,我们证明特定的模型激活可以表明使用的知识源。我们在各种大小不同的LLMs上评估了该框架,并展示出中间层的激活,尤其是与输入中关系相关的激活,对于预测知识源选择至关重要,为更可靠、能有效处理知识冲突的模型打开了道路。
[13] Communicating with Speakers and Listeners of Different Pragmatic Levels[cs.CL] 标题:与不同语用水平的说话者和听众沟通 作者:Kata Naszadi, Frans A. Oliehoek, Christof Monz 链接:http://arxiv.org/abs/2410.05851 备注:EMNLP 2024 main 摘要:本文通过模拟具有不同推理能力水平的说话者和听者在语言学习和对话过程中的相互作用,探讨了变量语用能力对沟通成功的影响。通过研究这种互动,我们假设,在沟通伙伴之间匹配推理水平将创造一个更有利于沟通成功和语言学习的环境。我们的研究结果表明,无论学习者的语用能力水平如何,从更明确、字面意义上的语言中学习都是有利的。此外,我们发现,在学习过程中整合语用推理,而不仅仅是评价时,可以显著提高整体沟通表现。本文提供了关于对齐推理水平以及将语用推理融入优化沟通互动中重要性的关键见解。
[14] Automatic Summarization of Long Documents[cs.CL] 标题:自动长文档摘要 作者:Naman Chhibbar, Jugal Kalita 链接:http://arxiv.org/abs/2410.05903 备注:9 pages (including bibliography) with 6 figures. ACL 2023 proceedings format 摘要:每天互联网上都会添加大量的文本数据,使得此类数据的利用和解读变得困难且繁琐。因此,自动文本摘要是提取相关信息、节省宝贵阅读时间的关键。尽管许多基于_transformer_的模型在文本摘要方面表现卓越,但它们受限于输入大小,阻止了它们处理比其上下文字符长度更长的文本。本研究介绍了三种新颖的算法,允许任何大型语言模型有效地克服其输入大小限制,充分发挥其全部潜力而无需任何架构修改。我们在超过7万单词的文本上测试了我们的算法,实验结果表明BERTScore有显著提升,ROUGE分数也具有竞争力。
[15] Can Language Models Induce Grammatical Knowledge from Indirect Evidence?[cs.CL] 标题:语言模型能否从间接证据中推导出语法知识? 作者:Miyu Oba, Yohei Oseki, Akiyo Fukatsu, Akari Haga, Hiroki Ouchi, Taro Watanabe, Saku Sugawara 链接:http://arxiv.org/abs/2410.06022 备注:This paper is accepted at EMNLP 2024 Main 摘要:研究了语言模型需要何种类型和多少数据才能推断语法知识来评判句子的可接受性。与人类相比,近期语言模型在数据效率上仍有很大的提升空间。本文探讨了语言模型是否能高效地利用间接数据(间接证据)来推断句子的可接受性。相比之下,人类能够高效地利用间接证据,这被认为是导致高效语言习得的一种归纳偏向。为了探讨这个问题,我们引入了Wug InDirect Evidence Test(WIDET),一个包含训练实例和评估实例的数据集。我们将在预训练数据中注入合成实例,其中包含新创的wug词,并探讨模型在评估这些词汇语法可接受性的数据上的行为。我们通过改变它们的间接性和数量来准备注入的实例。我们的实验出人意料地发现,即使在重复接触相同结构但词汇物品与评估实例不同的是某些语言现象的情况下,语言模型并不能推断出语法知识。我们的研究结果表明了未来研究的潜在方向:开发能够利用潜在间接证据来推断语法知识的人工智能模型。
[16] TOWER: Tree Organized Weighting for Evaluating Complex Instructions[cs.CL] 标题:塔:评估复杂指令的树形组织加权 作者:Noah Ziems, Zhihan Zhang, Meng Jiang 链接:http://arxiv.org/abs/2410.06089 备注:Accepted to EMNLP 2024
摘要:评估大型语言模型(LLMs)遵循复杂人撰写指令的能力对于它们在实际应用中的部署至关重要。尽管如Chatbot Arena等基准测试使用人类评判员来评估模型性能,但它们资源密集且耗时。使用LLMs作为评判员的替代方法,如AlpacaEval、MT Bench、WildBench和InFoBench,虽然提供了一些改进,但仍然无法捕捉到某些复杂指令的某些方面比对其他方面遵循更重要。为了解决这个差距,我们提出了一种新的评估指标,TOWER,它将人类评判的重要性纳入对复杂指令遵循的评估中。我们展示了人类标注员对复杂指令的树形表示与他人标注员的观点基本一致。我们发布了InFoBench数据集的树形标注和相应的评估代码,以促进未来的研究。
[17] Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA[cs.CL] 标题:少即是多:让小型语言模型成为多跳知识图谱问答的Competent Subgraph Retriever 作者:Wenyu Huang, Guancheng Zhou, Hongru Wang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan 链接:http://arxiv.org/abs/2410.06121 备注:Accepted by EMNLP 2024 Findings 摘要:检索增强生成(RAG)被广泛用于将非参数知识注入大型语言模型(LLM)。最近的研究表明,知识图谱(KG)包含对LLM有价值的知识。从KG中检索信息与从文档集中提取信息不同。现有的大多数方法寻求直接检索相关子图,从而消除了语义解析方法通常需要的广泛SPARQL标注的需求。在本文中,我们将子图检索任务建模为一个小型语言模型处理的有条件生成任务。具体来说,我们将子图标识符定义为一系列关系,每个关系都被表示为存储在语言模型中的一个特殊标记。我们的基本生成子图检索模型,仅包含2200万个参数,在检索性能上与依赖于70亿参数的先进模型相当,证明了小型语言模型能够执行子图检索任务。此外,我们的最大的30亿参数模型,当连接一个LLM读者时,在WebQSP和CWQ基准测试上设定了新的SOTA端到端性能。我们的模型和数据将公开在线提供:请访问此https URL。
[18] The Mystery of Compositional Generalization in Graph-based Generative Commonsense Reasoning[cs.CL] 标题:图神经网络生成常识推理中组合泛化之谜 作者:Xiyan Fu, Anette Frank 链接:http://arxiv.org/abs/2410.06272 备注:Accepted Findings at EMNLP 2024 摘要:尽管LLMs已成为推理任务的性能架构,但其组合泛化能力受到了质疑。在这项工作中,我们介绍了用于图基础常识推理的组合泛化挑战(CGGC),它超越了基于序列或树结构的前期评估——而是包括一个推理图:它要求模型根据给定的概念和相应的推理图生成一个自然句子,其中呈现的图包含了一种以前未见过的关系类型组合。为了掌握这个挑战,模型需要学习如何在图中推理关系元组,以及如何在概念化描述时组合它们。我们使用情景学习评估了七个著名的LLMs,并发现性能良好的LLMs在组合泛化方面仍然存在困难。我们通过分析推理图的排序,探讨了这种差距的潜在原因,发现不同的结构在组合泛化上呈现不同的难度。按照结构困难程度对演示进行排序显示,按照由易到难的顺序组织样本可以提高LLMs的组合泛化能力。
[19] Auto-Evolve: Enhancing Large Language Model's Performance via Self-Reasoning Framework[cs.CL] 标题:自动进化:通过自我推理框架提升大型语言模型的性能 作者:Krishna Aswani, Huilin Lu, Pranav Patankar, Priya Dhalwani, Iris Tan, Jayant Ganeshmohan, Simon Lacasse 链接:http://arxiv.org/abs/2410.06328 备注:Accepted at EMNLP 2024 摘要:近期在提示工程策略方面取得了进步,如思维链(CoT)和自我发现,这些策略在提升大型语言模型(LLMs)的推理能力方面展现出巨大潜力。然而,这些最先进(SOTA)的提示策略依赖于诸如“逐步思考”或“分解这个问题”之类的静态种子推理模块,旨在模拟人类的解决问题方法。这种限制性限制了模型在有效处理各种问题时所需的灵活性。在本文中,我们引入了Auto-Evolve,这是一个新颖的框架,它使LLMs能够自我创建动态推理模块和下游行动计划,在提升当前SOTA方法方面取得了显著进步。我们在BigBench-Hard(BBH)数据集上使用Claude 2.0、Claude 3 Sonnet、Mistral Large和GPT 4对Auto-Evolve进行了评估,其中它始终优于SOTA提示策略。Auto-Evolve在这些四个模型中比CoT提高了高达10.4%,平均提高了7%。我们的框架引入了两项创新:a) Auto-Evolve在每个任务中动态生成推理模块,同时与人类推理范式保持一致,从而消除了预设模板的需求。b) 我们引入了一个迭代优化组件,它逐步优化LLMs的指令指导,与单步执行相比,平均提高了2.8%的绩效。
[20] MLissard: Multilingual Long and Simple Sequential Reasoning Benchmarks[cs.CL] 标题:MLissard:多语言长且简单的序列推理基准 作者:Mirelle Bueno, Roberto Lotufo, Rodrigo Nogueira 链接:http://arxiv.org/abs/2410.06396 代码:https://github.com/unicamp-dl/Lissard 备注:GenBench Workshop by EMNLP 2024: Camera-ready version 摘要:语言模型现在能够解决需要处理包含数十万个标记的长序列的任务。然而,它们在需要重复使用简单规则的任务上往往失败,即使是在比训练中看到的序列短得多的序列上也如此。例如,最先进的LLM(大型语言模型)可以在包含最多20个项目的两个列表中找到常见项目,但列表有80个项目时就会失败。在本论文中,我们介绍了MLissard,这是一个多语言基准,旨在评估模型处理和生成不同长度文本的能力,并提供了一种控制序列复杂性的机制。我们评估了开源和专有模型,结果显示,随着序列复杂度的增加,所有模型和语言的性能都持续下降。令人惊讶的是,在除英语之外的语言中使用上下文示例有助于显著提高外推性能。数据集和代码可通过此https URL获取。
[21] ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments[cs.CV] 标题:ERVQA:用于评估大型视觉语言模型在医院环境中准备程度的语料库 作者:Sourjyadip Ray, Kushal Gupta, Soumi Kundu, Payal Arvind Kasat, Somak Aditya, Pawan Goyal 链接:http://arxiv.org/abs/2410.06420 备注:Accepted at EMNLP 2024 摘要:全球医疗工作者短缺的需求推动了智能医疗助理的开发,这类助理能在必要时帮助监测并警告医疗工作者。我们通过在医院环境中进行专家标注的开放式问题的视觉问答(VQA)任务,考察了现有大型视觉语言模型(LVLMs)的医疗知识。我们介绍了急诊室视觉问答(ERVQA)数据集,它由包含不同急诊室场景的三元组组成,是LVLMs的一个重要基准。通过建立一个详细的错误分类法和分析答案趋势,我们揭示了任务的复杂性。我们使用传统和改进的VQA指标:蕴含度评分和CLIPScore置信度,对最先进的开源和闭源LVLMs进行了基准测试。通过分析模型间的错误,我们根据解码器类型、模型大小以及在上下文中的示例等属性推断出趋势。我们的研究结果表明,ERVQA数据集呈现出高度复杂的特点,突显了需要具有专门性和领域针对性的解决方案。
[22] LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints[cs.CL] 标题:基于DeCRIM的LLM自我纠正:分解、批判和精炼以增强满足多约束指令的遵循 作者:Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng 链接:http://arxiv.org/abs/2410.06458 备注:To appear at EMNLP 2024 摘要:遵循指令是大型语言模型的关键能力。然而,最近的研究表明,LLMs在处理包含多个约束条件(例如,创建一个“以幽默口吻”的社交媒体帖子“不加任何话题标签”)的指令时经常出现困难。尽管如此,大多数评估仅仅关注合成数据。为了解决这个问题,我们引入了RealInstruct,这是第一个旨在通过利用真实用户向人工智能助手提出的问题来评估LLMs遵循现实世界中多约束指令能力的人工智能基准测试。我们还调查了基于模型的评估作为这项任务中成本效益高的人工作业替代方法。我们的发现显示,即使是专有的GPT-4模型也无法在超过21%的指令上满足至少一个约束,这突显了最先进模型的局限。为了解决开源模型和专有模型之间的性能差距,我们提出了一个自我纠正的Decompose, Critique and Refine(DeCRIM)流水线,该流水线增强了LLMs遵循约束的能力。DeCRIM通过将原始指令分解成一系列约束,并使用一个批评模型来决定何时何地需要细化LLMs的回答来实现其功能。我们的结果表明,即使只有弱反馈,DeCRIM也能将Mistral在RealInstruct上的性能提高7.3%,在IFEval上提高8.0%。此外,我们展示了当提供强反馈时,带有DeCRIM的开源LLMs可以在这两个基准测试上优于GPT-4。
[23] On the Similarity of Circuits across Languages: a Case Study on the Subject-verb Agreement Task[cs.CL] 标题:电路跨语言相似性:动词一致任务案例分析 作者:Javier Ferrando, Marta R.Costa-jussà 链接:http://arxiv.org/abs/2410.06496 备注:Accepted at EMNLP 2024 Findings 摘要:最近,一些语言模型中实现的算法已成功被逆向工程。然而,这些发现集中在特定的任务和模型上,未能明确不同设置下通用电路的普遍性。在本文中,我们研究了Gemma 2B在解决两种不同语言(英语和西班牙语)的主谓一致任务时实施的电路。我们发现,这两个电路高度一致,主要由一个特定的注意力头将一个“主语数量”信号写入最后的残差流,这个信号被一小部分神经元在最终的MLPs中读取。值得注意的是,这个主语数量信号在残差流空间中表现为一个方向,且与语言无关。我们证明了这个方向对模型预测有因果影响,通过干预在英语中找到的方向,有效地翻转了西班牙语预测的动词数量。最后,我们展示了Gemma 1和Gemma 2系列内其他模型的类似行为。
[24] SEGMENT+: Long Text Processing with Short-Context Language Models[cs.CL] 标题:SEGMENT+:利用短上下文语言模型处理长文本 作者:Wei Shi, Shuang Li, Kerun Yu, Jinglei Chen, Zujie Liang, Xinhui Wu, Yuxi Qian, Feng Wei, Bo Zheng, Jiaqing Liang, Jiangjie Chen, Yanghua Xiao 链接:http://arxiv.org/abs/2410.06519 备注:EMNLP 2024 摘要:对扩展语言模型(LMs)在各领域输入容量的兴趣不断增长。然而,仅仅增加上下文窗口并不能保证在诸如理解大量文档和从长且嘈杂的数据中提取详细信息等多样化长输入处理任务中表现出稳健的性能。为此,我们提出了一种通用的框架 SEGMENT+,它允许语言模型在有限的上下文窗口内高效地处理扩展输入。SEGMENT+利用结构化笔记和筛选模块来管理信息流,从而构建出既可控制又可解释的系统。我们进行了广泛的实验,针对各种模型大小,重点关注长文档问答和“大海捞针”任务,证明了SEGMENT+在提高性能方面的有效性。
[25] Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA[cs.CL] 标题:伟大的思想是否相同?探究CAIMIRA在问答中的人机协同 作者:Maharshi Gor, Hal Daumé III, Tianyi Zhou, Jordan Boyd-Graber 链接:http://arxiv.org/abs/2410.06524 备注:To appear at EMNLP 2024 (Main) 摘要:近期大型语言模型(LLMs)的进步引发了AI在自然语言处理(NLP)任务如文本理解和推理等方面超越人类的说法。本研究通过引入基于项目反应理论(IRT)的创新框架CAIMIRA,对这些说法进行了调查,CAIMIRA能够对问答(QA)代理的问题解决能力进行定量评估和比较:人类和AI系统。通过对成千上万个问题中约70个AI系统和155名人类的300,000多条回答进行分析,CAIMIRA揭示了在知识领域和推理技能方面的不同熟练模式。人类在知识背景下的演绎推理和概念推理上优于AI系统,而GPT-4和LLaMA等最先进的LLMs在目标信息检索和基于事实的推理上表现出色,尤其是在信息差距清晰且可通过模式匹配或数据检索解决的情况下。这些发现强调,未来的QA任务需要关注挑战不仅包括高层次推理和科学思维,还要求细微的语言解释和跨情境知识应用的问题,有助于推进更好的模拟或补充人类认知能力,以在现实世界问题解决中取得进展。
[26] TuringQ: Benchmarking AI Comprehension in Theory of Computation[cs.CL] 标题:TuringQ:计算理论中人工智能理解的基准测试 作者:Pardis Sadat Zahraei, Ehsaneddin Asgari 链接:http://arxiv.org/abs/2410.06547 备注:Accepted to EMNLP Findings 2024 摘要:我们提出了TuringQ,这是首个旨在评估大语言模型(LLM)在计算理论领域中推理能力的基准测试。TuringQ包含了4,006个本科生和研究生级别的问答对,分为四个难度等级,覆盖了七个核心理论领域。我们使用思维链提示和专家人工评估对几个开源LLM以及GPT-4进行了评估。此外,我们还提出了一种基于LLM的自动化评估系统,与人工评估相比,它表现出了具有竞争力的准确率。在TuringQ上微调了一个Llama3-8B模型,显示出在推理能力以及代数等跨领域任务方面的可测量改进。TuringQ既可以作为基准测试,也可以作为资源,用于提高LLM在复杂计算推理任务中的性能。我们的分析为LLM的能力以及人工智能对理论计算机科学的理解进步提供了见解。
[27] The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models[cs.CL] 标题:RLHF中的准确性悖论:更好的奖励模型不一定产生更好的语言模型 作者:Yanjun Chen, Dawei Zhu, Yirong Sun, Xinghao Chen, Wei Zhang, Xiaoyu Shen 链接:http://arxiv.org/abs/2410.06554 代码:https://github.com/EIT-NLP/AccuracyParadox-RLHF 备注:10 pages, 27 figures (including 18 in the appendix), submitted to EMNLP 2024 摘要:强化学习从人类反馈中显著提升了自然语言处理能力,通过使语言模型与人类期望相一致。在这一对齐过程中,训练过程中使用的奖励模型的强度是一个关键因素。本研究探讨了更强的奖励模型是否总是导致更优的语言模型。在本文中,通过对QA-FEEDBACK数据集中相关度、真实性及完整性任务进行实验,并使用基于Longformer的奖励模型,我们发现了一个令人惊讶的悖论:使用中等准确度奖励模型训练的语言模型,其表现优于那些由高度准确奖励模型引导的模型。这挑战了广为接受的观念,即更强的奖励模型总能导致更好的语言模型,并为未来关于驱动模型性能的关键因素以及如何选择最合适的奖励模型的研究开辟了新的路径。代码和详细信息可供在[此 https URL](this https URL)获取。
[28] Dissecting Fine-Tuning Unlearning in Large Language Models[cs.CL] 标题:解析大型语言模型中的微调知识遗忘 作者:Yihuai Hong, Yuelin Zou, Lijie Hu, Ziqian Zeng, Di Wang, Haiqin Yang 链接:http://arxiv.org/abs/2410.06606 代码:https://github.com/yihuaihong/Dissecting-FT-Unlearning 备注:Accepted in EMNLP 2024 Main (Short paper) 摘要:基于微调的忘记学习方法在防止大型语言模型中包含有针对性的有害、敏感或受版权保护的文件时,保持了整体能力。然而,这些方法的真实有效性尚不明确。在本文中,我们通过对激活补丁和参数恢复实验深入了解基于微调的忘记学习方法的局限性。我们的发现表明,这些方法改变了模型的知识检索过程,而不是真正删除嵌入在模型参数中的问题知识。此外,行为测试表明,忘记学习机制不可避免地影响模型的全球行为,影响无关的知识或能力。我们的工作倡导开发更顽强的忘记学习技术,以真正删除知识。我们的代码已发布在以下https URL。
[29] Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles[cs.CV] 标题:弱评-强调整:使用情境谜题评估和激发大型语言模型的横向思维 作者:Qi Chen, Bowen Zhang, Gang Wang, Qi Wu 链接:http://arxiv.org/abs/2410.06733 代码:https://github.com/chenqi008/LateralThinking 备注:Accepted by NeurIPS 2024 摘要:尽管自然语言处理(NLP)的进步显著提高了大语言模型(LLMs)在需要垂直思维的任务上的表现,但它们横向思维的能力仍被低估并难以衡量,这归因于评估创造性思维过程的复杂性和相关数据的稀缺。为了解决这些挑战,我们介绍了SPLAT,这是一个利用情景谜题来评估和激励LLMs横向思维的基准。这个基准包含975个按难度分为三个级别的分级情景谜题,采用了一种新的多轮玩家-评委框架,而不是传统的基于模型的评估,后者通常需要更强的评估模型。该框架模拟了一个交互游戏,其中模型(玩家)就一个不完整的剧情向评估模型(评委)提问,以推断整个场景。评委根据详细的参考情景或评估玩家预测是否与参考情景一致。这种方法减少了对外更强评估模型的依赖,使得能够评估最先进的LLMs。实验表明,像WizardLM-2这样的鲁棒评估模型在中间问题回答和最终场景准确性方面与人类判断非常接近,达到超过80%的一致性,这与人类之间的一致性水平相似。此外,将我们的基准中的数据和推理过程应用于其他横向思维相关基准,例如RiddleSense和BrainTeaser,可以带来性能提升。这表明我们的基准有效地评估和激发了LLMs的横向思维能力。代码可在以下网址获取:this https URL。
[30] CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models[cs.CL] 标题:CoBa:大语言模型多任务微调的收敛均衡器 作者:Zi Gong, Hang Yu, Cong Liao, Bingchang Liu, Chaoyu Chen, Jianguo Li 链接:http://arxiv.org/abs/2410.06741 代码:https://github.com/codefuse-ai/MFTCoder 备注:15 pages, main conference of EMNLP 2024 摘要:多任务学习(MTL)通过向单个模型提供提高的任务性能和泛化能力,在任务之间呈现出一个资源高效的替代方案,从而促进了大型语言模型(LLMs)的微调。然而,现有的LLM多任务学习策略要么计算成本高,要么未能确保同时任务收敛。本文提出了CoBa,一种新的多任务学习方法,旨在以最小的计算开销有效地管理任务收敛平衡。利用相对收敛分数(RCS)、绝对收敛分数(ACS)和分离因子(DF),CoBa在训练过程中动态调整任务权重,确保所有任务的验证损失以均衡的步伐趋于收敛,同时减轻了单个任务分离的问题。我们涉及三个不同数据集的实验结果强调了这种方法不仅促进了任务改进的均衡,而且相较于第二优基准,提升了LLMs的性能高达13%。代码已在如下https URL开源。
[31] To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language Models[cs.CV] 标题:为了保存还是压缩:多模态大型语言模型中连接器选择深入研究 作者:Junyan Lin, Haoran Chen, Dawei Zhu, Xiaoyu Shen 链接:http://arxiv.org/abs/2410.06765 备注:Accepted to EMNLP 2024 Main Conference 摘要:近年来,多模态大语言模型(MLLMs)受到了工业界和学术界的高度关注。然而,在构建MLLM架构方面,尤其是关于不同粒度感知任务中选择适当的连接器方面,仍存在着相当大的争议。本文系统地研究了连接器对MLLM性能的影响。具体而言,我们将连接器分为特征保留型和特征压缩型。利用统一的分类标准,我们将来自三个全面基准MMBench、MME和SEED-Bench的子任务分为三种任务类型:粗粒度感知、细粒度感知和推理,并对其性能进行了评估。我们的研究发现,特征保留型连接器在细粒度感知任务中表现优异,这得益于它们能够保留详细的视觉信息。相反,特征压缩型连接器在细粒度感知任务中的效果较差,但在速度上具有显著优势,在粗粒度感知和推理任务中的表现与特征保留型连接器相当。这些发现对于指导MLLM架构设计以及推动MLLM架构的优化至关重要。
[32] Seg2Act: Global Context-aware Action Generation for Document Logical Structuring[cs.CL] 标题:文档逻辑结构化中的全局上下文感知动作生成:Seg2Act 作者:Zichao Li, Shaojie He, Meng Liao, Xuanang Chen, Yaojie Lu, Hongyu Lin, Yanxiong Lu, Xianpei Han, Le Sun 链接:http://arxiv.org/abs/2410.06802 备注:Accepted by EMNLP 2024 Main Conference 摘要:文档逻辑结构旨在提取文档中潜在的事务层次结构,这对于文档智能至关重要。传统方法在处理长篇幅文档的复杂性和差异性方面往往不足。为解决这些问题,我们提出了Seg2Act,这是一种端到端、基于生成方法的文档逻辑结构化方法,将逻辑结构提取重新视为一个动作生成任务。具体来说,给定文档的文本片段,Seg2Act通过一个全局上下文感知的生成模型迭代生成动作序列,同时根据生成的动作更新其全局上下文和当前的逻辑结构。在ChCatExt和HierDoc数据集上的实验证明了Seg2Act在监督学习和迁移学习设置中的优越性能。
[33] FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding[cs.CL] 标题:FltLM:一个用于有效上下文过滤与理解的综合长上下文大语言模型 作者:Jingyang Deng, Zhengyang Shen, Boyang Wang, Lixin Su, Suqi Cheng, Ying Nie, Junfeng Wang, Dawei Yin, Jinwen Ma 链接:http://arxiv.org/abs/2410.06886 备注:Accepted by the 27th European Conference on Artificial Intelligence (ECAI-2024), this is the full version of the paper including technical appendices. This final version features enhanced formatting and corrections to errors present in other online versions. We regret any inconvenience this may have caused our readers 摘要:长语境大型语言模型(LLMs)的发展显著推动了自然语言处理的进步,通过简化文本数据在长文档和多个语料库间的处理过程。然而,长语境LLMs仍面临两个关键挑战:中间丢失现象,即关键中间语境信息可能被忽略,以及由于语境过于冗长导致模型失去重点的干扰问题。为应对这些挑战,我们提出了上下文过滤语言模型(FltLM),这是一种创新性的集成长语境LLMs,增强了模型在多文档问答(QA)任务上的能力。具体来说,FltLM创新性地结合了上下文过滤器和软掩码机制,识别并动态排除无关内容,以集中关注相关信息,从而提高理解和推理能力。我们的方法不仅缓解了这两个挑战,还使模型能够在单次前向传递中方便地运行。实验结果表明,FltLM在复杂的QA场景中显著优于监督微调和基于检索的方法,为更加准确和可靠的长语境自然语言理解应用提供了一个有希望的解决方案。
[34] CSSL: Contrastive Self-Supervised Learning for Dependency Parsing on Relatively Free Word Ordered and Morphologically Rich Low Resource Languages[cs.CL] 标题:相对自由词序和多形态低资源语言上的对比自监督依赖解析 作者:Pretam Ray, Jivnesh Sandhan, Amrith Krishna, Pawan Goyal 链接:http://arxiv.org/abs/2410.06944 备注:Accepted at EMNLP 2024 Main (Short), 9 pages, 3 figures, 4 Tables 摘要:神经依存句法在低资源形态丰富的语言中取得了显著的性能。已有研究表明,形态丰富的语言表现出相对自由的语序。这促使我们进行根本性的研究:是否存在一种方法可以增强依存句法分析的性能,使模型对词序变化具有鲁棒性,利用形态丰富语言相对自由的语序性质?在本研究中,我们检验了基于图的解析架构在7种相对自由词序语言上的鲁棒性。我们专注于审查关键修改,如数据增强和移除位置编码,以相应地适应这些架构。为此,我们提出了一种对比自监督学习方法,使模型能够对词序变化具有较高的鲁棒性。此外,我们提出的修改方案在7种相对自由词序语言中,通过UAS/LAS分数度量与最佳性能基线相比,实现了显著的平均增益,分别为3.03/2.95个点。
[36] Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing[cs.CL] 标题:减轻基于大型语言模型机器翻译中的语言不匹配和重复问题通过模型编辑 作者:Weichuan Wang, Zhaoyi Li, Defu Lian, Chen Ma, Linqi Song, Ying Wei 链接:http://arxiv.org/abs/2410.07054 备注:20 pages, EMNLP'2024 Main Conference 摘要:大型语言模型(LLMs)近期彻底改变了自然语言处理(NLP)领域,尽管它们在某些具体的下游任务中仍有不足。本研究专注于利用LLMs进行机器翻译,并观察到两种错误模式经常出现,严重影响了翻译质量:语言不匹配和重复。本研究旨在探索通过利用模型编辑方法缓解这两类问题的可能性,例如通过定位导致错误的正向网络(FFN)神经元或其他因素,并在推理时间中使其失效。我们发现直接应用这些方法要么对目标错误的影响有限,要么对总体翻译质量有显著的负面影响,这表明所定位的组件对于确保LLMs在机器翻译中保持稳定也可能至关重要。为此,我们提出通过在不同语言设置下获取定位结果的交集,筛选掉与目标错误无关的信息来细化这些定位组件。实验结果实证表明,我们的方法可以有效降低语言不匹配和重复的比例,同时在大多数情况下提升或保持总体翻译质量。
[37] Taking a turn for the better: Conversation redirection throughout the course of mental-health therapy[cs.CL] 标题:转换向好的方向:心理治疗过程中的对话引导 作者:Vivian Nguyen, Sang Min Jung, Lillian Lee, Thomas D. Hull, Cristian Danescu-Niculescu-Mizil 链接:http://arxiv.org/abs/2410.07147 代码:https://convokit.cornell.edu 备注:To appear in the Proceedings of EMNLP (Findings) 2024. Code available at this https URL 摘要:心理健康治疗涉及一个复杂的对话流程,其中患者和治疗师不断协商接下来应该讨论什么内容。例如,治疗师可能会尝试改变对话的方向,以保持治疗进程顺利并避免停滞,或者患者可能会推动讨论朝着他们希望关注的议题进行。这样的患者和治疗师调整如何与他们的关系发展和质量相关?为了回答这个问题,我们引入了一个概率性指标,以衡量某种话语立即改变对话流向的程度,同时考虑这种变化的意图和实际实现。我们将这一新指标应用于描述在一个大型、广泛使用的在线治疗平台上,患者-治疗师关系在多次会话中的发展。我们的分析揭示了如下两点:(1)随着关系的进展,患者控制对话方向的程度通常相对于治疗师来说会逐渐增加;(2)在前几次会话中控制力较弱的患者最终表达对治疗师不满并结束关系的情况更为显著。
[38] Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making[cs.CL] 标题:具身代理界面:对具身决策中大型语言模型的基准评测 作者:Manling Li, Shiyu Zhao, Qineng Wang, Kangrui Wang, Yu Zhou, Sanjana Srivastava, Cem Gokmen, Tony Lee, Li Erran Li, Ruohan Zhang, Weiyu Liu, Percy Liang, Li Fei-Fei, Jiayuan Mao, Jiajun Wu 链接:http://arxiv.org/abs/2410.07166 备注:Accepted for oral presentation at NeurIPS 2024 in the Datasets and Benchmarks track 摘要:我们旨在评估大型语言模型(LLMs)在具身决策中的应用。尽管大量研究利用LLMs在具身环境中进行决策,但由于它们通常应用于不同的领域、目的,以及基于不同的输入和输出构建,我们仍然缺乏对这些模型性能的系统理解。此外,现有的评估往往仅依赖于最后的成功率,这使得难以确定LLMs中缺失哪些能力以及问题的根源所在,这反过来又阻碍了具身代理有效和选择性地利用LLMs。为了解决这些局限性,我们提出一个通用接口(具身代理接口),支持对各种类型任务和基于LLM模块的输入输出规范进行形式化。具体来说,它允许我们将以下内容统一:1)涉及状态和具有时间延续目标的大量具身决策任务,2)四种常用的基于LLM的决策模块:目标解释、子目标分解、动作排序和转换建模,以及3)一系列细分度高的指标,将这些指标分解为各种类型的错误,如幻觉错误、可操作错误、各种类型的规划错误等。总的来说,我们的基准测试为LLMs在不同子任务中的性能提供了全面评估,指出了LLM驱动的具身人工智能系统中的优势和劣势,并提供了有效和选择性地使用LLMs在具身决策中的见解。