[0] SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation[cs.CV] 标题:SAM4MLLM:增强多模态大型语言模型以用于指代表达式分割 作者:Yi-Chia Chen, Wei-Hua Li, Cheng Sun, Yu-Chiang Frank Wang, Chu-Song Chen 链接:http://arxiv.org/abs/2409.10542 摘要:我们引入了一种创新方法SAM4MLLM,该方法将Segment Anything Model(SAM)与多模态大型语言模型(MLLMs)相结合,以实现像素级任务。我们的方法使MLLMs能够在不进行过多修改现有模型架构或添加专用标记的情况下学习像素级位置信息。我们提出了一种基于查询的方法,能有效找出SAM进行基于MLLM的分割的提示点。该方法将详细的视觉信息与大型语言模型强大的表达能力以统一的语言方式结合,而无需额外的学习计算开销。在公开基准上的实验结果表明,我们的方法具有有效性。 备注:ECCV 2024
[1] Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection[cs.CV] 标题:通过幻觉早期检测优化扩散模型中的资源消耗 作者:Federico Betti, Lorenzo Baraldi, Lorenzo Baraldi, Rita Cucchiara, Nicu Sebe 链接:http://arxiv.org/abs/2409.10597 摘要:扩散模型在生成式人工智能方面取得了显著进展,但在生成多个对象复杂组合时遇到了困难。由于最终结果高度依赖于初始种子,准确确保所需的输出可能需要生成过程的多次迭代。这种重复不仅导致时间的浪费,还增加了能耗,呼应了复杂生成任务中的效率和精度的挑战。为了解决这个问题,我们引入了HEaD(幻觉早期检测),这是一种旨在在扩散过程一开始迅速检测不正确生成的新的范式。HEaD流程结合了跨注意力图与新的指示器——预测最终图像,通过利用生成过程早期阶段的信息来预测最终结果。我们证明使用HEaD可以节省计算资源并加速生成过程以获得完整图像(即准确描绘所有请求对象的照片)。我们的研究结果表明,在两个对象的场景中,HEaD可以节省高达12%的生成时间,并强调了早期检测机制在生成模型中的重要性。 备注:Accepted at ECCV Workshop 2024
[3] AMEGO: Active Memory from long EGOcentric videos[cs.CV] 标题:AMEGO:来自长自我中心视频的主动记忆 作者:Gabriele Goletto, Tushar Nagarajan, Giuseppe Averta, Dima Damen 链接:http://arxiv.org/abs/2409.10917 摘要:自我中心视频为个人日常经验提供了独特的视角,但它们未结构化的特性给感知带来了挑战。在本文中,我们介绍了一种旨在增强超长自我中心视频理解能力的新方法——AMEGO。受到人类从单次观看中维持信息的能力的启发,AMEGO专注于从一个自我中心视频中构建一个自包含的表示,捕捉关键位置和物体交互。这种表示不包含语义信息,并且无需重新处理整个视觉内容即可方便地进行多次查询。此外,为了评估我们对超长自我中心视频的理解能力,我们引入了新的主动记忆基准(AMB),它由超过20K个来自EPIC-KITCHENS的极具挑战性的视觉查询组成。这些查询涵盖了不同级别的视频推理(排序、并发和时序定位),以评估详细的视频理解能力。我们展示了AMEGO在AMB上的改进性能,显著超越了其他视频问答基准。 备注:Accepted to ECCV 2024. Project webpage: this https URL
[4] KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph[cs.CV] 标题:KALE:一种异构图增强的 artwork 图像标题生成系统 作者:Yanbei Jiang, Krista A. Ehinger, Jey Han Lau 链接:http://arxiv.org/abs/2409.10921 摘要:探索由精细艺术品绘画所传达的叙事是图像标题中的挑战,其目标不仅是精确地代表视觉内容,而且还提供对艺术品含义的深度阐释。对于艺术品图像,由于它们的多元解读和不同艺术流派及风格中的不同审美原则,这项任务尤为复杂。作为对此问题的回应,我们提出了KALE(知识增强艺术作品阐释)模型,这是一种新颖的方法,它通过整合艺术品元数据作为额外知识来增强现有的视觉-语言模型。KALE以两种方式合并元数据:首先作为直接文本输入,其次通过一个多模态异构知识图谱。为了优化图表示的学习,我们引入了一种新的跨模态对齐损失,以最大化图像与其对应元数据之间的相似性。实验结果表明,KALE在多个艺术品数据集上实现了相对于现有最先进工作的强劲表现(特别是当使用CIDEr进行评估时)。项目源代码可在以下https URL获得。 代码:https://github.com/Yanbei-Jiang/Artwork-Interpretation 备注:Accepted at IJCAI 2024
[5] Versatile Incremental Learning: Towards Class and Domain-Agnostic Incremental Learning[cs.CV] 标题:多用途增量学习:朝着类和领域无关的增量学习迈进 作者:Min-Yeong Park, Jae-Ho Lee, Gyeong-Moon Park 链接:http://arxiv.org/abs/2409.10956 摘要:增量学习(IL)旨在从按顺序输入的任务中积累知识,同时克服灾难性遗忘。现有的IL方法通常假设新进入的任务只有类或域的增量,分别称为类增量学习(CIL)或域增量学习(DIL)。在这项工作中,我们考虑了一个更具挑战性和现实性但尚未充分探索的IL场景,称为多用途增量学习(VIL),其中模型对哪个类或域将在下一个任务中增加没有任何先验知识。在提出的VIL场景中,模型面临着类内域混淆和跨域类混淆,这导致模型无法在不干扰已学知识的情况下积累新知识。为了解决这些问题,我们提出了一种简单而有效的IL框架,命名为增量分类器与自适应偏移控制(ICON)。基于可学习模块的偏移,我们设计了一种新颖的正则化方法,称为基于聚类的自适应偏移控制(CAST),通过控制模型避免与先前学习的知识混淆,从而更有效地积累新知识。此外,我们引入了增量分类器(IC),它扩展其输出节点以解决单个类对应的不同域的覆盖问题,同时保持先前的知识。我们在三个标准数据集上进行了广泛的实验,展示了我们的方法在所有场景中的有效性,特别是在下一个任务可以被随机改变的情况下。我们的实现代码可在以下https URL找到。 代码:https://github.com/KHU-AGI/VIL 备注:17 pages, 6 figures, 6 tables, ECCV 2024 Poster
[6] MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance[cs.CV] 标题:MM2Latent:基于多模态辅助的GANs中的文本到人脸图像生成与编辑 作者:Debin Meng, Christos Tzelepis, Ioannis Patras, Georgios Tzimiropoulos 链接:http://arxiv.org/abs/2409.11010 摘要
:生成人脸肖像是目前图像生成领域的热点话题,例如口罩到人脸的生成和文本到人脸的生成。然而,这些单模态生成方法在图像生成中缺乏可控性。通过探索各种模态的优势和互补性可以增强可控性。例如,我们可以利用文本控制多样的属性,利用掩码控制空间位置。当前的多模态生成最先进的方法由于依赖广泛的超参数、推理阶段的手动操作、训练和推理过程中的高计算需求或无法编辑真实图像而面临限制。在本文中,我们提出了一种实用的框架——MM2Latent,用于多模态图像生成和编辑。我们使用StyleGAN2作为图像生成器,FaRL用于文本编码,并对掩码、草图和3DMM等空间模态的自动编码器进行训练。我们提出了一种策略,即训练一个映射网络将多模态输入映射到StyleGAN的w潜在空间。所提出的框架具有以下特点:1)消除了推理阶段的超参数和手动操作;2)确保了快速的推理速度;3)实现了对真实图像的编辑。大量的实验表明,我们的方法在多模态图像生成方面表现出优越的性能,超越了最近的基于GAN和扩散的方法。此外,它在多模态图像编辑中也证明有效,并且比基于GAN和扩散的方法更快。我们将代码公开提供,可在以下链接获取:this https URL 代码:https://github.com/Open-Debin/MM2Latent 备注:Accepted at ECCV 2024 AIM workshop
[7] Down-Sampling Inter-Layer Adapter for Parameter and Computation Efficient Ultra-Fine-Grained Image Recognition[cs.CV] 标题:下采样层间适配器:用于高效率超细粒度图像识别的参数和计算优化 作者:Edwin Arkel Rios, Femiloye Oyerinde, Min-Chun Hu, Bo-Cheng Lai 链接:http://arxiv.org/abs/2409.11051 摘要:超细粒度图像识别(UFGIR)能够对类之间差异极小的物体进行分类,如区分同一物种中的不同品种,这与细粒度图像识别(FGIR)中的物种级分类形成对比。由于每个类别的样本稀缺,这项任务的难度进一步加剧。为了应对这些挑战,我们提出了一种新的方法,在参数高效的环境中采用分层下采样适配器,在这种设置中,主干网络参数被冻结,我们仅微调少量的额外模块。通过集成双分支下采样,我们显著减少了所需的参数数量和浮点运算(FLOPs),使我们的方法效率极高。在十个数据集上的全面实验表明,我们的方法获得了卓越的精度-成本性能,突显了它在资源受限环境中的实际应用潜力。特别是在参数高效设置中,我们的方法相较于其他方法平均提高了至少6.8%的准确率,同时所需的可训练参数比目前最先进的UFGIR方法至少减少123倍,且平均FLOPs相较于其他方法降低了30%。 备注:Accepted to ECCV 2024 Workshop on Efficient Deep Learning for Foundation Models (EFM). Main: 13 pages, 3 figures, 2 tables. Appendix: 3 pages, 1 table. Total: 16 pages, 3 figures, 4 tables
[8] Depth-based Privileged Information for Boosting 3D Human Pose Estimation on RGB[cs.CV] 标题:基于深度信息的特权信息用于提升RGB下的3D人体姿态估计 作者:Alessandro Simoni, Francesco Marchetti, Guido Borghi, Federico Becattini, Davide Davoli, Lorenzo Garattoni, Gianpiero Francesca, Lorenzo Seidenari, Roberto Vezzani 链接:http://arxiv.org/abs/2409.11104 摘要:尽管计算机视觉研究取得了最近进展,从单张RGB图像中估计3D人体姿态仍然是一个具有挑战性的任务,因为多个3D姿态可能对应于图像上的同一2D投影。在这个背景下,深度数据可以通过提供有关场景中物体与摄像机之间距离的额外约束来帮助消除2D信息的歧义。不幸的是,准确深度数据的获取受到室内空间的限制,通常与特定深度技术和设备相关联,从而限制了泛化能力。在本文中,我们提出了一种方法,能够在不牺牲其在RGB摄像机主导的领域中的更广泛适用性和适应性前提下,发挥深度信息的好处。我们的方法包括一个基于热图的3D姿态估计器,通过利用特权信息的理念,能够从推理时的RGB帧中模拟出深度信息。更确切地说,在训练过程中,我们只用于深度信息,通过强制我们的基于RGB的模拟网络学习与仅在深度数据上预训练的骨干网络相似的特征。这种方法即使在处理有限和小的数据集时也证明是有效的。实验结果表明,特权信息的理念显著提升了模型的性能,通过使用仅RGB图像就能有效地提取深度信息。 备注:ECCV 2024 Workshop T-CAP: TOWARDS A COMPLETE ANALYSIS OF PEOPLE: FINE-GRAINED UNDERSTANDING FOR REAL-WORLD APPLICATIONS
[9] LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling[cs.CV] 标题:激光:用于生成建模的稀疏表示的潜在空间编码 作者:Xin Li, Anand Sarwate 链接:http://arxiv.org/abs/2409.11184 摘要:学习紧凑且有意义的潜在空间表示在视觉数据的生成建模任务中已被证明非常有益。一个特定的例子是在变分自编码器(VQ-VAEs、VQ-GANs等)中应用向量量化(VQ),这在许多现代生成建模应用中展示了最先进的性能。通过对潜在空间进行量化,是基于数据本身在潜在空间中固有离散性(如像素值)的假设。在本文中,我们通过放松VQ公式的结构假设,提出了潜在空间的一种替代表示。具体来说,我们假设潜在空间可以被一个字典表示法下的子空间并集模型近似,该模型受到稀疏度约束。字典在训练过程中学习/更新。我们将此方法应用于两种模型:字典学习变分自编码器(DL-VAEs)和带有生成对抗网络(DL-GANs)的字典学习变分自编码器。我们通过实验证明,我们的潜在空间更具有表现力,在重建质量方面优于VQ方法,尽管对潜在空间计算有轻微的计算开销。因此,我们的结果表明,VQ方法的真正好处可能并非来自潜在空间的离散化,而是潜在空间的损失性压缩。我们通过证明我们的稀疏表示也能解决VQ家族模型中常见的代码簿塌陷问题,来证实这一假设。 备注:Preprint, under review. Submitted to 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
[10] SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction[cs.CV] 标题:SplatFields:用于稀疏3D和4D重建的神经网络高斯Splat 作者:Marko Mihajlovic, Sergey Prokudin, Siyu Tang, Robert Maier, Federica Bogo, Tony Tung, Edmond Boyer 链接:http://arxiv.org/abs/2409.11211 摘要:将多视角图像数字化处理,以重建3D静态场景和4D动态事件,长期以来一直是计算机视觉和图形学领域的一个挑战。最近,三维高斯散点绘制(3DGS)作为一种实用且可扩展的重建方法出现,因其出色的重建质量、实时渲染能力和与广泛使用的可视化工具的兼容性而受到青睐。然而,该方法需要大量的输入视角才能实现高质量的场景重建,从而引入了一个重大的实际瓶颈。在捕捉动态场景时,这一问题尤为严重,因为部署一个大型的相机阵列可能会造成过度昂贵的费用。在这项工作中,我们确定了散点特征空间自相关性不足是导致稀疏重建设置下3DGS技术性能不佳的因素之一。为了解决这个问题,我们提出了一种优化策略,该策略通过将散点特征建模为对应隐式神经场的输出,有效地对散点特征进行正则化。这导致在各种场景下重建质量的一致提升。我们的方法有效处理了静态和动态情况,这一点通过在不同的设置和场景复杂度下的广泛测试得到了证实。 代码:https://markomih.github.io/SplatFields/ 备注:ECCV 2024 paper. The project page and code are available at this https URL
[11] SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking[cs.CV] 标题:SLack:语义、位置和外观感知的开集词汇追踪 作者:Siyuan Li, Lei Ke, Yung-Hsu Yang, Luigi Piccinelli, Mattia Segù, Martin Danelljan, Luc Van Gool 链接:http://arxiv.org/abs/2409.11235 摘要
:开放式词汇多目标跟踪(MOT)旨在将跟踪器泛化到训练集之外的全新类别。目前,表现最佳的方法主要基于纯外观匹配。由于大词汇场景中运动模式复杂度高和新型物体的分类不稳定,现有方法在最终的匹配步骤中要么忽略了运动和语义提示,要么基于启发式方法应用它们。在本文中,我们提出了一种统一的框架SLAck,该框架在关联的早期步骤中联合考虑语义、位置和外观先验,并通过一个轻量级的空间和时间对象图学习如何整合所有有价值的信息。我们的方法消除了复杂的后处理启发式方法来融合不同的提示,并显著提升了大规模开放式词汇跟踪的关联性能。无需额外的花哨功能,我们在开放式词汇MOT和TAO TETA基准测试中,对于新型类别跟踪优于先前最先进的方法。我们的代码可在本链接处找到:[this http URL]。 代码:https://github.com/siyuanliii/SLAck 备注:ECCV2024
[12] fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction[cs.CV] 标题:fMRI-3D:增强基于fMRI三维重建的综合数据集 作者:Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu 链接:http://arxiv.org/abs/2409.11315 摘要:从功能性磁共振成像(fMRI)数据中重建3D视觉,我们将其命名为Recon3DMind,在本次会议的工作中引起广泛关注,既受到认知神经科学也受到计算机视觉领域的重视。为了推进这一任务,我们提出了fMRI-3D数据集,它包含15位参与者的数据,展示了总共4768个3D对象。该数据集包括两个组成部分:先前介绍并可在以下https URL获取的fMRI-Shape,以及本文提出并可在以下https URL获取的fMRI-Objaverse。fMRI-Objaverse包括来自5位受试者的数据,其中4位也属于fMRI-Shape的Core集,每位受试者观察了117个类别中的3142个3D对象,都配有文字标题,这大大增强了数据集的多样性和潜在应用价值。此外,我们提出了MinD-3D,这是一种新的框架,旨在从fMRI信号中解码3D视觉信息。该框架首先使用神经融合编码器从fMRI数据中提取和聚合特征,然后采用特征桥扩散模型生成视觉特征,最后利用生成式转换器解码器来重建3D对象。我们设计了新的基准,通过在语义和结构层面设计指标来评估模型性能。此外,我们还评估了模型在分布外设置中的有效性,并分析了提取特征在fMRI信号中的归属和视觉ROI。我们的实验表明,MinD-3D不仅以高语义和空间准确度重建3D对象,还加深了我们对于人脑如何处理3D视觉信息的理解。项目页面可在以下https URL找到。 代码:https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape 备注:Extended version of "MinD-3D: Reconstruct High-quality 3D objects in Human Brain", ECCV 2024 (arXiv: 2312.07485)
[13] TopoMaskV2: Enhanced Instance-Mask-Based Formulation for the Road Topology Problem[cs.CV] 标题:TopoMaskV2:针对道路拓扑问题增强的基于实例掩码的公式 作者:M. Esat Kalfaoglu, Halil Ibrahim Ozturk, Ozsel Kilinc, Alptekin Temizel 链接:http://arxiv.org/abs/2409.11325 摘要:最近,由于其在解决道路拓扑问题上的优势,车道中心线已成为车道表示的热门选择。为了提升中心线预测,我们开发了一种名为TopoMask的新方法。与依赖关键点或参数方法的先前方法不同,TopoMask使用基于实例掩膜的形式,并结合基于掩膜注意力机制的Transformer架构。我们引入了一种四向标签表示,以丰富掩膜实例的流动信息,并设计了一种相应的后处理技术用于掩膜到中心线的转换。此外,我们证明了实例掩膜公式为参数贝塞尔回归提供了补充信息,融合两者输出可提高检测和拓扑性能。此外,我们分析了Lift Splat技术中柱状假设的不足,并采用多高度 bins配置进行适应。实验结果表明,TopoMask在OpenLane-V2数据集上实现了最先进的性能,在V1.1 OLS基准线的Subset-A中从44.1增长到49.4,在Subset-B中从44.7增长到51.8。 备注:Accepted to ECCV 2024 2nd Workshop on Vision-Centric Autonomous Driving (VCAD). TopoMaskV2 includes significant architectural improvements and extensive ablation studies over the original TopoMask, which received an innovation award in the OpenLane Topology Challenge 2023
[14] CLIP Adaptation by Intra-modal Overlap Reduction[cs.CV] 标题:跨模态重叠减少的CLIP适应 作者:Alexey Kravets, Vinay Namboodiri 链接:http://arxiv.org/abs/2409.11338 摘要:众多方法被提出以适应将预训练的基础CLIP模型用于小样本分类。由于CLIP是在大型语料库上训练的,它通过适应小样本分类具有很好的泛化能力。在这项工作中,我们通过嵌入表示分析图像空间内的跨模态重叠。我们的分析表明,由于对比学习,CLIP模型的嵌入在图像空间中对配对和非配对示例之间具有高余弦相似度分布重叠,这影响了依赖于图像空间相似性的小样本训练免分类方法的性能。为了解决跨模态重叠问题,我们提出在Google Open Images数据集的通用样本集合上训练一个轻量级的适配器,证明了这可以提高小样本训练免分类的准确性。我们通过广泛的实证分析验证了我们的贡献,并证明减少跨模态重叠会导致以下成果:a)在多个标准数据集上性能提高,b)对分布变化的鲁棒性增强,c)特征方差增加,使得特征对于下游任务更加具有区分性。 备注:BMVC 2024, Oral
[15] Uncertainty and Prediction Quality Estimation for Semantic Segmentation via Graph Neural Networks[cs.CV] 标题:语义分割中图神经网络的不确定性和预测质量估算 作者:Edgar Heinert, Stephan Tilgner, Timo Palm, Matthias Rottmann 链接:http://arxiv.org/abs/2409.11373 摘要:当将深度神经网络(DNNs)应用于安全关键性应用,如汽车感知或医学成像中的语义分割时,运行时对其性能进行估计尤为重要,例如通过不确定性估计或预测质量估计。过往的研究大多在像素级别进行不确定性估计。一系列研究中,提出了基于连通组件(即分割)的方法,通过执行所谓的元分类和回归来在对象级别进行不确定性估计和预测质量估计。在这些研究中,每个预测分割都单独考虑以估计其不确定性或预测质量。然而,邻近的分割可能提供有关给定的预测分割质量的信息,这是我们本工作中研究的内容。基于分割级别的不确定性指示指标,我们利用图神经网络(GNNs)来建立给定分割质量作为其自身指标以及邻近分割指标函数的关系模型。我们比较了不同的GNN架构,取得了显著的性能改进。 备注:11 pages, 3 figures, submitted to BMVC "Workshop on Robust Recognition in the Open World" (this https URL)
自然语言处理会议: 4篇
[0] Strategic Insights in Human and Large Language Model Tactics at Word Guessing Games[cs.CL] 标题:人类与大型语言模型在拼写猜字游戏中的策略洞察 作者:Matīss Rikters, Sanita Reinsone 链接:http://arxiv.org/abs/2409.11112 摘要:2022年初,一款简单的猜词游戏在世界范围内掀起热潮,并被改编为超过原始英文版本的多语言版本。在这篇论文中,我们研究了两年来每日猜词游戏玩家策略的演变。通过对25%的频繁玩家进行的调查,我们揭示了他们的策略和持续参与每日之旅的动机。我们还探讨了几个流行的开放式大型语言模型系统和开源模型在理解和玩两种不同语言的游戏方面的能力。研究结果突显了某些模型在保持正确猜测长度和生成重复以及产生不存在的单词和词形变化时的困扰。 备注:Published in the 4th Wordplay: When Language Meets Games Workshop @ ACL 2024
[1] SAGED: A Holistic Bias-Benchmarking Pipeline for Language Models with Customisable Fairness Calibration[cs.CL] 标题:SAGED:针对语言模型的整体偏差基准测试流程,拥有可定制的公平性校准 作者:Xin Guan, Nathaniel Demchak, Saloni Gupta, Ze Wang, Ediz Ertekin Jr., Adriano Koshiyama, Emre Kazim, Zekun Wu 链接:http://arxiv.org/abs/2409.11149 摘要:开发无偏大的语言模型被广泛认为是至关重要的,然而现有的基准测试由于范围有限、受到污染和缺乏公平性基准而难以检测到偏差。SAGED(-Bias)是首个全面解决这些问题的基准测试流程。该流程包括五个核心阶段:抓取材料、构建基准、生成回应、提取数值特征和利用差异度量进行诊断。SAGED包括最大化差异度量的指标,如影响比率,以及偏差浓缩度量的指标,如最大Z得分。鉴于评估工具偏差和提示中的情境偏差可能会扭曲评估结果,SAGED实施了反事实分支和基线校准以减轻这些问题。为了演示,我们使用SAGED对G20国家的8b级流行模型进行了测试,包括Gemma2、Llama3.1、Mistral和Qwen2。通过情感分析,我们发现虽然Mistral和Qwen2的最大差异度量和偏差浓缩度量低于Gemma2和Llama3.1,但所有模型都对俄罗斯等国家(除了Qwen2)明显存在偏差。进一步的实验中,模型扮演美国(副/前任)总统的角色,我们观察到偏见加剧并转向不同的方向。此外,我们发现Qwen2和Mistral没有参与角色扮演,而Llama3.1和Gemma2在扮演特朗普时的程度明显超过拜登和哈里斯,这表明这些模型中存在角色扮演性能偏差。 备注:Submitted to COLING 2025 Main Conference
[2] THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models[cs.CL] 标题:THaMES:用于大语言模型中幻觉缓解与评估的端到端工具 作者:Mengfei Liang, Archish Arun, Zekun Wu, Cristian Munoz, Jonathan Lutch, Emre Kazim, Adriano Koshiyama, Philip Treleaven 链接:http://arxiv.org/abs/2409.11353 摘要:幻觉,即虚构事实上错误的内容,是大语言模型(LLMs)中日益严峻的挑战。现有的检测和缓解方法通常孤立且不足以满足特定领域的需求,缺乏标准化流程。本文介绍了THaMES(幻觉缓解和评价指标工具),这是一个应对这一空缺的集成框架和库。THaMES提供了一站式的解决方案,用于评估和缓解LLMs中的幻觉,具备自动测试集生成、多方面基准测试和可调整的缓解策略。它可从任何语料库自动创建测试集,利用批量处理、加权采样和反事实验证等技术在保证数据质量、多样性和成本效率的同时进行测试集创建。THaMES评估模型在包括文本生成和二分类在内的各项任务中检测和降低幻觉的能力,应用如上下文学习(ICL)、检索增强生成(RAG)和参数高效微调(PEFT)等最佳缓解策略。使用学术论文、政治新闻和维基百科等知识库对最先进的LLMs进行评估表明,商业模型如GPT-4o比ICL更能从RAG中受益,而开源模型如Llama-3.1-8B-Instruct和Mistral-Nemo则更多从ICL中受益。此外,PEFT显著提升了Llama-3.1-8B-Instruct在评估任务中的性能。 备注:Submitted to NeurIPS 2024 SoLaR (Socially Responsible Language Modelling Research ) Workshop
[3] CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration[cs.CL] 标题:CoCA:通过宪法校准恢复多模态大型语言模型的安全性意识 作者:Jiahui Gao, Renjie Pi, Tianyang Han, Han Wu, Lanqing Hong, Lingpeng Kong, Xin Jiang, Zhenguo Li 链接:http://arxiv.org/abs/2409.11365 摘要:多模态大型语言模型(MLLMs)在涉及视觉输入的对话中展现出显著的成功,这得益于大型语言模型(LLMs)的优越能力。这些MLLMs通常基于LLMs构建,并包含一个图像编码器以处理图像并转换为LLMs的标记嵌入空间。然而,视觉模态的集成引入了一种独特的脆弱性:MLLM变得易受恶意视觉输入的影响,并倾向于生成敏感或有害的回复,尽管LLM已基于文本数据集进行训练以符合人类价值观。在本文中,我们首先提出了一个问题:“MLLM是否对恶意图像输入具有安全性意识?”我们发现,在将指定安全要求的原则纳入MLLM的输入后,模型的安全意识得到了增强。这一现象验证了MLLM对图像输入具有安全性意识的存在,但这种意识只受到模态差距的削弱。随后,我们介绍了一种简单而有效的技术术语CoCA,通过对模型的输出分布进行校准来增强MLLM的安全性意识。我们提出的策略帮助模型恢复其原始的安全意识,而不会失去其原始的能力。我们在多模态安全和理解基准上验证了我们的方法的有效性。 备注:10 pages, COLM-2024