PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

https://github.com/mbzuai-oryx/Video-LLaVA
将基于图像的大型多模态模型(LMM)扩展到视频领域是具有挑战性的。最近将基于图像的LMM扩展到视频的方法要么缺乏grounding定位能力(例如,VideoChat,Video-ChatGPT,Video-LLaMA),要么不利用音频信号来更好地理解视频(例如,Video-ChatGPT)。
为解决这些问题,提出PG-Video-LLaVA,第一个具有像素级grounding能力的LMM,通过转录音频提示为文本来丰富视频上下文的理解。框架用一个现成的跟踪器和一个新颖的grounding模块,使其能够根据用户的指令在视频中空间上和时间上定位对象。
使用基于视频的生成和问答基准测试评估了PG-Video-LLaVA,并引入了专门为测量基于提示的视频对象grounding性能而设计的新基准测试。此外,提出用Vicuna来替代VideoChatGPT中使用的GPT-3.5,用于基于视频的对话基准测试,以确保结果的可重复性,这是有关GPT-3.5的专有性质的一个问题。框架建立在最先进的基于图像的LLaVA模型基础上,并将其优势扩展到视频领域,在基于视频的交流和参照任务中取得了有希望的成果。
XAGen: 3D Expressive Human Avatars Generation

https://github.com/magic-research/xagen
GAN模型使得生成逼真和可控的人体图像成为可能。然而,现有方法主要关注主要身体关节的控制,忽视了表情、颌位、手势等表达属性的操纵。
这项工作提出XAGen,第一个能够对人体角色进行身体、面部和手部表情控制的3D生成模型。为了提高面部和手部等小尺度区域的保真度,设计一种多尺度和多部分的3D表示方法来模拟细节。基于这种表示方法,提出一种多部分渲染技术,将身体、面部和手部的合成分离开来,以便于模型训练和提高几何质量。
此外,设计了多部分鉴别器来评估生成角色的外观和精细控制能力。实验证明,XAGen在逼真度、多样性和表情控制能力方面超越现有方法。
T-Rex: Counting by Visual Prompting

https://trex-counting.github.io/
T-Rex12,一种交互式物体计数模型,旨在首先检测,然后计数任意物体。将物体计数形式化为一种集成视觉提示的开放式物体检测任务。用户可以通过在参考图像上标记点或框来指定感兴趣的物体,然后T-Rex可以检测到所有具有相似模式的物体。
在TRex的视觉反馈指导下,用户还可以通过提示缺失或错误检测的物体来交互地改进计数结果。T-Rex在几个类不可知计数基准上取得了最先进的性能。为进一步发挥其潜力,建立一个涵盖多样场景和挑战的新的计数基准。
定量和定性结果均显示,T-Rex具有出色的零样本计数能力。还展示了T-Rex在各种实际应用场景中的潜力,说明其在视觉提示领域的潜力。
ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs

https://ziplora.github.io/
目前,为了概念(目标对象)驱动的个性化而对生成模型进行微调的方法,通常能够在以主题(目标对象)驱动或风格驱动为基础的生成中取得较强的结果。最近,低秩适应(LoRA)被提出作为实现概念驱动个性化的一种参数高效的方式。虽然最近的工作探索了将独立的LoRA组合起来实现学习风格和主题的联合生成,但现有技术并未能可靠地解决问题;它们往往要么牺牲主题的准确性,要么牺牲风格的准确性。
提出ZipLoRA,一种廉价且有效地合并独立训练的风格和主题LoRA的方法,以实现在任何用户提供的主题和风格下的生成。在对广泛的主题和风格组合进行的实验中,ZipLoRA能够生成具有显著改进的有意义结果,同时保持了再情景化的能力。
Rich and Poor Texture Contrast: A Simple yet Effective Approach for AI-generated Image Detection

https://fdmas.github.io/AIGCDetect/
AI生成的图像可能会导致普遍的虚假信息传播。因此,开发一种检测器来识别AI生成的图像非常紧迫。大多数现有的检测器对未见的生成模型性能大幅下降。本文提出一种新的AI生成图像检测器,能够识别广泛范围内各种生成模型创建的虚假图像。
-
方法利用图像中丰富纹理区域与贫纹理区域之间的像素间相关性对比,来检测AI生成的图像。丰富纹理区域的像素比贫纹理区域的像素的波动更大。这种差异反映了丰富纹理区域的熵大于贫纹理区域的熵。对现有的生成模型来说,合成逼真的丰富纹理区域更具挑战性。
基于这个原理,将图像分成多个局部块,并将它们分别重构为由丰富纹理区域和贫纹理区域组成的两个图像。然后,提取丰富纹理区域和贫纹理区域之间的像素间相关性差异特征。这个特征用于AI生成的图像分析,在不同的生成模型中起到了普适指纹的作用。
此外,建立了一个全面的AI生成的图像检测基准,包括16种流行的生成模型,用于评估现有基线方法和我们的方法的有效性。基准为后续研究提供了排行榜。实验结果表明,方法在性能上显著优于现有的基准方法。
若觉得还不错的话,请点个 “赞” 或 “在看” 吧
全栈指导班
全栈指导班面向的是真正想从事CV的、想培养自己的能力和知识面的、具备算法工程师思维的朋友。有很多朋友仅仅了解自己的科研方向、仅仅了解YOLO怎么用,做过几个简单的项目,但从没系统地学过CV,也没有重视培养自己的学习能力和思维能力。也有很多朋友想找目标检测的岗位、医学图像的岗位,但实际上哪个企业招聘上写目标检测工程师呢?写的都是算法工程师,一个合格的算法工程师需要能快速上手任意一个新的方向,这意味着需要广泛大知识面、扎实的基础、很强的自学能力。知识面太少,谈何设计模型?不会看论文,谈何学习能力?因此,对于全栈班而言,如何培养上面这三点是非常重要的。这也意味着它与基础入门班不同之处在于全栈班更注重培养方法、能力以及知识面。内容范围:全栈。包括基础、代码能力、模型设计分析、目标检测、数字图像处理、部署等全流程。说明:虽然看起来跟基础入门班内容没什么区别,但实际每个内容涉及更深、范围更广、要求更高,且包含部署方面的学习和能力培养。比如同样的模型设计,基础班只要求掌握十几个模型的设计思路,全栈班会要额外推荐一些重要的论文去学、要求效率更高,且基础班是老师直接讲,而全栈班是学员先自主学再指导,前者是入门、后者是深入学习。如果你本身是一个基础很好的,仅仅想学习部署方面的内容,也可以报名,我们会针对你的个人情况,单独设计部署方面的学习计划,安排有六年部署工作经验的大佬给你指导。
课程形式:50%学员自主学习+50%的方法、能力的指导培养。可以理解为报了一个全栈班,就是找了两个大佬对你进行二对一指导,但仍然是你自己自学。报名请扫描下方二维码,备注:“全栈班报名”
