尊龙APP官方最新版下载中山大学合股鹏城履行室、好意思团推出X2SAM

166 | 2026-05-11 20:34:46

这项由中山大学、鹏城履行室与好意思团合股开展的考虑，以预印本风景于2026年4月27日发布在arXiv平台，编号为arXiv:2605.00891v1。感兴味的读者可通过该编号检索好意思满论文。

手机里的相机每天拍下无数张像片和视频，东说念主们早已民俗了用AI来识别像片里的猫咪、帮像片中的东说念主物换个布景，或者给视频打上自动字幕。联系词，当你实在去看这些AI的"眼睛"时，会发现一件有些奇怪的事——大多数锋利的AI要么只会"看图言语"，要么只会"圈出办法"，却很少有谁能同期把这两件事作念得既好又快，更别说同期支吾图片和视频了。

这恰是这项考虑要处置的问题。考虑团队开发了一个名为X2SAM的系统。这个名字里的"X2"不错相识为"纵情到纵情"——纵情的指示，对应纵情类型的图像分割任务，既能处理静止的图片，也能处理动态的视频，且二者共用团结套大脑。

---

一、为什么咱们需要一个"万能选手"？

在AI视觉限制，有一类相称蹙迫的任务叫作念"图像分割"——平方地说，等于让AI把画面中每一个像素都归类，精确地圈出"哪些像素属于猫咪"、"哪些像素属于布景"。这就好比一幅填色画，AI需要把每个区域都精确地涂上对应的颜料，而不单是是在画上贴一个标签说"这里有只猫"。

当今已有两类器具各自作念这件事。一类是特地生成高质料像素级蒙版的"分割基础模子"，比如SAM和SAM2。SAM就像一把精确的好意思工刀，你用鼠标在图上点一个点，它就能把阿谁物体精确地裁出来。但问题是，它只坚决鼠标点击、方框之类的"物理手势"，透顶不懂语言。你不行跟它说"帮我把视频里那只一直在白墙旁往来走动的东说念主圈出来"——它压根听不懂。

另一类是多模态大语言模子（不错把它相识为"能看图的ChatGPT"），比如LLaVA、Qwen-VL等。这类模子语言相识才略极强，你说什么它都能听懂，但它的输出是笔墨，不是精确的像素蒙版。它能告诉你"这张图里有一只橙色的猫坐在沙发上"，却无法精确地圈出那只猫的每一根髯毛。

在这两类器具之间，有一批"缝合怪"式的考虑试图把二者合并，比如LISA、GLaMM等，它们让语言模子去驱动分割模子，完毕"用语言刻画、用像素呈现"的着力。联系词这些模子大多只可处理静态图片，际遇视频就无法可想；或者能处理视频，却不撑握视觉领导（也等于说，你没法用鼠标框一个区域告诉它"帮我跟踪这个东西"）。

实在的痛点就在这里：莫得一个模子能同期作念到——相识复杂语言指示、接纳鼠标框选之类的视觉领导、处理图片、处理视频，何况把总共这些任务长入在一个框架里，生成时候上连贯的像素蒙版。X2SAM恰是为了填补这个空白而生。

---

二、X2SAM颖异什么？一场掩饰14种任务的"全科体检"

为了让读者有直不雅感受，不错把X2SAM瞎想成一位具备"全科才略"的视觉助手，它能接纳多样风景的指示，然后在图片或视频上精确地圈出你暖和的本体。

这位助手能作念的事情，不错从图片和视频两个维度各列举七种才略来相识。在图片维度，它不错作念通用分割（把图里总共东说念主、车、树都分类圈出来）、洞开词汇分割（圈出纵情你说出名字的东西，包括它从没特地检会过的类别）、指代分割（字据"左边阿谁穿红穿着的东说念主"这么的刻画圈出办法）、推理分割（字据"能用来倒进玻璃杯里的东西"这么需要推断的刻画找到办法）、接地对话生成（一边刻画画面一边在对应的词语上标出蒙版）、交互式分割（你鼠标点一个点或画一个框，它就圈出阿谁区域）、视觉接地分割（你给它看一张参考图里的某个区域，它在办法图里找到对应物体并圈出来）。

在视频维度，这七种才略全部对应地蔓延过来，而且因为视频是流畅的帧序列，每种才略还需要额外处理时候上的连贯性——也等于说，第一帧圈出来的那只猫，在后续几十帧里也要被精确地握续跟踪。

考虑团队还特地冷漠了一项新任务：视频视觉接地分割（V-VGD）。这个任务的设定是这么的：你在视频的第一帧上用鼠标框出一个办法，系统需要自动跟踪这个办法，在通盘视频的每一帧里都生成精确的蒙版。这个任务莫得现成的数据集，考虑团队从两个已有的视频数据集（YT-VIS19和VIPSeg）启程，构建了YT19-VGD和VIPSeg-VGD两个新数据集，并以此成立了V-VGD基准测试体系。

---

三、X2SAM是怎样责任的？一套协同配合的"视觉大脑"

X2SAM的里面结构不错用一个由四个中枢部件构成的团队来相识，每个部件各司其职，却又紧密融合。

第一个部件是"全局视觉相识大脑"，由视觉编码器和大语言模子构成。考虑团队接纳了Qwen3-VL-4B行动这个部件的基础，这是一个同期能看图和相识语言的预检会模子。它认真把输入的图片或视频调养成模子能相识的语义默示，就像把一幅画翻译成一段详备的笔墨刻画一样。当你给出一条指示——无论是"圈出左边阿谁拿雨伞的东说念主"，如故"找出视频里老是靠着白墙走来走去的阿谁东说念主"——这个大脑认真读懂你的意图，并产生一个特殊的指示信号，告诉后续的蒙版生成部件"你该去找什么"。这个指示信号等于所谓的"SEG潜在镶嵌"，不错把它相识为一张含有目口号义信息的"寻找令"。

第二个部件是"细致像素特征索求器"，也等于蒙版编码器，它来自SAM2的架构。与大语言模子处理的"粗粒度"语义不同，蒙版编码器特地索求图像的高分辨率、细粒度特征——角落、纹理、局部风景这些信息。它就像一台高倍放大镜，特地盯着像素层面的细节，确保最毕生成的蒙版角落弥散精确。

第三个部件是"蒙版解码器"，认真把"寻找令"和像素特征合并，生成最终的二值蒙版（即每个像素属于办法如故布景的判断）。考虑团队在这里作念了一项重要的校阅：引入了"Token-to-Image Attention"（词元到图像提防力）机制。平方地说，这个机制让语言模子产生的"寻找令"大概平直与空间像素特征"对话"，而不是只是行动一个外部条目附加进来。这么作念的着力是让语义信息和空间信息深度交融，生成的蒙版不仅风景准确，而且语义对都更好。为了让这个新机制不随便早期检会的踏实性，考虑团队接纳了"零开动化"政策，也等于说在检会最入手时这个机制的影响权重为零，九游体育中国体育服务中心跟着检会鼓舞再渐渐阐述作用——这就像新职工入职时先不雅察、再渐渐参与，而不是第一天就大刀阔斧地改历程。

第四个部件是本考虑最中枢的立异之一：蒙版挂念模块。这个模块特地处置视频处理中的时候连贯性问题。处理视频的挑战在于，视频是一帧一帧的，而且相邻帧之间的本体变化可能很高深，也可能很剧烈。要是每一帧都独处处理，生成的蒙版不绝会"抖动"——前一帧把东说念主圈准了，后一帧蒙版一忽儿偏移，看起来像是在醒目，极不踏实。

蒙版挂念模块的责任历程分四步进行，变成一个轮回。当处理视频的某一帧时，它最先通过"挂念提防力"机制追溯仍是处理过的历史帧的视觉特征，将历史信息与现时帧的视觉特征交融，生成时候上连贯的视觉默示。接着，蒙版解码器诓骗这个经过时候加权的默示生成现时帧的蒙版。蒙版生成后，"挂念编码器"把现时帧的视觉特征和蒙版筹划收场合并，压缩成一个"招引视觉特征"存入挂念库。挂念库接纳先进先出（FIFO）的政策经管存储空间——最多保存最近若干帧的信息，超出容量时自动丢弃最旧的帧。这就像一个东说念主在看流畅剧时，脑子里会自动保留最近几集的情节来匡助相识现时剧情，而不会无铁心地记着每一集的每一个细节。

消融履行（即逐项考证各个组件着力的履行）显露，只加入单模范的浅薄挂念特征培育有限，而加入蒙版招引和类别招引信息、以及多模范特征后，视频指代分割的J&F方针从53.6大幅跳升至65.0，视频推理分割也从36.5升至53.5。这标明，让挂念模块"记着的不单是画面，还有之前圈出来的蒙版风景和语义类别"，才是时候连贯性的实在重要所在。

此外，考虑团队还筹算了一个"区域采样器"，用于处理视觉领导（即用户用鼠标在画面上点击或框选的区域）。它的责任旨趣是在用户指定的感兴味区域内进行点采样，然后通过自允洽池化聚集成紧凑的区域级默示，注入到大语言模子中，让模子知说念"用户关注的是这个特定区域"。这个模块莫得可学习参数，既轻量又高效。

---

四、X2SAM是怎样检会出来的？一套悉心筹算的"合股检会食谱"

检会一个同期处理图片和视频、掩饰14种任务的模子，濒临的最大挑战之一是揣摸资源经管。图片和视频的内存阔绰互异极大——一个视频片断可能包含8帧以致更多，内存占用是单张图片的数倍。要是浅薄地把图片和视频混在一都检会，要么内存爆炸，要么着力极低。

考虑团队的检会分两个阶段进行。第一阶段叫作念"无类别分割器检会"，目的是让蒙版解码器在战役任何语言指示之前，先学会纯正的风景和规模感知才略。检会数据使用SAM的SA-1B数据勾搭的蒙版标注，尊龙官方网站APP下载透顶不触及任何类别标签，让解码器只关注"这个区域的综合是什么样的"。这一步就像在教一个画家先练好素描基础，再谈颜色和本体。消融履行标明，使用SAM好意思满的1B数据集（而非子集或COCO数据集）检会这个阶段，能在险些总共后续任务上都获得更好的着力。

第二阶段是中枢的"长入合股检会"，在图片和视频的混杂数据上同期检会总共14种任务。为了处置图片和视频内存阔绰不合称的问题，考虑团队筹算了一套"维度调服待水线"：关于视频输入，将时候维度和批次维度作念转置，把一个包含T帧的视频拆解为T张独处的图片，用团结套图片级接口通过蒙版编码器处理，然后通过蒙版挂念模块串联起时候依赖关系，终末再把T帧的蒙版沿时候维度拼接回归。这么作念的妙处在于，蒙版编码器不需要感知"它在处理视频"，只需要处理一张张图片，大大缩短了工程复杂度。

批次经管上，视频数据的每征战批次大小固定为1，图片数据则通过批次乘数推广为4倍，从而在疏导的内存预算下让图片数据的GPU诓骗率更高。梯度积累政策也字据模态分开建树：图片每步更新一次，视频则积累多步后再更新，进一步均衡内存与检会踏实性。此外，一个特地筹算的"时候感知采样器"把时候长度疏导的视频片断分到团结批次，幸免无用要的填充。

最终，长入合股检会仅需约3300 GPU小时，而对照履行中的"浅薄合股检会"需要约5200 GPU小时——省俭了约36.5%的检会本钱，同期在视频任务上还获得了更好的性能。

---

五、X2SAM的履行收货单：在哪些地方阐述杰出？

考虑团队在多量基准测试上对X2SAM进行了评估，与现存的专用模子和通用模子进行对比。

在图片分割任务上，X2SAM与相似基于图片的通用模子X-SAM比较总体保握竞争力。在图片通用分割（COCO全景分割PQ 54.1、实例分割mAP 45.8）和指代分割（RefCOCOg考证集cIoU 81.9，创下新的最优收货）上阐述矜重。荒谬值得提防的是，在图片洞开词汇分割任务上，X2SAM获得了31.2 PQ，彰着高于X-SAM的20.9 PQ，阐发X2SAM的语言相识才略带来了更强的泛化才略。在推理分割任务上，X2SAM以64.5 cIoU和71.1 gIoU的收货卓著了HyperSeg（分散朝上7.8和11.9个百分点），在测试集的短问题和长问题子集上都获得了那时最优收货。

在视频分割任务上，X2SAM的上风更为权臣。在视频指代分割任务中，X2SAM在Ref-YT21数据集上获得了78.5 J&F，在Ref-DV17数据集上获得了79.0 J&F，卓著了此前最先的UniPixel-7B分散7.5和2.6个百分点。在视频推理分割方面，X2SAM在ReVOS数据集上获得了69.9 J&F，比HyperSeg朝上14.2个百分点，以致卓著了特地针对视频指代任务筹算的ReferFormer-B专用模子。在视频接地对话生成任务上，X2SAM的mIoU为75.8，比VideoGLaMM朝上21.5个百分点，差距相称权臣。

在视觉接地分割任务上，X2SAM在图片端与专用图片模子X-SAM相称（COCO点领导AP 45.9，框领导AP 48.5），在视频端则大幅卓著了SAM2-H。具体来说，在YT-VIS19数据集的框领导建树下，X2SAM获得了74.4 AP，而SAM2-H仅为54.0 AP；在更复杂的VIPSeg数据集上，X2SAM获得了57.8 AP，SAM2-H仅为40.4 AP。这一差距充分阐发，迎面对需要语言相识和时候跟踪双重才略的任务时，纯正依赖初级视觉领导的SAM2存在彰着短板。

在域外泛化测试（即用从未见过的数据集测试）中，X2SAM在gRefCOCO（包含多办法和无办法抒发式的泛化指代分割数据集）上卓著了专用的非MLLM模子ReLA，也卓著了PSALM和X-SAM等MLLM通用模子。在ADE20K的洞开词汇分割测试中，X2SAM获得了31.2 PQ、38.2 mIoU和20.2 mAP，全面卓著ODISE和X-SAM等对比模范。

此外，X2SAM还保留了出色的图片和视频对话才略，在MMBench、SEED-Bench等图片对话基准测试上获得了83.5和76.0的收货，在VideoMME、MVBench、MLVU、LongVideoBench等视频对话基准测试上也阐述优异，卓著了Video-LLaVA、VideoChat2、VILA-1.5等专注对话的模子。这阐发在为模子加入细致分割才略时，团队灵验地防备了模子的通用对话才略退化。

---

六、X2SAM当今还有哪些不及和改日所在？

任何考虑都有其规模，X2SAM也不例外。考虑团队在论文中坦诚地指出了三点局限性。

第一，跨模态的长入检会仍然揣摸支出较大，尤其是视频数据的内存占用问题，即便有了现存的优化政策，检会本钱依然不低，这关于资源有限的考虑团队来说是一个门槛。

第二，固定大小的FIFO挂念库关于超长视频来说可才略不从心。要是办法在视频中履历了永劫候遮拦、剧烈外不雅变化，或者淹没很久后又从新出现，有限容量的挂念模块可能无法灵验保存重要的历史信息，导致跟踪失败。

第三，行动一个通用模子，X2SAM在某些高度特地化的单一任务上仍然过时于专用模子——比如专注于视频对象分割的SAM2-H，在YT-VOS19上的J&F为88.8，而X2SAM为74.0。这是通用性与专科性之间不灭的衡量弃取。

考虑团队默示，改日责任将探索更高效的检会模范、更轻量的主干荟萃，以及自允洽的永劫程挂念机制，以期在可推广性和鲁棒性上进一步培育。

---

归根结底，X2SAM这项责任的中枢价值在于讲解了一件事：让AI同期看懂图片和视频、同期接纳语言和视觉领导、同期处理从通用分类到复杂推理的多样任务，并不需要七八套独处的系统拼集在一都——一个长入的框架，加上悉心筹算的挂念机制和检会政策，就不错作念到。这种"大一统"的想路，不仅在工程上更整洁，在性能上也莫得付出彰着的代价，在许多任务上反而因为跨任务的常识分享而有所增益。

对普通用户而言，这意味着改日的AI视觉助手可能会变得愈加万能——你不错平直对着监控视频说"帮我跟踪阿谁红色背包的东说念主"，或者对着一段家庭视频说"把两个孩子分散圈出来并标注他们的畅通轨迹"，系统会当然地相识你的意图并生成精确的时候连贯蒙版，而不需要你先选模子、再选任务、再分散操作。

虽然，从考虑原型到日常可用的居品，还有相称长的路要走，但X2SAM的出现标明这条路的所在是明晰的。有兴味深切了解期间细节的读者，不错通过arXiv编号2605.00891查阅好意思满论文，代码也已在GitHub上以wanghao9610/X2SAM的地址开源。

---

Q&A

Q1：X2SAM和SAM2有什么区别，为什么不屈直用SAM2？

A：SAM2是一个优秀的分割器具，但它只坚决鼠标点击和方框这类"物理领导"，透顶不睬解语言。你没法跟SAM2说"圈出视频里一直在白墙旁走动的东说念主"，它听不懂。X2SAM在SAM2的基础上加入了大语言模子，能相识复杂的笔墨刻画以致需要推理的指示，同期通过蒙版挂念模块保握视频中的时候连贯性。两者的适用场景不同，SAM2更像一把精确的剪刀，X2SAM更像一个能听懂指示的智能裁剪助手。

Q2：X2SAM的蒙版挂念模块是怎样保证视频中办法不丢失的？

A：蒙版挂念模块选藏着一个"回荡挂念库"，保存最近若干帧（默许6帧）的视觉特征和蒙版信息。处理每一帧时，系统会先追溯这些历史记载，把历史信息与现时帧交融，生成时候上连贯的特征，再据此生成蒙版。处理完后，现时帧的信息又被存入挂念库，最旧的帧被自动丢弃。这种"上前看历史、向后传现象"的机制灵验幸免了逐帧独处处理时产生的蒙版抖动和办法丢失问题。

Q3：X2SAM需要若干GPU才能检会，普互市量团队能用吗？

A：X2SAM的好意思满检会在32块NVIDIA H800 GPU上进行尊龙APP官方最新版下载，长入合股检会阶段共计约阔绰3300 GPU小时。这对大多数高校履行室来说如实是不小的门槛。不外考虑团队仍是开源了代码和模子权重，普互市量东说念主员不错平直使用预检会好的模子进行推理或在极少据集上微调，不需要重新复现好意思满检会历程。

沙巴体育中国官网入口

尊龙APP官方最新版下载 中山大学合股鹏城履行室、好意思团推出X2SAM

尊龙APP官方最新版下载中山大学合股鹏城履行室、好意思团推出X2SAM