快乐彩2026世界杯(中国)IOS/安卓官方下载中山大学结伙鹏城践诺室、好意思团推出X2SAM

发布日期：2026-05-12 06:11 点击次数：192

这项由中山大学、鹏城践诺室与好意思团结伙开展的盘考，以预印本局势于2026年4月27日发布在arXiv平台，编号为arXiv:2605.00891v1。感兴趣的读者可通过该编号检索无缺论文。

手机里的相机每天拍下无数张像片和视频，东谈主们早已俗例了用AI来识别像片里的猫咪、帮像片中的东谈主物换个配景，或者给视频打上自动字幕。但是，当你实在去看这些AI的"眼睛"时，会发现一件有些奇怪的事——大多数利害的AI要么只会"看图言语"，要么只会"圈出方针"，却很少有谁能同期把这两件事作念得既好又快，更别说同期应酬图片和视频了。

这恰是这项盘考要处罚的问题。盘考团队开发了一个名为X2SAM的系统。这个名字里的"X2"不错剖判为"放纵到放纵"——放纵的指示，对应放纵类型的图像分割任务，既能处理静止的图片，也能处理动态的视频，且二者共用团结套大脑。

---

一、为什么咱们需要一个"万能选手"？

在AI视觉范围，有一类相等紧迫的任务叫作念"图像分割"——平凡地说，便是让AI把画面中每一个像素都归类，精确地圈出"哪些像素属于猫咪"、"哪些像素属于配景"。这就好比一幅填色画，AI需要把每个区域都精确地涂上对应的神志，而不单是是在画上贴一个标签说"这里有只猫"。

现在已有两类器具各自作念这件事。一类是特意生成高质地像素级蒙版的"分割基础模子"，比如SAM和SAM2。SAM就像一把精确的好意思工刀，你用鼠标在图上点一个点，它就能把阿谁物体精确地裁出来。但问题是，它只意志鼠标点击、方框之类的"物理手势"，实足不懂语言。你不可跟它说"帮我把视频里那只一直在白墙旁走动走动的东谈主圈出来"——它根蒂听不懂。

另一类是多模态大语言模子（不错把它剖判为"能看图的ChatGPT"），比如LLaVA、Qwen-VL等。这类模子语言剖判才略极强，你说什么它都能听懂，但它的输出是翰墨，不是精确的像素蒙版。它能告诉你"这张图里有一只橙色的猫坐在沙发上"，却无法精确地圈出那只猫的每一根髯毛。

在这两类器具之间，有一批"缝合怪"式的盘考试图把二者合并，比如LISA、GLaMM等，它们让语言模子去驱动分割模子，扫尾"用语言描写、用像素呈现"的后果。但是这些模子大多只可处理静态图片，遭遇视频就安坐待毙；或者能处理视频，却不相沿视觉领导（也便是说，你没法用鼠标框一个区域告诉它"帮我跟踪这个东西"）。

实在的痛点就在这里：莫得一个模子能同期作念到——剖判复杂语言指示、收受鼠标框选之类的视觉领导、处理图片、处理视频，况且把所有这个词这些任务长入在一个框架里，生成时候上连贯的像素蒙版。X2SAM恰是为了填补这个空白而生。

---

二、X2SAM颖慧什么？一场阴私14种任务的"全科体检"

为了让读者有直不雅感受，不错把X2SAM联想成一位具备"全科才略"的视觉助手，它能收受各式局势的指示，然后在图片或视频上精确地圈出你热心的实质。

这位助手能作念的事情，不错从图片和视频两个维度各列举七种才略来剖判。在图片维度，它不错作念通用分割（把图里所有这个词东谈主、车、树都分类圈出来）、绽开词汇分割（圈出放纵你说出名字的东西，包括它从没特意熟练过的类别）、指代分割（字据"左边阿谁穿红一稔的东谈主"这么的描写圈出方针）、推理分割（字据"能用来倒进玻璃杯里的东西"这么需要估量的描写找到方针）、接地对话生成（一边描写画面一边在对应的词语上标出蒙版）、交互式分割（你鼠标点一个点或画一个框，它就圈出阿谁区域）、视觉接地分割（你给它看一张参考图里的某个区域，它在方针图里找到对应物体并圈出来）。

在视频维度，这七种才略全部对应地延长过来，而且因为视频是荟萃的帧序列，每种才略还需要额外处理时候上的连贯性——也便是说，第一帧圈出来的那只猫，在后续几十帧里也要被精确地握续跟踪。

盘考团队还特意提议了一项新任务：视频视觉接地分割（V-VGD）。这个任务的设定是这么的：你在视频的第一帧上用鼠标框出一个方针，系统需要自动跟踪这个方针，在所有这个词视频的每一帧里都生成精确的蒙版。这个任务莫得现成的数据集，盘考团队从两个已有的视频数据集（YT-VIS19和VIPSeg）起程，构建了YT19-VGD和VIPSeg-VGD两个新数据集，并以此成立了V-VGD基准测试体系。

---

三、X2SAM是怎么使命的？一套协同配合的"视觉大脑"

X2SAM的里面结构不错用一个由四个中枢部件构成的团队来剖判，每个部件各司其职，却又紧密合作。

第一个部件是"全局视觉剖判大脑"，由视觉编码器和大语言模子构成。盘考团队收受了Qwen3-VL-4B看成这个部件的基础，这是一个同期能看图和剖判语言的预熟练模子。它认真把输入的图片或视频鬈曲成模子能剖判的语义暗示，就像把一幅画翻译成一段详备的翰墨描写一样。当你给出一条指示——无论是"圈出左边阿谁拿雨伞的东谈主"，照旧"找出视频里老是靠着白墙走来走去的阿谁东谈主"——这个大脑认真读懂你的意图，并产生一个特殊的指示信号，告诉后续的蒙版生成部件"你该去找什么"。这个指示信号便是所谓的"SEG潜在镶嵌"，不错把它剖判为一张含有目口号义信息的"寻找令"。

第二个部件是"风雅像素特征索要器"，也便是蒙版编码器，它来自SAM2的架构。与大语言模子处理的"粗粒度"语义不同，蒙版编码器特意索要图像的高分辨率、细粒度特征——边际、纹理、局部形式这些信息。它就像一台高倍放大镜，特意盯着像素层面的细节，确保最毕生成的蒙版边际弥散精确。

第三个部件是"蒙版解码器"，认真把"寻找令"和像素特征合并，生成最终的二值蒙版（即每个像素属于方针照旧配景的判断）。盘考团队在这里作念了一项要害的编削：引入了"Token-to-Image Attention"（词元到图像注看法）机制。平凡地说，这个机制让语言模子产生的"寻找令"大要平直与空间像素特征"对话"，而不是只是看成一个外部条款附加进来。这么作念的后果是让语义信息和空间信息深度和会，生成的蒙版不仅形式准确，而且语义对皆更好。为了让这个新机制不阻扰早期熟练的踏实性，盘考团队收受了"零开动化"计谋，也便是说在熟练最脱手时这个机制的影响权重为零，跟着熟练推动再徐徐阐扬作用——这就像新职工入职时先不雅察、再徐徐参与，而不是第一天就大刀阔斧地改经过。

第四个部件是本盘考最中枢的立异之一：蒙版纪念模块。这个模块特意处罚视频处理中的时候连贯性问题。处理视频的挑战在于，视频是一帧一帧的，而且相邻帧之间的实质变化可能很奥秘，也可能很剧烈。若是每一帧都寥寂处理，生成的蒙版频频会"抖动"——前一帧把东谈主圈准了，后一帧蒙版一刹偏移，看起来像是在能干，极不踏实。

蒙版纪念模块的使命经过分四步进行，造成一个轮回。当处理视频的某一帧时，它首先通过"纪念注看法"机制记忆也曾处理过的历史帧的视觉特征，将历史信息与现时帧的视觉特征和会，生成时候上连贯的视觉暗示。接着，蒙版解码器期骗这个经过时候加权的暗示生成现时帧的蒙版。蒙版生成后，"纪念编码器"把现时帧的视觉特征和蒙版计议阻隔合并，压缩成一个"指点视觉特征"存入纪念库。纪念库收受先进先出（FIFO）的计谋治理存储空间——最多保存最近若干帧的信息，超出容量时自动丢弃最旧的帧。这就像一个东谈主在看荟萃剧时，脑子里会自动保留最近几集的情节来匡助剖判现时剧情，而不会无穷度地记着每一集的每一个细节。

消融践诺（即逐项考证各个组件后果的践诺）透露，只加入单程序的浅易纪念特征进步有限，而加入蒙版指点和类别指点信息、以及多程序特征后，视频指代分割的J&F方针从53.6大幅跳升至65.0，视频推理分割也从36.5升至53.5。这标明，让纪念模块"记着的不单是画面，还有之前圈出来的蒙版形式和语义类别"，才是时候连贯性的实在要害所在。

此外，盘考团队还盘算推算了一个"区域采样器"，用于处理视觉领导（即用户用鼠标在画面上点击或框选的区域）。它的使命旨趣是在用户指定的感兴趣区域内进行点采样，然后通过自适应池化汇注成紧凑的区域级暗示，注入到大语言模子中，让模子知谈"用户关注的是这个特定区域"。这个模块莫得可学习参数，既轻量又高效。

---

四、X2SAM是怎么熟练出来的？一套用心机算的"结伙熟练食谱"

熟练一个同期处理图片和视频、阴私14种任务的模子，靠近的最大挑战之一是计较资源治理。图片和视频的内存奢侈互异极大——一个视频片断可能包含8帧以致更多，内存占用是单张图片的数倍。若是浅易地把图片和视频混在通盘熟练，要么内存爆炸，要么着力极低。

盘考团队的熟练分两个阶段进行。第一阶段叫作念"无类别分割器熟练"，目的是让蒙版解码器在斗争任何语言指示之前，先学会隧谈的形式和领域感知才略。熟练数据使用SAM的SA-1B数据聚集的蒙版标注，快乐彩app2026世界杯中国官方下载实足不触及任何类别标签，让解码器只关注"这个区域的详尽是什么样的"。这一步就像在教一个画家先练好素描基础，再谈色和洽实质。消融践诺标明，使用SAM无缺的1B数据集（而非子集或COCO数据集）熟练这个阶段，能在险些所有这个词后续任务上都获取更好的后果。

第二阶段是中枢的"长入结伙熟练"，在图片和视频的羼杂数据上同期熟练所有这个词14种任务。为了处罚图片和视频内存奢侈不合称的问题，盘考团队盘算推算了一套"维度鬈曲活水线"：关于视频输入，将时候维度和批次维度作念转置，把一个包含T帧的视频拆解为T张寥寂的图片，用团结套图片级接口通过蒙版编码器处理，然后通过蒙版纪念模块串联起时候依赖磋议，临了再把T帧的蒙版沿时候维度拼接记忆。这么作念的妙处在于，蒙版编码器不需要感知"它在处理视频"，只需要处理一张张图片，大大缩小了工程复杂度。

批次治理上，视频数据的每开辟批次大小固定为1，图片数据则通过批次乘数彭胀为4倍，从而在疏浚的内存预算下让图片数据的GPU期骗率更高。梯度蓄积计谋也字据模态分开成就：图片每步更新一次，视频则蓄积多步后再更新，进一步均衡内存与熟练踏实性。此外，一个特意盘算推算的"时候感知采样器"把时候长度疏浚的视频片断分到团结批次，幸免无谓要的填充。

最终，长入结伙熟练仅需约3300 GPU小时，而对照践诺中的"浅易结伙熟练"需要约5200 GPU小时——爽快了约36.5%的熟练老本，同期在视频任务上还获取了更好的性能。

---

五、X2SAM的践诺得益单：在哪些地点发扬隆起？

盘考团队在多数基准测试上对X2SAM进行了评估，与现存的专用模子和通用模子进行对比。

在图片分割任务上，X2SAM与相通基于图片的通用模子X-SAM比较总体保握竞争力。在图片通用分割（COCO全景分割PQ 54.1、实例分割mAP 45.8）和指代分割（RefCOCOg考证集cIoU 81.9，创下新的最优得益）上发扬矜重。很是值得扫视的是，在图片绽开词汇分割任务上，X2SAM获取了31.2 PQ，较着高于X-SAM的20.9 PQ，阐述X2SAM的语言剖判才略带来了更强的泛化才略。在推理分割任务上，X2SAM以64.5 cIoU和71.1 gIoU的得益越过了HyperSeg（辞别朝上7.8和11.9个百分点），在测试集的短问题和长问题子集上都获取了其时最优得益。

在视频分割任务上，X2SAM的上风更为显赫。在视频指代分割任务中，X2SAM在Ref-YT21数据集上获取了78.5 J&F，在Ref-DV17数据集上获取了79.0 J&F，越过了此前首先的UniPixel-7B辞别7.5和2.6个百分点。在视频推理分割方面，X2SAM在ReVOS数据集上获取了69.9 J&F，比HyperSeg朝上14.2个百分点，以致越过了特意针对视频指代任务盘算推算的ReferFormer-B专用模子。在视频接地对话生成任务上，X2SAM的mIoU为75.8，比VideoGLaMM朝上21.5个百分点，差距特地显赫。

在视觉接地分割任务上，X2SAM在图片端与专用图片模子X-SAM特地（COCO点领导AP 45.9，框领导AP 48.5），在视频端则大幅越过了SAM2-H。具体来说，在YT-VIS19数据集的框领导成就下，X2SAM获取了74.4 AP，而SAM2-H仅为54.0 AP；在更复杂的VIPSeg数据集上，X2SAM获取了57.8 AP，SAM2-H仅为40.4 AP。这一差距充分阐述，迎面对需要语言剖判和时候跟踪双重才略的任务时，隧谈依赖初级视觉领导的SAM2存在较着短板。

在域外泛化测试（即用从未见过的数据集测试）中，X2SAM在gRefCOCO（包含多方针和无方针抒发式的泛化指代分割数据集）上越过了专用的非MLLM模子ReLA，也越过了PSALM和X-SAM等MLLM通用模子。在ADE20K的绽开词汇分割测试中，X2SAM获取了31.2 PQ、38.2 mIoU和20.2 mAP，全面越过ODISE和X-SAM等对比要害。

此外，X2SAM还保留了出色的图片和视频对话才略，在MMBench、SEED-Bench等图片对话基准测试上获取了83.5和76.0的得益，在VideoMME、MVBench、MLVU、LongVideoBench等视频对话基准测试上也发扬优异，越过了Video-LLaVA、VideoChat2、VILA-1.5等专注对话的模子。这阐述在为模子加入风雅分割才略时，团队灵验地看管了模子的通用对话才略退化。

---

六、X2SAM现在还有哪些不及和异日标的？

任何盘考都有其领域，X2SAM也不例外。盘考团队在论文中坦诚地指出了三点局限性。

第一，跨模态的长入熟练仍然计较支出较大，尤其是视频数据的内存占用问题，即便有了现存的优化计谋，熟练老本依然不低，这关于资源有限的盘考团队来说是一个门槛。

第二，固定大小的FIFO纪念库关于超长视频来说可才略不从心。若是方针在视频中阅历了万古候装扮、剧烈外不雅变化，或者隐藏很久后又再行出现，有限容量的纪念模块可能无法灵验保存要害的历史信息，导致跟踪失败。

第三，看成一个通用模子，X2SAM在某些高度特意化的单一任务上仍然过时于专用模子——比如专注于视频对象分割的SAM2-H，在YT-VOS19上的J&F为88.8，而X2SAM为74.0。这是通用性与专科性之间不朽的衡量弃取。

盘考团队暗示，异日使命将探索更高效的熟练要害、更轻量的主干网罗，以及自适应的万古程纪念机制，以期在可彭胀性和鲁棒性上进一步进步。

---

归根结底，X2SAM这项使命的中枢价值在于评释了一件事：让AI同期看懂图片和视频、同期收受语言和视觉领导、同期处理从通用分类到复杂推理的各式任务，并不需要七八套寥寂的系统拼集在通盘——一个长入的框架，加上用心机算的纪念机制和熟练计谋，就不错作念到。这种"大一统"的想路，不仅在工程上更整洁，在性能上也莫得付出较着的代价，在许多任务上反而因为跨任务的学问分享而有所增益。

对平素用户而言，这意味着异日的AI视觉助手可能会变得愈加万能——你不错平直对着监控视频说"帮我跟踪阿谁红色背包的东谈主"，或者对着一段家庭视频说"把两个孩子辞别圈出来并标注他们的阐明轨迹"，系统会当然地剖判你的意图并生成精确的时候连贯蒙版，而不需要你先选模子、再选任务、再辞别操作。

虽然，从盘考原型到日常可用的家具，还有特地长的路要走，但X2SAM的出现标明这条路的标的是显然的。有兴趣深远了解时间细节的读者，不错通过arXiv编号2605.00891查阅无缺论文，代码也已在GitHub上以wanghao9610/X2SAM的地址开源。

---

Q&A

Q1：X2SAM和SAM2有什么区别，为什么招架直用SAM2？

A：SAM2是一个优秀的分割器具，但它只意志鼠标点击和方框这类"物理领导"，实足不睬解语言。你没法跟SAM2说"圈出视频里一直在白墙旁走动的东谈主"，它听不懂。X2SAM在SAM2的基础上加入了大语言模子，能剖判复杂的翰墨描写以致需要推理的指示，同期通过蒙版纪念模块保握视频中的时候连贯性。两者的适用场景不同，SAM2更像一把精确的剪刀，X2SAM更像一个能听懂指示的智能编著助手。

Q2：X2SAM的蒙版纪念模块是怎么保证视频中方针不丢失的？

A：蒙版纪念模块看重着一个"转动纪念库"，保存最近若干帧（默许6帧）的视觉特征和蒙版信息。处理每一帧时，系统会先记忆这些历史记载，把历史信息与现时帧和会，生成时候上连贯的特征，再据此生成蒙版。处理完后，现时帧的信息又被存入纪念库，最旧的帧被自动丢弃。这种"上前看历史、向后传现象"的机制灵验幸免了逐帧寥寂处理时产生的蒙版抖动和方针丢失问题。

Q3：X2SAM需要些许GPU本事熟练，平素盘考团队能用吗？

A：X2SAM的无缺熟练在32块NVIDIA H800 GPU上进行快乐彩2026世界杯(中国)IOS/安卓官方下载，长入结伙熟练阶段共计约奢侈3300 GPU小时。这对大多数高校践诺室来说照实是不小的门槛。不外盘考团队也曾开源了代码和模子权重，平素盘考东谈主员不错平直使用预熟练好的模子进行推理或在极少据集上微调，不需要从新复现无缺熟练经过。

滚球中国官方网站入口

快乐彩2026世界杯(中国)IOS/安卓官方下载中山大学结伙鹏城践诺室、好意思团推出X2SAM

热点资讯

推荐资讯

快乐彩2026世界杯(中国)IOS/安卓官方下载 中山大学结伙鹏城践诺室、好意思团推出X2SAM

热点资讯

推荐资讯

快乐彩2026世界杯(中国)IOS/安卓官方下载中山大学结伙鹏城践诺室、好意思团推出X2SAM