滚球app官网 精确识别「界门纲领科属种」!北大彭宇新团队用细粒度树先验提高泛化,破解生物类别分层识别穷苦

一张蓝锥嘴雀的图片,你能认出它是"鸟",但能认出它是"鸟纲 - 雀形目 - 唐纳雀科 - 锥嘴雀属 - 蓝锥嘴雀"吗?
像大大批东说念主同样,现时的多模态大模子也认不出来。

信得过宇宙中的对象频频包含极其丰富的类别档次,变成类别树结构。比如蓝锥嘴雀是:动物界 - 脊索动物门 - 鸟纲 - 雀形目 - 唐纳雀科 - 锥嘴雀属 - 蓝锥嘴雀(界 - 门 - 纲 - 目 - 科 - 属 - 种)。
区别于传统的细粒度视觉识别,分层视觉识别旨在瞻望所属的悉数类别档次,而不单是瞻望最终的细粒度类别。尽管现存 Finedefics、Fine-R1 等生成式大模子在细粒度视觉识别任务上领路出色,但由于零落类别树学问,无法从粗到细收尾每一层的精确识别。
同期,聘任分层类别标签对比学习得到的判别式大模子(如 BioCLIP、BioCLIP2、BioCAP 等),其表征空间已能充分编码类别树中的类间干系与类内干系。基于上述发现,本文讹诈判别式大模子的表征调换生成式大模子的学习,为多模态大模子学习类别树提供了新旅途。

本文是北京大学彭宇新教学团队在细粒度多模态大模子限制的最新连络限度,有关论文已被 CVPR 2026 给与,并已开源。
布景
尽管现存多模态大模子在细粒度视觉识别上的准确率获取显明提高,但在依赖类别树学问的分层视觉识别任务上,仍无法从粗到细收尾每一层的精确识别。具体地,存在如下 3 点挑战:
1. 同层判别性差:关于更粗粒度的类别档次,"类内各异大"愈加卓越,模子倾向于学习类别共性;关于更细粒度的类别档次,"类间各异小"愈加卓越,模子倾向于学习类别各异。两者的矛盾导致模子难以从粗到细分袂每一层的相似类别。
2. 跨层一致性差:由于模子零落类别树学问,难以保证纵情相邻档次的瞻望类别空隙父子节点干系。举例,瞻望限度为"鹦鹉目 - 裸鼻雀科",但两者不空隙父子节点干系,"裸鼻雀科"应该属于"雀形目"。
3. 新类泛化性差:现存模子倾向于挖掘不同细粒度子类别的各异,忽略了对其共性的追念(用于识别其父节点的辨识性特征),难以准确识别从未见过的新类别。

△ 图 1. 连络布景
针对上述问题,北京大学彭宇新教学团队建议了分类感知表征对都身手(Taxonomy-Aware Representation Alignment,TARA),用于将类别树结构学问注入多模态大模子。通过将大模子与生物基础模子的视觉表征对都,促进大模子索要具备好意思满类别树结构的视觉表征。同期,通过将大模子输出谜底的首个词元表征与经生物基础模子编码后的信得过类别表征对都,促进大模子阐明指定的档次,将具备好意思满类别树结构的视觉表征映射为对应档次的类又名号。
现实限度标明,自己手不仅能增强现存大模子的细粒度视觉识别才略,提高最终的细粒度类别的识别准确率,还能增强分层视觉识别才略,从粗到细提高类别树上每一层的识别准确率。
时代决策
为向多模态大模子注入类别树结构学问,本文建议了分类感知表征对都身手 TARA。如图 2 所示,TARA 包含 2 个主要部分:
1. 分层视觉表征对都:通过将大模子中间层与生物基础模子终末一层的视觉表征对都,促进大模子索要具备好意思满类别树结构的视觉表征。
2. 目田粒度类别表征对都:通过将大模子输出谜底的首个词元表征与经生物基础模子编码后的信得过类别表征对都,促进大模子阐明指定的档次,将具备好意思满类别树结构的视觉表征映射为对应档次的类又名号。
具体如下:

△ 图 2. 分类感知表征对都身手(TARA)框架图
1. 分层视觉表征对都。
经分层类别标签覆按的生物基础模子(举例, BioCLIP、BioCLIP2、BioCAP 等)能提供包含分类学信息的监督信号,滚球app(中国)官网下载促进大模子索要具备好意思满类别树结构的视觉表征。具体地,给定输入图像 I 和识别特定档次类别的问题 q(举例,"图中动物属于什么门 / 纲 / 目 / 科 / 属 / 种?从如下选项中弃取: [ 信得过类别,相似类别 1,相似类别 2,相似类别 3 ] "),生物基础模子的视觉编码器 ε v ( · ) 输出臆想打算视觉特征� �img= ε v ( I ) ∈ RN × d,其中 d 暗示生物基础模子的特征维度。大讲话模子第ℓ层的视觉表征暗示为� � ℓ img ∈ RN × D,聘任可学习的映射层 PV ( · ) 将其映射到生物基础模子的视觉特征空间,并最小化如下对都蚀本:

2. 目田粒度类别表征对都。
一张图像同期对应不同档次的类别标签,但用户渴望识别的类别档次是不同的。举例,各人可能但愿在"种"档次上将对象识别为阿卡迪亚霸鹟,而庸俗用户只需要在"纲"档次上将其识别为鸟。通过在统一档次上对都生物基础模子和大模子的类别文本表征,促进大模子将具备好意思满类别树结构的视觉表征映射为对应档次的类又名号。具体地,生物基础模子的文本编码器 ET ( · ) 输出臆想打算文本特征 ylabel=ET ( C ) ∈ Rd,其中 C 暗示在渴望档次上的信得过类又名号。大讲话模子第 m 层的谜底表征序列暗示为 emanswer ∈ RN ′ × D,聘任可学习的映射层 PT ( · ) 将谜底的首个词元表征映射到生物基础模子的文本特征空间,并最小化如下对都蚀本:

最终,TARA 的对都蚀本界说为两者的均值:
3. 模子覆按和推理:
在覆按阶段,聘任无需念念考的强化微调(No Thinking RFT)和 TARA 轮流优化大模子、映射层 PV ( · ) 与 PT ( · ) ,促进大模子适配分层视觉识别领导的同期学习类别树学问。在推理阶段,生物基础模子和映射层 PV ( · ) 与 PT ( · ) 均不参与运算,胜利由优化后的大模子进行识别。
现实限度

△ 表 1. iNaturalist-Plant 与 iNaturalist-Animal 分层视觉识别限度
表 1 展示了在 iNaturalist-Plant 与 iNaturalist-Animal 上的分层视觉识别限度。自己手不仅能增强多种大模子的细粒度视觉识别才略,提高最终的细粒度类别的识别准确率,还能增强分层视觉识别才略,从粗到细提高类别树上每一层的识别准确率。

△ 表 2. TerraIncognita 的新类别(已有类别树以外的类别)分层视觉识别限度
表 2 展示了在 TerraIncognita 的新类别(已有类别树以外的类别)的分层视觉识别限度。这部分新类别不仅是模子强化微调覆按都集未见类别,更是止境或记载小数的物种图像,在公开数据中险些莫得或十足莫得可用样本,更不能能出现时模子的预覆按数据中。
关于其中许种种本,很可能是科学界尚未崇拜刻画的新物种,现时只可可靠地确定其较高级次的分类标签(如"目"和"科")。自己手通过引入类别树先验,促进模子学习子类别的共性,从而追念出用于识别父类别的判别性特征,提高已知类别树以外的新类别的识别准确率。

△ 图 3. 分类感知表征对都身手(TARA)案例展示
图 3 的案例展示标明,比拟阿里的 Qwen3-VL-2B 大模子,自己手能提高同层判别性与跨层一致性,既分袂开统一层的相似类别,又确保相邻档次的瞻望类别空隙父子节点干系。
神气价值
针对现存多模态大模子零落类别树学问,无法从粗到细收尾每一层的精确识别的问题,本文建议了分类感知表征对都身手 TARA,通过对都大模子与生物基础模子的中间表征,注入类别树结构学问,不仅能提高最终的细粒度类别的识别准确率,还能增众多模子的分层视觉识别才略,从粗到细提高类别树上每一层的识别准确率。
论文标题:
Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
论文聚合:
https://arxiv.org/abs/2603.00431
开源代码:
https://github.com/PKU-ICST-MIPL/TARA_CVPR2026
现实室网址:
https://www.wict.pku.edu.cn/mipl
一键三连「点赞」「转发」「着重心」
留情在指摘区留住你的意见!
— 完 —
咱们正在招聘一名眼疾手快、祥和 AI 的学术裁剪实习生 � �
感兴味的小伙伴留情祥和 � � 了解确定

� � 点亮星标 � �
科技前沿进展逐日见滚球app官网
HG真人游戏官方网站
备案号: