滚球app(中国)官网下载 浙大团队破解多模态模子「盲目自信」:先校准置信度,再分派算力

发布日期:2026-03-23 10:03    点击次数:126

滚球app(中国)官网下载 浙大团队破解多模态模子「盲目自信」:先校准置信度,再分派算力

多模态大模子,到底有多"插嗫"?

浙江大学结伴阿里巴巴、香港城市大学、密歇根大学的计算团队作念了一个很告成的实验:

把输入图像从明晰情景全部加噪到接近不能辨别,同期捏续监测模子的准确率与置信度。

放荡是,准确率断崖式下降,但置信度险些不动。也即是说,图像照旧看不清了,模子仍然会高置信度地给出谜底。

这类"盲目自信",恰是多模态大模子在复杂视觉推理中产生幻觉和误判的进军根源。针对这一问题,计算团队提议了CA-TTS(Confidence-Aware Test-Time Scaling)框架:先通过置信度运行的强化学习校准模子的自我评估身手,再把校准后的置信度蜕变为推理阶段的资源分派信号。

成果也很告成:在四个主流视觉推理基准上,CA-TTS 全面达到 SOTA,平均越过现存最优身手 8.8%。其中,在 Math-Vision 上,准确率从基线的 23.0% 提高到 42.4%。论文已被CVPR 2026采纳。

达尔文早就说过:无知比学问更容易产生自信

这项使命的起点,其实是一个长期被疏远的问题:模子是否真的知说念我方"不知说念"?

计算团队将上述表象界说为"感知钝化"(Perceptual Bluntness)。也即是,模子对视觉信息质料的变化短少明锐性,视觉凭证照旧显明退化,但置信度仍督察在高位。放在东说念主类语境里,这很像一个东说念主在看不清题目的情况下,仍然相称笃定地报出谜底。

为了在多模态场景下更踏实地度量这种问题,计算团队莫得沿用文本模子里常见的 token 级校准神色,而是将置信度界说为通盘这个词输出序列的平均负对数概率(NMLP),诞生反应级别的置信度度量。基于这一度量,整套身手分红两个阶段:老师阶段的置信度校准,以及推理阶段的置信度感知彭胀。

第一步:CDRL 让视觉感知与置信度重新对皆

老师阶段的中枢模块是 CDRL(Confidence-Driven Reinforcement Learning)。它的方针不是单纯提高答题准确率,而是让模子在"看得清"和"看不清"两种情况下,给出与视觉凭证相匹配的置信度。

具体作念法是,让模子同期处理吞并问题的原始图像与加噪图像,并通过强化学习优化一个双重奖励机制:

1. 感知明锐性奖励:饱读吹模子在原始图像与噪声图像之间产生合理的置信度各异。各异越大,阐述模子越能感知视觉退化。

2. 校准一致性奖励:当模子瞻望正确且置信度高时予以正向奖励;当模子瞻望诞妄但置信度仍高时施加贬责。

这两个奖励共同抵制模子学会两件事:一是对视觉退化保捏明锐,二是对自身判断保捏老师。

在老师数据上,计算团队从 6 个公开基准中筛选出 1936 个高质料样本,并使用 CLIP 宝贵力争定位关节视觉区域,生成更具针对性的扰动,使噪声集会施加在真实影响推理的局部区域。

从放荡看,CDRL 的成果并不仅仅"置信度变低"这样通俗,而是"置信度终于跟视觉凭证对上了"。面临噪声图像时,老师后的模子置信度下降幅度是老师前的 4.3 倍;面临装扮条目时,这一比值达到 4.7 倍。

更值得宝贵的是,老师前模子在视角变换和马赛克侵略下,置信度致使还会反朝上涨,而 CDRL 老师后,通盘视觉扰动条目下的置信度都转为显赫下降,ECE 与 AUC 方针也同步改善。

第二步:CA-TTS 把校准后的置信度形成推理信号

有了更真的的置信度之后,计算团队进一步提议 CA-TTS,把"模子对我方有多确定"蜕变为推理阶段的调遣信号。它包含三个协同使命的模块,并由大家模子动态决定何时介入:

Self-Consistency:不再使用通俗无数投票,而是聘用置信度加权投票。模子生成多个候选谜底后,先由里面置信度进行团聚,再引入大家模子动作外部校准器,对候选谜底进行二次评估。

Self-Reflection:当初步放荡的置信度不实时,大家模子以 Critic 变装生成品评见地,指引基础模子重新推理,幸免它在原有诞妄旅途上反复自洽。

Self-Check:在视觉层面临谜底作念进一步考证。通过对比解码,滚球app官网比拟原始图像与噪声图像下的输出概率分散;若是谜底如实依赖视觉凭证,那么在噪声图像下其复古度应当下降。

与常见的 Tree-of-Thoughts 不同,CA-TTS 的关节不仅仅"多想几步",而是诞生了一个多阶段考证闭环。前一阶段即使给出诞妄候选,后续模块仍有契机修订它。论文中的"墙上缺了若干块砖"案例就体现了这少许:Tree-of-Thoughts 在最终单点评估上失手,而 CA-TTS 通过加权投票、反念念和视觉自检三步纠偏,最终复原出正确谜底。

实验放荡:四大基准全面最初

在四个主流视觉推理基准上,CA-TTS 的发达如下。需要强调的是,这里的基座模子妥洽为 Qwen2.5-VL-7B,因此提高主要来自身抄自身,而不是底座各异。

几组数字尤其有代表性。Math-Vision 上,CA-TTS 从基线的 23.0% 告成提高到 42.4%,险些翻倍;MMMU 上达到 66.3%,相较基线提高 17.5 个百分点。这阐述它带来的不是单点收益,而是在不同类型视觉推理任务上的一致性翻新。

消融实验进一步揭示了 CDRL 与 CA-TTS 的单干关联:

单独使用 CDRL,提高 3.4 个百分点,阐述置信度校准自身就有孤独价值;单独使用 CA-TTS,提高 15.0 个百分点,阐述推理框架照旧简略显赫改善有计算质料;两者攀附后总提高达到 19.4 个百分点,标明 CDRL 为 CA-TTS 提供了更可靠的计策基础,二者存在显明协同效应。

计算团队还推行了大家模子的依赖流程。即使让 Qwen2.5-VL-7B 自身充任"大家",性能也仍比纯 Majority Voting 跳动接近 5 个百分点(32.57% vs. 27.65%)。换句话说,广泛众模子如实能进一步放大收益,但框架自身并不是靠"抱大腿"树立的。

Test-Time Scaling:斜率拉开,才是更关节的放荡

若是说四个基准上的 SOTA 阐述身手"更准",那么 test-time scaling 弧线揭示的是它"为什么更值"。

在 Math-Vision 上,计算团队比拟了采样数目从 1 增多到 32 时,不同身手的准确率增长趋势。放荡清晰,CA-TTS 的彭胀斜率 β = 3.65,而 Majority Voting 为 1.64,DeepConf 为 1.19。也即是说,CA-TTS 的彭胀效能远隔是后两者的 2.2 倍和 3.1 倍。

这意味着,一样是增多采样次数,CA-TTS 并不是"更常常地碰气运",而是更有用地把特等算力投向真实不确定的问题上。当 Majority Voting 和 DeepConf 在 35% 附近冉冉趋于破坏时,CA-TTS 仍能络续爬升,并最终防碍 45%。

从这个角度看,置信度校准并不是一个附属优化项,而是在重新界说 test-time scaling 的效能上限。它让"多算少许"这件事第一次变得更有方针感。

从"先推理后感知"到"先感知后推理"

这项使命最值得存眷的所在,可能并不仅仅又一个更高的 benchmark 分数,而是它提议了一种新的问题限定。

往时,多模态推理计算默许的前提是:模子照旧在充分哄骗视觉信息,接下来只需要把推理身手作念强。但这篇论文教唆咱们,一个模子可能根柢莫得真实"看懂"图像,却依然能给出高度自信的恢复。若这个前提莫得被修正,后续再复杂的推理链条,也可能诞生在不能靠的感知基础上。

CA-TTS 的念念路碰巧反过来:先通过 CDRL 诞生对视觉凭证变化明锐、且与准确性一致的置信度,再让这种置信度去指挥推理资源的分派。这是一种明确的 Perceive-then-Reason 范式,也即是从"先推理后感知"转向"先感知后推理"。

固然,这一方针也并非莫得代价。屡次采样与大家模子调用会带来特等推理资本,现时实验也主要集会在数学推理和通用 VQA 任务上。但若是方针是让多模态大模子在高风险场景中真实作念到"知说念我方什么时辰不该太自信",那么这条阶梯照旧给出了一个很有劝服力的最先。

论文标题:

Linking Perception, Confidence and Accuracy in MLLMs

作家:

Yuetian Du*, Yucheng Wang*, Rongyu Zhang, Zhijie Xu, Boyu Yang, Ming Kong, Jie Liu#, Qiang Zhu#

单元:

浙江大学、阿里巴巴集团、香港城市大学、密歇根大学

发表:

CVPR 2026

技俩荟萃:

https://github.com/anotherbricki/CA-TTS

作家简介:

本文第一作家为杜越天,浙江大学博士生,计算方针为多模态大模子的置信度校准与 test-time scaling,导师为朱强诠释。本文在朱强诠释和刘洁博士的指挥下完成。

一键三连「点赞」「转发」「防卫心」

接待在评述区留住你的想法!

—  完  —

咱们正在招聘又名眼疾手快、存眷 AI 的学术剪辑实习生  � �

感兴趣的小伙伴接待存眷 � �  了解确定

� � 点亮星标 � �

科技前沿进展逐日见滚球app(中国)官网下载

6686体育官方网站入口