滚球app(中国)官网下载浙大团队破解多模态模子「盲目自信」：先校准置信度，再分派算力

发布日期：2026-03-23 10:03 点击次数：126

多模态大模子，到底有多"插嗫"？

浙江大学结伴阿里巴巴、香港城市大学、密歇根大学的计算团队作念了一个很告成的实验：

把输入图像从明晰情景全部加噪到接近不能辨别，同期捏续监测模子的准确率与置信度。

放荡是，准确率断崖式下降，但置信度险些不动。也即是说，图像照旧看不清了，模子仍然会高置信度地给出谜底。

这类"盲目自信"，恰是多模态大模子在复杂视觉推理中产生幻觉和误判的进军根源。针对这一问题，计算团队提议了CA-TTS（Confidence-Aware Test-Time Scaling）框架：先通过置信度运行的强化学习校准模子的自我评估身手，再把校准后的置信度蜕变为推理阶段的资源分派信号。

成果也很告成：在四个主流视觉推理基准上，CA-TTS 全面达到 SOTA，平均越过现存最优身手 8.8%。其中，在 Math-Vision 上，准确率从基线的 23.0% 提高到 42.4%。论文已被CVPR 2026采纳。

达尔文早就说过：无知比学问更容易产生自信

这项使命的起点，其实是一个长期被疏远的问题：模子是否真的知说念我方"不知说念"？

计算团队将上述表象界说为"感知钝化"（Perceptual Bluntness）。也即是，模子对视觉信息质料的变化短少明锐性，视觉凭证照旧显明退化，但置信度仍督察在高位。放在东说念主类语境里，这很像一个东说念主在看不清题目的情况下，仍然相称笃定地报出谜底。

为了在多模态场景下更踏实地度量这种问题，计算团队莫得沿用文本模子里常见的 token 级校准神色，而是将置信度界说为通盘这个词输出序列的平均负对数概率（NMLP），诞生反应级别的置信度度量。基于这一度量，整套身手分红两个阶段：老师阶段的置信度校准，以及推理阶段的置信度感知彭胀。

第一步：CDRL 让视觉感知与置信度重新对皆

老师阶段的中枢模块是 CDRL（Confidence-Driven Reinforcement Learning）。它的方针不是单纯提高答题准确率，而是让模子在"看得清"和"看不清"两种情况下，给出与视觉凭证相匹配的置信度。

具体作念法是，让模子同期处理吞并问题的原始图像与加噪图像，并通过强化学习优化一个双重奖励机制：

1. 感知明锐性奖励：饱读吹模子在原始图像与噪声图像之间产生合理的置信度各异。各异越大，阐述模子越能感知视觉退化。

2. 校准一致性奖励：当模子瞻望正确且置信度高时予以正向奖励；当模子瞻望诞妄但置信度仍高时施加贬责。

这两个奖励共同抵制模子学会两件事：一是对视觉退化保捏明锐，二是对自身判断保捏老师。

在老师数据上，计算团队从 6 个公开基准中筛选出 1936 个高质料样本，并使用 CLIP 宝贵力争定位关节视觉区域，生成更具针对性的扰动，使噪声集会施加在真实影响推理的局部区域。

从放荡看，CDRL 的成果并不仅仅"置信度变低"这样通俗，而是"置信度终于跟视觉凭证对上了"。面临噪声图像时，老师后的模子置信度下降幅度是老师前的 4.3 倍；面临装扮条目时，这一比值达到 4.7 倍。

更值得宝贵的是，老师前模子在视角变换和马赛克侵略下，置信度致使还会反朝上涨，而 CDRL 老师后，通盘视觉扰动条目下的置信度都转为显赫下降，ECE 与 AUC 方针也同步改善。

第二步：CA-TTS 把校准后的置信度形成推理信号

有了更真的的置信度之后，计算团队进一步提议 CA-TTS，把"模子对我方有多确定"蜕变为推理阶段的调遣信号。它包含三个协同使命的模块，并由大家模子动态决定何时介入：

Self-Consistency：不再使用通俗无数投票，而是聘用置信度加权投票。模子生成多个候选谜底后，先由里面置信度进行团聚，再引入大家模子动作外部校准器，对候选谜底进行二次评估。

Self-Reflection：当初步放荡的置信度不实时，大家模子以 Critic 变装生成品评见地，指引基础模子重新推理，幸免它在原有诞妄旅途上反复自洽。

Self-Check：在视觉层面临谜底作念进一步考证。通过对比解码，滚球app官网比拟原始图像与噪声图像下的输出概率分散；若是谜底如实依赖视觉凭证，那么在噪声图像下其复古度应当下降。

与常见的 Tree-of-Thoughts 不同，CA-TTS 的关节不仅仅"多想几步"，而是诞生了一个多阶段考证闭环。前一阶段即使给出诞妄候选，后续模块仍有契机修订它。论文中的"墙上缺了若干块砖"案例就体现了这少许：Tree-of-Thoughts 在最终单点评估上失手，而 CA-TTS 通过加权投票、反念念和视觉自检三步纠偏，最终复原出正确谜底。

实验放荡：四大基准全面最初

在四个主流视觉推理基准上，CA-TTS 的发达如下。需要强调的是，这里的基座模子妥洽为 Qwen2.5-VL-7B，因此提高主要来自身抄自身，而不是底座各异。

几组数字尤其有代表性。Math-Vision 上，CA-TTS 从基线的 23.0% 告成提高到 42.4%，险些翻倍；MMMU 上达到 66.3%，相较基线提高 17.5 个百分点。这阐述它带来的不是单点收益，而是在不同类型视觉推理任务上的一致性翻新。

消融实验进一步揭示了 CDRL 与 CA-TTS 的单干关联：

单独使用 CDRL，提高 3.4 个百分点，阐述置信度校准自身就有孤独价值；单独使用 CA-TTS，提高 15.0 个百分点，阐述推理框架照旧简略显赫改善有计算质料；两者攀附后总提高达到 19.4 个百分点，标明 CDRL 为 CA-TTS 提供了更可靠的计策基础，二者存在显明协同效应。

计算团队还推行了大家模子的依赖流程。即使让 Qwen2.5-VL-7B 自身充任"大家"，性能也仍比纯 Majority Voting 跳动接近 5 个百分点（32.57% vs. 27.65%）。换句话说，广泛众模子如实能进一步放大收益，但框架自身并不是靠"抱大腿"树立的。

Test-Time Scaling：斜率拉开，才是更关节的放荡

若是说四个基准上的 SOTA 阐述身手"更准"，那么 test-time scaling 弧线揭示的是它"为什么更值"。

在 Math-Vision 上，计算团队比拟了采样数目从 1 增多到 32 时，不同身手的准确率增长趋势。放荡清晰，CA-TTS 的彭胀斜率 β = 3.65，而 Majority Voting 为 1.64，DeepConf 为 1.19。也即是说，CA-TTS 的彭胀效能远隔是后两者的 2.2 倍和 3.1 倍。

这意味着，一样是增多采样次数，CA-TTS 并不是"更常常地碰气运"，而是更有用地把特等算力投向真实不确定的问题上。当 Majority Voting 和 DeepConf 在 35% 附近冉冉趋于破坏时，CA-TTS 仍能络续爬升，并最终防碍 45%。

从这个角度看，置信度校准并不是一个附属优化项，而是在重新界说 test-time scaling 的效能上限。它让"多算少许"这件事第一次变得更有方针感。

从"先推理后感知"到"先感知后推理"

这项使命最值得存眷的所在，可能并不仅仅又一个更高的 benchmark 分数，而是它提议了一种新的问题限定。

往时，多模态推理计算默许的前提是：模子照旧在充分哄骗视觉信息，接下来只需要把推理身手作念强。但这篇论文教唆咱们，一个模子可能根柢莫得真实"看懂"图像，却依然能给出高度自信的恢复。若这个前提莫得被修正，后续再复杂的推理链条，也可能诞生在不能靠的感知基础上。

CA-TTS 的念念路碰巧反过来：先通过 CDRL 诞生对视觉凭证变化明锐、且与准确性一致的置信度，再让这种置信度去指挥推理资源的分派。这是一种明确的 Perceive-then-Reason 范式，也即是从"先推理后感知"转向"先感知后推理"。

固然，这一方针也并非莫得代价。屡次采样与大家模子调用会带来特等推理资本，现时实验也主要集会在数学推理和通用 VQA 任务上。但若是方针是让多模态大模子在高风险场景中真实作念到"知说念我方什么时辰不该太自信"，那么这条阶梯照旧给出了一个很有劝服力的最先。

论文标题：

Linking Perception， Confidence and Accuracy in MLLMs

作家：

Yuetian Du*， Yucheng Wang*， Rongyu Zhang， Zhijie Xu， Boyu Yang， Ming Kong， Jie Liu#， Qiang Zhu#

单元：

浙江大学、阿里巴巴集团、香港城市大学、密歇根大学

发表：

CVPR 2026

技俩荟萃：

https://github.com/anotherbricki/CA-TTS

作家简介：

本文第一作家为杜越天，浙江大学博士生，计算方针为多模态大模子的置信度校准与 test-time scaling，导师为朱强诠释。本文在朱强诠释和刘洁博士的指挥下完成。

一键三连「点赞」「转发」「防卫心」

接待在评述区留住你的想法！

— 完 —

咱们正在招聘又名眼疾手快、存眷 AI 的学术剪辑实习生 � �

感兴趣的小伙伴接待存眷 � � 了解确定

� � 点亮星标 � �

科技前沿进展逐日见滚球app(中国)官网下载

6686体育官方网站入口

上一篇：滚球app官网 Meta又一AI大将跟LeCun跑了
下一篇：滚球app 视频丨伊朗发动“真确应许-4”第75轮军事手脚

滚球app(中国)官网下载 浙大团队破解多模态模子「盲目自信」：先校准置信度，再分派算力

热点资讯

滚球app(中国)官网下载浙大团队破解多模态模子「盲目自信」：先校准置信度，再分派算力