多模态ai模型评估:冗余测试的系统性分析
近期,上海AI Lab、上海交大和浙江大学的研究团队发现,当前流行的多模态大模型基准测试存在大量冗余。该团队对20多个主流基准和100多个模型进行了系统性分析,结果显示,许多测试的效率低下,存在大量重复劳动。
△图表 1 Quick Look
研究发现,减少一半的测试实例,并不会显著影响模型排名。一些任务,例如图像情感和社会关系,其评估能力存在高度重叠;而像名人识别这样的知识型任务,则相对独立。
研究方法
多模态大模型的性能评估依赖于复杂的基准测试。然而,研究团队发现基准测试本身存在冗余:一些维度虽然名称不同,但测试能力高度相似;一些实例高度相似,信息冗余;一些领域内的基准也存在重叠。
为此,研究团队提出了一个衡量基准冗余度的框架,涵盖三个层面:
- 维度冗余: 评估不同维度间的排序相似性,相似性越高,冗余度越高。
- 实例冗余: 通过随机抽取实例子集,计算其与完整数据集排序的相关性,相关性越高,冗余度越高。
- 跨基准冗余: 评估不同基准间的排序相关性,相关性越高,冗余度越高。
该框架利用斯皮尔曼排名相关系数(SRCC)、皮尔逊线性相关系数(PLCC)和
R²分数来量化相关性。 此外,研究还进行了Top-K分析,分别分析了性能最佳和最差的模型的冗余情况。
实验结果
研究团队以MMBench基准测试为例,分析了维度冗余。结果显示,图像情感和社会关系任务高度冗余;结构化图像-文本理解与空间关系、OCR和自然关系任务也存在显著冗余;而名人识别任务则相对独立。 Top-50模型的维度冗余度低于Bottom-50模型,这表明高性能模型在不同任务上的表现差异更大。
△ 图表 3 MMBench Top-50 SRCC 子维度热图
△ 图表 4 MMBench Bottom-50 SRCC 子维度热图
实例冗余分析显示,至少50%的实例是冗余的,减少一半实例不会显著影响排名。 Bottom-50模型所需的实例数量少于Top-50模型。
跨基准冗余分析以数学领域为例,研究发现不同数学基准测试的相关性差异较大,MathVista基准测试的冗余度最低。 通过去除MathVista中与数学能力关联性较弱的任务,其与其他基准的冗余度显著增加。
结论与建议
这项研究揭示了多模态大模型基准测试中普遍存在的冗余问题,并提出了一个衡量冗余度的框架。 该框架可以用于优化基准设计,提高评估效率,并最终构建更精简有效的评估生态系统。 研究建议根据领域核心能力和独特能力,设计更有效的基准测试,减少冗余,提高评估效率。
论文链接:https://www./link/ffb5597397de30f24dfafbf479c92861
Github 链接:https://www./link/ba32ac4781099e7ffe65f42e3cdf3d34
文章推荐更多>
- 1macOS防火墙配置:阻止特定应用联网
- 2oracle监听怎么开
- 3内存取证分析:使用Volatility检测隐藏威胁
- 4redis怎么解决数据一致性
- 5mysql数据库如何恢复
- 6UC缓存m3u8转MP4教程
- 7电脑黑屏按什么键恢复 电脑黑屏恢复快捷键大全轻松解决黑屏问题
- 8uc浏览器地址栏在哪里 uc浏览器地址栏位置与使用技巧
- 9oracle数据库怎么备份表数据
- 10华为UC浏览器缓存视频转存
- 11oracle数据库怎么备份数据
- 12uc浏览器官网网页版入口 uc浏览器官网网页进入地址
- 13谷歌浏览器入口网页版 谷歌浏览器入口直接打开
- 14php和dedecms的区别
- 15电脑微信怎么截图 微信内置截图功能使用技巧
- 16wordpress防采集插件怎么用
- 17wordpress主题怎么本地安装
- 18mysql怎么更改安装路径
- 19wordpress主题和插件区别
- 20UAC用户账户控制:禁用与启用的安全权衡
- 21WordPress怎么自动发布文章
- 22安卓UC浏览器视频导出教程
- 23电脑上怎么任意截屏 自由截屏操作方法
- 24电脑键盘怎样换成中文 中文输入法设置方法
- 25谷歌浏览器如何使用 谷歌浏览器新手使用教程
- 26怎么连接mysql数据库
- 27phpmyadmin怎么添加外键约束
- 28c盘怎么恢复到出厂状态 重置c盘的4个注意事项
- 29redis缓存怎么清理
- 30 长沙做网站要多少钱,长沙国安网络怎么样?
