VLM视觉推理挑战:GPT-4o与Claude 3.5表现一般

近期的研究揭示了多模态语言模型在视觉任务上的尴尬表现,尽管它们被描绘成具有“视觉能力”,但在最基础的图形识别上却频频“翻车”。奥本大学和阿尔伯塔大学的研究人员对GPT-4o、Gemini 1.5 Pro等先进模型进行了严格测试,结果令人惊讶。

GPT中文站在7个看似简单的任务中,如判断折线交点、识别圆的相交关系、圈出字母等,即使是人类轻而易举的任务,这些模型的表现却远低于预期。尽管像Claude 3.5 Sonnet在某些图表识别测试中得分较高,但在处理线段交叉和形状重叠时,它们更像是“近视”的,对细节的理解模糊不清,甚至有时只能依赖猜测。

例如,当涉及环状结构时,模型在五环问题上表现优异,但一旦环数增加,准确率就会显著下滑。同样,计算嵌套正方形的数量和识别路线图的能力也显示出模型的局限性。

研究人员Anh Nguye强调,这些任务对人类来说易如反掌,但模型的正确率往往低于随机猜测,表明它们并未真正实现视觉理解。模型更像是基于文本提示进行“想象”,而非基于视觉输入进行精确判断。

GPT中文站认为这项研究提醒我们,尽管视觉大语言模型在某些特定场景下可能展现出惊人的性能,但在理解视觉细节和逻辑推理上,它们与人类的理解仍有显著差距。未来的研究和开发应更加清晰地定义模型的能力边界,并避免过度夸大其视觉功能。尽管如此,这些模型在理解和处理非视觉内容上仍具有价值,关键在于正确评估和应用它们的优势

最近,视觉大语言模型(VLM)在基础视觉任务上的表现引起了广泛关注。特别是在处理简单的折线交点计算时,这些模型的表现并不理想,远远落后于人类的表现水平。

Anh Nguye等合著者在最新研究中强调,他们设计的七项任务十分简单,人类在这些任务上的表现准确率可以达到100%。然而,VLM在这些任务中的表现却不尽如人意。

任务1:计算两条折线的交点数量

在这项任务中,VLM被要求判断由两条折线组成的图形中交点的数量。具体实验设计包括在白色画布上绘制150幅图像,每幅图像由两条由三个点定义的折线组成。这些点的x坐标固定且等距,y坐标通过随机采样获得,从而创建出了交点数量为0、1或2的不同图像。

特别是当两条折线之间的距离变窄时,VLM的表现往往会更加不稳定和错误。这表明,目前的视觉大语言模型在处理如折线交点计算等基础视觉任务上的能力尚未达到人类的标准,甚至难以达到基本的预期水平。

视觉语言模型(VLM)的视觉推理能力评估

任务2:圆的相交相切相离问题

在初中几何中,圆的相交、相切和相离是基础概念。然而,对于视觉语言模型(VLM)来说,判断两个圆形的相对位置(无论是重叠、接触还是分离)是一个挑战。尽管在两个圆形相距较远时,GPT-4o的正确率超过95%,但在零距离或很小距离时,其正确率仅为18%,低于随机猜测的50%。Gemini Pro 1.5表现最佳,平均准确率达到92.78%,但在两圆距离较近时正确率也只有70%。

任务3:识别被圈起来的字母

这项任务要求VLM识别被红圈圈出的字母。虽然VLM能够识别红圈形状并拼出单词,但在识别被圈出的确切字母时遇到困难。当字母被部分遮挡时,VLM往往会出错,通常会预测相邻的字母。Gemini-1.5和Sonnet-3.5在识别被圈出的字母方面表现较好,但仍存在误差。

任务4:环环相扣问题

这项任务测试VLM计算互锁圆圈数量的能力。当图中有五个环时,模型都能100%正确;一旦多一个环,VLM则完全无法正确识别。这表明VLM在处理超出常见模式的图像时表现不佳。

任务5:嵌套正方形

在嵌套正方形的任务中,VLM在计算嵌套正方形数量时表现不佳。GPT-4o和Gemini-1.5的准确率较低,而Gemini-1.5和Claude3.5的准确率较高。

任务6:表格有几列和几行?

尽管VLM在DocVQA任务中表现出色,但在计算空白网格的行数和列数时仍然存在困难。当网格单元中包含文本时,VLM的性能会有所提高。

任务7:识别路线图

这项任务测试VLM识别特定颜色路径的能力。即使两站之间只有一条颜色的路径,也没有模型能达到100%的准确率。随着路径复杂性提升,VLM的性能明显下降。

VLM的“盲目性”

VLM在视觉推理任务中的不稳定表现表明,它们可能无法真正理解图像中的概念,如环、重叠等。尽管VLM在某些任务上表现出高度的准确性,但它们的“盲目性”揭示了其与人类视觉理解的本质区别。

结论

这项研究提醒我们,不应过度拟人化VLM的能力。尽管VLM在许多任务上表现出色,但它们在视觉推理方面的局限性表明,它们并不具备人类所理解的“视力”。因此,我们需要更谨慎地评估和使用这些模型,避免对其能力做出不切实际的期望。