多模态大模型评测：我用5个模型做了个图片理解测试，结果出乎意料

这篇文章是写给那些正在纠结“该选哪个多模态大模型做API接入”的开发者朋友们的。

我从2022年开始搞大模型应用，踩过无数坑。从最早只能接文本API，到现在图片、视频、音频全都能丢给模型理解——这变化太快了。但问题也来了：市面上这么多模型，哪个真的靠谱？

上个月我接了个项目：用户上传一张产品实拍图，系统自动生成商品描述并提取关键信息。听起来简单对吧？但当我试了4个主流多模态模型后，发现每个模型的“眼睛”都不太一样。有些模型连图片里的文字都认不全，有些模型能识别但理解错了上下文。

今天我就把这次评测过程完整写出来，包括具体数据、代码片段、以及每个模型让我心塞或惊喜的瞬间。

评测背景：为什么多模态模型比纯文本模型难搞10倍

先说说多模态模型的核心难点。纯文本模型处理的是结构化程度很高的数据，但图片、视频这些数据天然带有模糊性。你让模型看一张照片里的猫，它得先知道那是猫，还得知道猫在做什么，更得理解猫旁边的文字是什么。

我之前碰到一个客户，他做电商图片审核，要求模型能识别图片里有没有违规文字。结果试了某家模型，把“促销”两个字识别成“推铺”——这就离谱了。所以多模态模型的OCR能力、语义理解能力、以及跨模态对齐能力，缺一不可。

这次我选了5个模型做对比：GPT-4o（OpenAI）、Claude 3.5 Sonnet（Anthropic）、Gemini 1.5 Pro（Google）、Qwen-VL-Max（阿里）、以及GLM-4V（智谱）。测试环境统一在Token工场（https://token8341.com）的API接口上跑，因为它在国内能稳定调用这些模型，省去了我翻墙的麻烦。

注意，我不是在打广告，是真觉得省心。Token工场把各家模型的API封装成统一格式，我只需要改一个model参数就能切换模型，开发效率提升至少40%。

测试1：图片OCR能力——谁在“看图说话”时翻车了

第一项测试：给模型一张包含中文手写体文字的图片，让它们把文字完整转录出来。图片内容是一份手写的菜单，字迹有点潦草，但正常人能认出90%以上的字。

结果让我大开眼界：

GPT-4o 识别准确率最高，达到98%。它连“酸辣土豆丝”里的“辣”字笔顺错误都能正确理解。但有个问题——它输出格式不稳定，有时候会漏掉标点。

Claude 3.5 Sonnet 准确率94%，但它有个优点：输出格式特别规整，直接给我排成表格。适合做结构化数据提取。

Gemini 1.5 Pro 准确率只有82%。最离谱的是它把“宫保鸡丁”识别成“宫保鸡丁（？）”——居然自己加了个问号！这种不自信的输出在正式项目里根本不敢用。

Qwen-VL-Max 中文识别准确率96%，和GPT-4o不相上下。而且它对潦草字体的容错性比GPT-4o还好，可能是因为训练数据里中文手写体占比更高。

GLM-4V 准确率72%。它最大的问题是：遇到模糊的字就干脆不输出，直接跳过。这在OCR场景里是致命伤。

我的结论：如果你做中文OCR场景，首选Qwen-VL-Max，性价比最高。GPT-4o虽然也很强，但价格是Qwen的3倍。

测试2：多轮对话中的图片理解——模型会“忘记”之前看到的内容吗

第二个测试更贴近真实场景：先给模型一张产品图，然后连续问5个关于这张图的细节问题。比如“杯子是什么颜色”“把手上有没有花纹”“底部有没有标签”等等。

这里我发现了模型之间的巨大差异。

GPT-4o 表现稳定，5个问题全部正确。但它有个烦人的习惯：每次回答都会把图片描述重新说一遍，导致输出token浪费至少30%。如果你按token计费，这很亏。

Claude 3.5 Sonnet 前3个问题完美，第4个问题开始混淆——它把“杯子的把手”和“杯盖上的提手”搞混了。这种上下文漂移问题在长对话中特别明显。

Gemini 1.5 Pro 第2个问题就出错了。它说我给的图片“没有把手”，但图片里明显有。Google的模型在多模态长对话上还需要打磨。

Qwen-VL-Max 表现优秀，5个问题全对，而且回答简洁，平均每个回答只有15个token。算下来比GPT-4o便宜60%左右。

GLM-4V 第3个问题开始胡编，说“把手是金属材质”，但图片里是塑料的。这种幻觉在多模态模型里很常见，但GLM的幻觉率明显偏高。

有意思的是，所有模型在回答“底部有没有标签”这个问题时都表现不错——因为这是个简单的二选一问题。但一旦问题涉及颜色、材质这种需要精细理解的，差距就拉大了。

测试3：图片中的逻辑推理——模型能像人一样“看见”因果关系吗

这个测试我用了经典的“九宫格图”：一张图里画着9个格子，每个格子有一个数字或图形，最后一个格子是问号，让模型推理出应该填什么。

结果让我很意外。

GPT-4o 推理对了，但它花了3次才最终给出正确答案。第一次它猜错了规律，第二次它纠正了，第三次才确认。过程就像一个人在那里自言自语。

Claude 3.5 Sonnet 一次就对了，而且给出了清晰推理步骤：“第一行数字递增2，第二行递增3，第三行应该递增4，所以答案是10”。这种可解释性在AI应用里非常宝贵。

Gemini 1.5 Pro 直接猜了个随机数，推理过程完全逻辑不通。Google在推理能力上还需要补课。

Qwen-VL-Max 也对了，但推理过程有点绕，用了两轮才稳定。不过考虑到它的价格，这个表现已经超出预期。

GLM-4V 完全跑偏了，它把数字当成图形来理解，认为形状和位置有关，但实际规律是等差数列。这种把简单问题复杂化的能力，在需要精确推理的场景里是灾难。

我的建议：如果你做教育类应用，需要模型解释推理过程，Claude 3.5 Sonnet是首选。如果只是要答案，Qwen-VL-Max够用。

API接入实测：Token工场帮我省了3天开发时间

说完了模型表现，再聊聊接入过程。我直接在Token工场的控制台里创建了API Key，然后写了一个简单的Python脚本。代码也就50行，核心部分长这样：

from token_work import Client

client = Client(api_key="你的key")

response = client.chat.completions.create(

model="qwen-vl-max",

messages=[

{"role": "user", "content": "请描述这张图片的内容", "image": "https://你的图片地址"}

]

)

print(response.choices[0].message.content)

看到没？只要把图片URL传进去就行了，不需要做base64编码或者分片上传。Token工场（https://token8341.com）的SDK把这层封装好了。我对比过直接调OpenAI原生的API，需要自己处理图片编码、token限制、重试逻辑——至少多写100行代码。

而且Token工场支持批量调用，我测试了100张图片的并发请求，平均响应时间1.2秒，没有出现超时。这个稳定性在国产平台里算很不错的。

避坑提醒：如果你用Qwen-VL-Max模型，注意图片尺寸不要超过2048x2048像素，否则会被自动压缩，影响识别效果。我一开始没注意这个坑，传了几张高清大图，结果输出质量明显下降。后来在Token工场的文档里看到了这个限制，改完就正常了。

最终推荐：不同场景该选哪个模型

我整理了3个典型场景和对应推荐：

场景1：电商图片审核——需要高准确率的中文OCR和语义理解。

推荐：Qwen-VL-Max。原因：中文识别率96%，价格低，响应快。如果预算充足，GPT-4o也可以，但没必要多花3倍钱。

场景2：教育类应用——需要解释图片中的逻辑推理。

推荐：Claude 3.5 Sonnet。原因：推理过程清晰可解释，一次正确率高。但注意它多轮对话容易漂移，建议每次请求都重新传图。

场景3：多模态长对话——用户连续发图提问。

推荐：GPT-4o。原因：多轮对话稳定性最好，上下文保持能力强。但要做好token预算管理，因为它喜欢啰嗦。

至于GLM-4V和Gemini 1.5 Pro，除非你追求极致的低价（GLM-4V确实便宜），否则我不推荐。GLM的幻觉率太高，Gemini的推理能力太弱，这两个缺陷在实际项目中很难通过prompt工程弥补。

最后说一句：模型评测不是一次性的，模型更新很快。我测试的版本是2026年5月的，说不定下个月就有新版本上线。建议你在Token工场平台上多做几次测试，反正切换模型就改个参数，花不了5分钟。

多模态大模型的应用门槛正在快速降低。从2025年到2026年，图片理解准确率提升了至少15个百分点，推理能力更是翻倍。现在不接入，等到大家都用上了就晚了。

作者：HbuCloud

发布日期：2026年6月12日