1小时用尽浑身解数无法证明minimax2.7不是多模态。。。

2026-04-11 14:451阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

刚刚在qq和一个比较熟的网友聊天，我说kimi2.5是原生多模态，而minimax不是，至此双方开启辩论。（首先我声明我之前没怎么用过官方的minimax2.7模型，是前天才买了plan接入龙虾用的，如果有说错的还望指正）

他买的是Coding Plan的max套餐，模型接入openclaw时没有使用mcp
Snipaste_2026-03-30_01-52-49549×464 28.1 KB
但在openclaw里发图片可以被M2.7识别，并且他问龙虾（M2.7）时也说自己是多模态（可能是模型幻觉）
Snipaste_2026-03-30_01-51-06921×652 74.1 KB
我看他非常肯定，还以为是我哪里记错了（毕竟2.7还没开源，我自己也用的不多），于是去翻了M2.7的官方文档，确定没有看到“图片理解”和“多模态”的信息，自己搜索引擎搜出很多多模态相关信息，但都是指接入mcp的plan功能，不是M2.7自己的能力
于是我用自己的M2.7给他举例，说没安装mcp时是识别不了图片的，我用OAuth登录的方式接入mcp后才能用，并且识别图片时会有一个tool image的调用，让他截图发我看看（但是他没发）
Snipaste_2026-03-30_01-57-55900×507 106 KB
他应该是不知道mcp是什么，于是去minimax文档里找，然后我和说mcp不是给龙虾用的，是给其他软件用的，后面发了我两个mcp接入cc和cursor的文档截图（但当时我以为他说的“工具”是指龙虾调用的工具，所以一直没理解他这里想表达什么）
Snipaste_2026-03-30_02-01-57477×301 9.45 KB
Snipaste_2026-03-30_02-04-16370×205 3.89 KB
Snipaste_2026-03-30_02-06-30861×193 14.7 KB
原本这里应该告一段落的，我看他经常用AI，有写代码需求，并且在群里认识也有2年知道他人品不差，所以加个好友发了邀请链接想邀进L站里

但加完好友他说我很犟…有时和我讨论的都是些不会用AI的人，他们不理解无所谓，我不会和他辩解，但他好歹会代码，至少在接触openclaw，我觉得必须得和他说明白，于是又继续了
Snipaste_2026-03-30_02-23-41414×167 9.53 KB
Snipaste_2026-03-30_02-24-38903×610 18.2 KB
他这里说的“工具”同样是指cc哪一类，当时我虽然依旧没理解他在说什么，不过想着只需要自己证据充足也能说服他
Snipaste_2026-03-30_02-27-09590×578 49.2 KB
先是找了个支持M2.7的其他平台，向他证明模型本身是文本模型
Snipaste_2026-03-30_02-28-37455×317 4.22 KB
他问了gemini和gpt，说是多模态，我则是用搜索能力更好的grok回应
Snipaste_2026-03-30_02-30-47488×584 57.1 KB
同时把整段内容发给他，里面有这几个关键词（但他不耐烦了，应该一个字没看）
Snipaste_2026-03-30_02-35-001306×498 55.1 KB
同时这几个是他发我的内容（他问的是minimax，不是M2.7，以及完全不看信息来源）
Snipaste_2026-03-30_02-37-591317×485 89.3 KB
我看他搜索用的不对，用gemini和qwen的深度搜索，做了两个报告发给他，里面详细讲了为什么M2.7不是多模态，以及为什么被认为是多模态（而他没看…）
他只回了3个内容：
“你就是不理解mcp是什么”.
“你觉得什么就是什么”
“我问了很多编程的看法都是和我看法一样”

我在和他解释多模态，他却用AI的解释和我谈mcp，以及没理解到他说的“工具”，所以

辩论到此结束，我还是无法让他明白我说的内容

写帖子的时候整体回顾了一遍，整理了几个我有机会但没说服他的几点原因

1.他虽然自己有用AI写代码，也用openclaw接入了qq，但我和他在AI话题上交流不多，不清楚他的知识水平

2.他发的openclaw只有qq上的聊天截图和聊天记录，用的是默认qqbot头像，全程在qq上使用龙虾，并且其中有一句是“OpenClaw 这东西挺有意思的，可以玩很久”，再加上他一直忽略发webUI看看工具调用情况的请求（同时qq也看不到工具调用）。
这几点基本可以确定他是今天刚开始接触龙虾，所以他不知道怎么看模型是否接入mcp。

3.他认为mcp是给cc等软件用的，所以openclaw无法接入mcp使用图片识别，从而得出M2.7是多模态模型的结论。
这点我犯了最大的错误，他问了AI后反复和我提起过“mcp是让别的工具可以识别和联网”，但我没有理解“工具”的含义，他看我没反驳这点，以为我不懂mcp，这也是导致他后面完全不看我信息的原因之一。

4.大概是现在的人都过度相信AI，他会用各个平台（除了grok和claude）的AI问一些自己不懂的信息，但是完全不做甄别，也完全不看消息来源是否权威，更不会去看原文的具体信息。只是觉得大部分AI都这么说，那就是对的。
我用qwen搜出来也是说M2.7是多模态，但每个链接点进去都没有准确的内容证明他是多模态，只有标题是“全模态模型的订阅计划”带有一定诱导性。但这点我懒得反驳他，我总不能从AI幻觉开始和他讲，然后看他发一个问AI幻觉是什么的截图回来反驳我

5.整体时间拖的太久，我没理解他说的“工具”，他不看我发的信息，偏偏AI的回答符合它的观点，导致我说什么他都不听，我再继续下去最后大概率是表面认可，内心却把我当一个傻*，我应该一开始就找一个可以让他自己证明的简单方法，或者忽略他的内容，而不是最后让他失去耐心。

Snipaste_2026-03-30_03-36-591066×256 22 KB
最后再次提醒他来L站看看，有来的话应该会搜M2.7多模态的信息搜到我这篇帖子，能看到我这个角度的观点，没来的话就算了，我本来也就是随缘邀请

网友解答：

--【壹】--：

我的GPT告诉我更偏向text模型啊…
Screenshot_2026-03-30-04-05-33-90_96b26121e545231a3c569311a54cda961264×2780 332 KB

--【贰】--：

有点晚了，先睡觉，回复明天看

--【叁】--：

models.dev 中 m2.7 好像输入那栏清一色基本只有 text 而已。

image2900×1256 303 KB

--【肆】--：

有个几把多模态。我之前没用过买了试一下。发给他图片他能正常读取然后给你编内容，真的难绷，后来问grok才发现是还要配mcp才能识图

--【伍】--：

诶，安啦，没必要辩论啦，花了时间精力，还容易讨个不开心～～

摸摸佬友，我以前也和你差不多，后面发现其实有些人就是更愿意待在自己的信息茧房里，毕竟那是舒适区
IMG_4988960×918 125 KB
而且我发现问豆包minimax2.7是不是多模态模型，豆包现在联网搜索用的关键字词还挺严谨全面的

--【陆】--：

我确定他们团队好像说MINIMAX 3才有多模态吧

--【柒】--：

感觉你发的那些文本也没法证明 minimax 2.7 不是多模态
难怪他不想理你

然后不要尝试说服笨蛋

--【捌】--：

我之前也是使用openclaw配minimax 2.5，结果发了张图片它可以识别，让它自己研究半天，最后找到openclaw有读图的fallback路径，也就是接入的模型不是多模态输入时，图片理解默认调用gemini或qwen的两个免费模型之一

--【玖】--：

找个 api 直接 chat 应该是最简单的吧。
openwebui 不支持的话直接不叼你，cherrystudio 也可以试。

--【拾】--：

稍微看过一点的人,谁不知道那个b minimax 不是多模态, glm 5也不是也要靠 mcp

--【拾壹】--：

你着相了，打个胶脱离状态吧

--【拾贰】--：

通过 OAuth 登录 minimax-portal 后，OpenClaw 的 image 工具会自动配置为使用 MiniMax 图像理解 MCP 服务背后的 VLM 端点，无需额外配置即可让您的智能体具备图像理解能力。

文档里有，他自己不懂文档也不看，那还说啥了，顺从他呗

--【拾叁】--：

小龙虾可以设置单独的识图模型，minimax确实是纯文本，只有未来的m3忘了在哪看到的说是采访时透露可能有多模态以及1m上下文

--【拾肆】--：

最简单一件事，Minimax说m3将会是原生多模态模型，那之前的是不是呢？

--【拾伍】--：

有没有太长不看版

--【拾陆】--：

我记得官方文档说openclaw内置了minimax的搜索和图片识别mcp服务，选了minimax后会自动触发。

对此印象比较深刻，因为我配置了minimax后没有自动启用这个mcp，又专门手动添加了。

--【拾柒】--：

没必要，不必劝他

--【拾捌】--：

写代码的不一定比不写代码的更了解ai

--【拾玖】--：

minimax一丁点多模态都没，
你可以用识别表格的题目打脸他
(
字全对格式全蒙的)

标签：人工智能