三个AI做一道小题目

昨天去好朋友张总的公司参加了一次分享。分享人是Sasaya-san，一位资深的IT人员。

他除了展示他平时如何使用公司内置AI平台、公共AI平台以及本地AI平台（如Ollama）来帮助他总结资料、提取要点外，还展示了他向AI提问的一些框架，如：5W1H，MECE¹，PREP等。这些框架的介绍让我有了新的思路和想法。Arigato, Sasaya-san!

今天在某视频平台看到了一道有意思的题目。这道题目不算太难：

简单翻译一下：某人（Amrit）和他爷爷同一天生日，爷爷的岁数是他的3倍。生日气球送来的时候被弄乱了。而这4个生日气球是“6 8 7 2”（如图）。请问，Amrit几岁？——据说只有30%的人可以答对。

通过简单的计算，就可以知道：$26*3=78$。26 78正好用完四个气球。

（你做到这里停下了笔，开始奇怪为什么这么简单的题目只有30%的人能做对，“自然”得出结论说歪果仁的数学真的很差……）

这道题目有一个小陷阱——“气球被弄乱了”。弄乱不光可以是先后顺序乱了，还可以是“上下”顺序乱了！所以，6这个气球其实……可以是9来的！而$29*3=87$，也正好用完4个气球！

所以，这道题目有两个合理的答案：Amrit要么26岁，要么是29岁。

==========

题目做完了，我在想，能否让AI来试试这个挑战呢？

我询问了：DeepSeek，豆包以及Gemini Cli。前两个是图片直接上传，最后一个是用文字转述。

结果如下：

（Gemini最后的推理过程）

DS和豆包差不多在伯仲之间。DS受到干扰项的影响，而豆包第一个答案完全没有道理。而经过第二个提示，两者都未能找到第二个答案。所以我觉得能给到45-50分。

而Gemini第一次给出了一个答案，经过提示给出了第二个答案。我觉得可以得到80分左右。

（该图片由Nano Banana生成）

这道题目，我一开始也没有想到第二个答案，也需要再想想才能得到。一方面是这样的题目做得不多，二方面可能还是有思维定式。

结合昨天Sasaya-san的演讲，得到一个有用的hint就是：在使用AI提升自己的生产力的时候，还是不能太随意、太vibe，人类的充分思考和方法论的引入还是有用的——否则，你真不知道ta是怎么想的。我将其称为在不确定性下追求确定性的一种努力。

Comments