三个AI做一道小题目

昨天去好朋友张总的公司参加了一次分享。分享人是Sasaya-san,一位资深的IT人员。

他除了展示他平时如何使用公司内置AI平台、公共AI平台以及本地AI平台(如Ollama)来帮助他总结资料、提取要点外,还展示了他向AI提问的一些框架,如:5W1H,MECE1,PREP等。这些框架的介绍让我有了新的思路和想法。Arigato, Sasaya-san!

今天在某视频平台看到了一道有意思的题目。这道题目不算太难:

简单翻译一下:某人(Amrit)和他爷爷同一天生日,爷爷的岁数是他的3倍。生日气球送来的时候被弄乱了。而这4个生日气球是“6 8 7 2”(如图)。请问,Amrit几岁?——据说只有30%的人可以答对。

通过简单的计算,就可以知道:$26*3=78$。26 78正好用完四个气球。

(你做到这里停下了笔,开始奇怪为什么这么简单的题目只有30%的人能做对,“自然”得出结论说歪果仁的数学真的很差……)

这道题目有一个小陷阱——“气球被弄乱了”。弄乱不光可以是先后顺序乱了,还可以是“上下”顺序乱了!所以,6这个气球其实……可以是9来的!而$29*3=87$,也正好用完4个气球!

所以,这道题目有两个合理的答案:Amrit要么26岁,要么是29岁。

==========

题目做完了,我在想,能否让AI来试试这个挑战呢?

我询问了:DeepSeek,豆包以及Gemini Cli。前两个是图片直接上传,最后一个是用文字转述。

结果如下:

DeepSeek(深度思考)

  1. 上传图片。
  2. 基本读懂题意,但受到图片中“30%”的干扰,然后开始blahblah……
  3. 打断DS,明确告知不用理睬“30%”。
  4. 得到26的答案。(37秒)
  5. 提示:The balloons are muddled up. It gives you an important hint.
  6. 还是只得到26的答案。(67秒)

豆包

  1. 上传图片。
  2. 得到Amrit只有2岁(他的爷爷6岁)这个讲不通的答案。
  3. 提示:你必须用完4个气球。
  4. 得到26的答案。
  5. 提示:The balloons are muddled up. It gives you an important hint.
  6. 还是只得到26的答案。

Gemini CLI

  1. 因为我用的是CLI,所以没有上传图片,而是用文字描述。(也就去掉了30%这个干扰项)。
  2. 得到26的答案。
  3. 提示:The balloons are muddled up. It gives you an important hint.
  4. Gemini恍然大悟。它“认为”类似这样的经典谜题中,这样的提示表明有一个数字也许可以看成另外一个数字。
  5. 判定如果6翻个个儿,就变成了9
  6. 重新计算,得到新的答案29


(Gemini最后的推理过程)

综合评分

DS和豆包差不多在伯仲之间。DS受到干扰项的影响,而豆包第一个答案完全没有道理。而经过第二个提示,两者都未能找到第二个答案。所以我觉得能给到45-50分。

而Gemini第一次给出了一个答案,经过提示给出了第二个答案。我觉得可以得到80分左右。


(该图片由Nano Banana生成)

反思

这道题目,我一开始也没有想到第二个答案,也需要再想想才能得到。一方面是这样的题目做得不多,二方面可能还是有思维定式。

结合昨天Sasaya-san的演讲,得到一个有用的hint就是:在使用AI提升自己的生产力的时候,还是不能太随意、太vibe,人类的充分思考和方法论的引入还是有用的——否则,你真不知道ta是怎么想的。我将其称为在不确定性下追求确定性的一种努力。


  1. MECE: Mutually Exclusive, Collectively Exhaustive. 大概可以翻译为:不交叉、不遗漏。 

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *