让我来康康AI可以有多“靠谱”?

Google沉寂了好一段时间,前两天放出了一个重要的模型升级:Gemma 4。我下载了、运行了。

我用的测试工具比较多,包括:Visual Studio Code(VSC)中的Github Copilot(自动选择模型),Ollama(Gemma 4 31b),还有国产的豆包。

其中,本地跑Ollama的桌面机配了一块5060 Ti 32G的显卡。

我一直有收藏文档做站点的习惯,所以这次我就从我的维基站点中的两个专栏里随手拉了一些题目:

第一题

爱丽丝来到遗忘林的时候,她不是所有的事情都忘记了,她只是忘记了某些事情。她经常忘记自己的名字,最容易忘的是星期几。狮子和独角兽可是林中的常客。他们都是很奇怪的动物。狮子在周一、周二和周三撒谎,其它日子说实话。而独角兽呢,正好相反,它周四、周五、周六撒谎,而其它日子说实话。这天,爱丽丝遇见狮子和独角兽在树下休息。他们做了如下的陈述: 狮子:昨天是我说谎话的日子。 独角兽:昨天也是我说谎话的日子。 爱丽丝是个非常聪明的女孩,她从这两个陈述就可以知道今天是星期几了。那么今天是星期几?

这是一道入门题。所有的AI都可以得到正确答案。但Gemma的推理过程比较突出:它检查了周一的情形后,总结出:无论是狮子还是独角兽,能说出这句话的日子和前一日必须是处于不同的说真话还是说假话的日子。所以,很快,它推理出狮子只有周一、周四,独角兽只有周四、周日,才能做出如题的陈述。所以,当天只能是周四。这个推理过程非常有意义。

第二题

莎士比亚的《威尼斯商人》中,鲍西娅有三个首饰盒:金的、银的和铅的。其中的一个盒子中放着鲍西娅的肖像。求婚者要在其中选一个盒子,如果他足够幸运(或者足够聪明)选到了有肖像的那个盒子,他就可以娶鲍西娅为妻。每个盒子的盖子上都有一段铭文来帮助求婚者做出聪明的选择。

现在,假定鲍西娅希望选择她的夫君时,不是基于他的品德,而只是基于他的聪颖。她在盒子上刻下了如下的铭文:

肖像在这个盒子里。 肖像不在这个盒子里。 肖像不在金盒子里。

鲍西娅对求婚者说明,这三句话中,最多只有一句是真的。

求婚者该选择哪个盒子?

这道题也不难。所有AI都可以得到正确答案:求婚者应该选择银盒子。

Gemma和Copilot的推理过程相似。它们都敏锐地判定出:由于金盒子和铅盒子上的陈述互相矛盾,那么这两个陈述肯定有一个为真。而题目中说“最多只有一句为真”,那么银盒子的陈述就是假的。既然如此,肖像必然在银盒子里。

(以上两题来自我最喜欢的逻辑书《这本书叫什么?》。我选了其中最入门的两个章节中的两题。)

第三题

Life Isn’t a Bowl of Cherries

你和朋友Amit面前有4只樱桃碗,里面分别装着5,6,7,8颗樱桃。

你们轮流行动;每次可以任选一只碗,并从中取走至少1颗樱桃。

如果你先手,并且想确保最后一颗樱桃是Amit取走的,那么你的第一步应该从哪只碗里取走几颗樱桃?

所有AI都知道这是一道有关NIM sum游戏的策略题,并给出了第一步操作:从8颗的碗里拿走4颗,并解释了其中的数学原理:各个碗的樱桃数量的异或值为零是本题的关键。

但只有Gemma明确指出:这个所谓misere Nim(确保对手赢)游戏,策略和常规的Nim(确保自己赢)游戏,策略是一样的,直到最后一步。

第四题

Spaghetti Loops

把50根煮熟的意大利面看作50段线段,它们一共有100个端点。

现在把这100个端点随机两两配对并打结。

问:最终形成的闭合面条环(loop)个数的期望是多少?

三个AI表现正常。但豆包只有第一步推理是对的:它知道在第一次挑面条的一头,并和任意另一头打结的时候,成环的概率是$\frac{1}{99}$。但它太早进行一般化,简单地将这个概率乘以了50。经过一次提示,它正确地得出,最终形成闭环的期望是$\frac{1}{99}+\frac{1}{97}+\frac{1}{95}+\cdots+\frac{1}{3}+1$。但在计算这个公式的时候出错。经过再次提示,得到了2.937…的正确结果。

(以上两题来自我最近开始整理的《数学谜题》。)

====

我觉得吧,AI能帮我总结东西、帮我做PPT都是极好的。但要是能帮我学习逻辑、学习数学,从而可以真正地与它开展严肃的讨论,那才是更好的。

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *