一道GPT5没能答对的题目?

今天晚上10点,会有一件很大的事情:凹凸曼将宣布ChatGPT 5!他甚至发了一张非常震撼的图——星战迷当然会一眼懂:

国外有一些人已经提前拿到了邀请,开始了测试,据说表现可圈可点,在编程、推理、科学、数学等方面都十分强劲,110先。

一些海外的up主也纷纷贴出了自己的测试结果,其中有这么一位老兄提到,他给了GPT5十个问题,它一次(最多两次)答对了9题,只错了1个逻辑推理题!

一道GPT5都没能答对的题目!

题目是这样的:

(图片来自相应公众号)

这个题目有两个难点。第一个是,如果有两个答案正确,那么简单的那个答案更正确。第二个是,作为读者需要深刻理解英文原文中mistruthlies的区别。

lies容易理解,就是“撒谎者”。如果A是一个真的陈述(比如2+2=4),那么此人知道A为真,但偏偏会回答“否”(也就是他会说2+2=4为假,2+2!=4)。

mistruth比较绕,我愿意将其翻译为“误信者”。什么意思呢?同样对于2+2=4这个陈述,他认为(相信、确信)2+2!=4,也就这么表达出来:2+2!=4注意,他说的是实话,但是是“错误”的实话,他并没有撒谎!

因此,这道题目翻译过来,大概就是:

Amy是个误信者,Sam是个撒谎者(骗子)。你没法分辨谁是谁。你可以想他们中的一个问一个问题,来找到A/B两条路中哪一条通往藏宝洞。你应该问什么问题(如果两个问题都能达到效果,那么更简单的问题为正确答案)。

  • A: 如果我问你的sister,哪条路是对的,她会怎么说?
  • B: 你姐姐叫什么名字?
  • C: 哪条路通往藏宝洞?
  • D: 要你猜的话,我会走哪条路?
  • E: 藏宝洞里的藏宝是什么?
  • F: 你sister的电话号码是啥?

关于此类“君子/小人”的逻辑谜题,我真的强烈推荐斯穆里安写的《这本书叫什么?》。在这本书的第12章《德古拉是否还活着?》里,他定义了四种特兰西瓦尼亚(Transsilvania)的居民:

我在特兰西瓦尼亚那会,当地居民大概有一半是活人,而另一半是僵尸。活人和僵尸在外表上没有任何区别,但是――至少在特兰西瓦尼亚――活人总是说真话而僵尸永远撒谎。但更复杂的情形是,特兰西瓦尼亚一半的居民完全疯了,他们的信仰中是非完全颠倒:他们认为所有真的命题是假的,而假的命题却是真的。另一半完全正常并知道哪些命题真、哪些命题假。因此特兰西瓦尼亚的居民有四类:清醒人,疯癫人,清醒鬼,疯癫鬼。清醒人说的为真;疯癫人说的为假;清醒鬼说的为真;疯癫鬼说的为真。举例来说,清醒人会说2+2=4;而疯癫人会说不是(因为他确实认为不是);清醒鬼会说不是(因为他知道是但撒谎);疯癫鬼会说是(因为他认为不是但说到他相信什么时会撒谎)。

如果将这四种人映射到题目里提到的两种人,那么Sam显然是个清醒鬼——她知道哪条路才是对的,但会撒谎;而Amy显然是个疯癫人——她知道哪条路是“对”的(但实际是错的)而说实话。

由于我受《这本书叫什么?》的影响很深,所以一开始我很“理智地”认为答案A才符合正确答案的特征——事实证明,这个答案也是对的。请读者自行分析。

但在分析A的过程中,我发现C也可以达到效果。分析如下:

假定正确的道路是A。你问:正确的道路是哪条?

如果问到的是Amy(误信者),那么她会“认为”正确的道路是B,于是老老实实说“B”;如果问到的是Sam(撒谎者),她知道A是正确答案,但会撒谎说“B”。

所以,无论他们的回答是什么,你只要选择另外一条路就对了。这个答案比A更简单,所以更应该成为正确答案。

(注意,如果是常规的“君子小人”局面,在不知道谁是君子、谁是小人的前提下,问题C是不起作用的。)

GPT5选择了A作为答案。我很难说它判断错了,因为A确实也能达到目的(但不需要反转得到的回答)。只是出题的人太刁钻,在这个题目的环境下,放入了一个非常像错误答案的正确答案。


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *