一道GPT5没能答对的题目？

今天晚上10点，会有一件很大的事情：凹凸曼将宣布ChatGPT 5！他甚至发了一张非常震撼的图——星战迷当然会一眼懂：

国外有一些人已经提前拿到了邀请，开始了测试，据说表现可圈可点，在编程、推理、科学、数学等方面都十分强劲，110先。

一些海外的up主也纷纷贴出了自己的测试结果，其中有这么一位老兄提到，他给了GPT5十个问题，它一次（最多两次）答对了9题，只错了1个逻辑推理题！

一道GPT5都没能答对的题目！

题目是这样的：

（图片来自相应公众号）

这个题目有两个难点。第一个是，如果有两个答案正确，那么简单的那个答案更正确。第二个是，作为读者需要深刻理解英文原文中mistruth和lies的区别。

lies容易理解，就是“撒谎者”。如果A是一个真的陈述（比如2+2=4），那么此人知道A为真，但偏偏会回答“否”（也就是他会说2+2=4为假，2+2!=4）。

mistruth比较绕，我愿意将其翻译为“误信者”。什么意思呢？同样对于2+2=4这个陈述，他认为（相信、确信）2+2!=4，也就这么表达出来：2+2!=4。注意，他说的是实话，但是是“错误”的实话，他并没有撒谎！

因此，这道题目翻译过来，大概就是：

Amy是个误信者，Sam是个撒谎者（骗子）。你没法分辨谁是谁。你可以想他们中的一个问一个问题，来找到A/B两条路中哪一条通往藏宝洞。你应该问什么问题（如果两个问题都能达到效果，那么更简单的问题为正确答案）。

A: 如果我问你的sister，哪条路是对的，她会怎么说？
B: 你姐姐叫什么名字？
C: 哪条路通往藏宝洞？
D: 要你猜的话，我会走哪条路？
E: 藏宝洞里的藏宝是什么？
F: 你sister的电话号码是啥？

关于此类“君子/小人”的逻辑谜题，我真的强烈推荐斯穆里安写的《这本书叫什么？》。在这本书的第12章《德古拉是否还活着？》里，他定义了四种特兰西瓦尼亚（Transsilvania）的居民：

我在特兰西瓦尼亚那会，当地居民大概有一半是活人，而另一半是僵尸。活人和僵尸在外表上没有任何区别，但是――至少在特兰西瓦尼亚――活人总是说真话而僵尸永远撒谎。但更复杂的情形是，特兰西瓦尼亚一半的居民完全疯了，他们的信仰中是非完全颠倒：他们认为所有真的命题是假的，而假的命题却是真的。另一半完全正常并知道哪些命题真、哪些命题假。因此特兰西瓦尼亚的居民有四类：清醒人，疯癫人，清醒鬼，疯癫鬼。清醒人说的为真；疯癫人说的为假；清醒鬼说的为真；疯癫鬼说的为真。举例来说，清醒人会说2+2=4；而疯癫人会说不是（因为他确实认为不是）；清醒鬼会说不是（因为他知道是但撒谎）；疯癫鬼会说是（因为他认为不是但说到他相信什么时会撒谎）。

如果将这四种人映射到题目里提到的两种人，那么Sam显然是个清醒鬼——她知道哪条路才是对的，但会撒谎；而Amy显然是个疯癫人——她知道哪条路是“对”的（但实际是错的）而说实话。

由于我受《这本书叫什么？》的影响很深，所以一开始我很“理智地”认为答案A才符合正确答案的特征——事实证明，这个答案也是对的。请读者自行分析。

但在分析A的过程中，我发现C也可以达到效果。分析如下：

假定正确的道路是A。你问：正确的道路是哪条？

如果问到的是Amy（误信者），那么她会“认为”正确的道路是B，于是老老实实说“B”；如果问到的是Sam（撒谎者），她知道A是正确答案，但会撒谎说“B”。

所以，无论他们的回答是什么，你只要选择另外一条路就对了。这个答案比A更简单，所以更应该成为正确答案。

（注意，如果是常规的“君子小人”局面，在不知道谁是君子、谁是小人的前提下，问题C是不起作用的。）

GPT5选择了A作为答案。我很难说它判断错了，因为A确实也能达到目的（但不需要反转得到的回答）。只是出题的人太刁钻，在这个题目的环境下，放入了一个非常像错误答案的正确答案。

一道GPT5没能答对的题目？

Comments

Leave a Reply Cancel reply

More posts

让我来康康AI可以有多“靠谱”？

末日生存指南

数学谜题总是那么让人着迷

龙虾为谁而煮？