Tag: gpt

  • 一道GPT5没能答对的题目?

    一道GPT5没能答对的题目?

    今天晚上10点,会有一件很大的事情:凹凸曼将宣布ChatGPT 5!他甚至发了一张非常震撼的图——星战迷当然会一眼懂:

    国外有一些人已经提前拿到了邀请,开始了测试,据说表现可圈可点,在编程、推理、科学、数学等方面都十分强劲,110先。

    一些海外的up主也纷纷贴出了自己的测试结果,其中有这么一位老兄提到,他给了GPT5十个问题,它一次(最多两次)答对了9题,只错了1个逻辑推理题!

    一道GPT5都没能答对的题目!

    题目是这样的:

    (图片来自相应公众号)

    这个题目有两个难点。第一个是,如果有两个答案正确,那么简单的那个答案更正确。第二个是,作为读者需要深刻理解英文原文中mistruthlies的区别。

    lies容易理解,就是“撒谎者”。如果A是一个真的陈述(比如2+2=4),那么此人知道A为真,但偏偏会回答“否”(也就是他会说2+2=4为假,2+2!=4)。

    mistruth比较绕,我愿意将其翻译为“误信者”。什么意思呢?同样对于2+2=4这个陈述,他认为(相信、确信)2+2!=4,也就这么表达出来:2+2!=4注意,他说的是实话,但是是“错误”的实话,他并没有撒谎!

    因此,这道题目翻译过来,大概就是:

    Amy是个误信者,Sam是个撒谎者(骗子)。你没法分辨谁是谁。你可以想他们中的一个问一个问题,来找到A/B两条路中哪一条通往藏宝洞。你应该问什么问题(如果两个问题都能达到效果,那么更简单的问题为正确答案)。

    • A: 如果我问你的sister,哪条路是对的,她会怎么说?
    • B: 你姐姐叫什么名字?
    • C: 哪条路通往藏宝洞?
    • D: 要你猜的话,我会走哪条路?
    • E: 藏宝洞里的藏宝是什么?
    • F: 你sister的电话号码是啥?

    关于此类“君子/小人”的逻辑谜题,我真的强烈推荐斯穆里安写的《这本书叫什么?》。在这本书的第12章《德古拉是否还活着?》里,他定义了四种特兰西瓦尼亚(Transsilvania)的居民:

    我在特兰西瓦尼亚那会,当地居民大概有一半是活人,而另一半是僵尸。活人和僵尸在外表上没有任何区别,但是――至少在特兰西瓦尼亚――活人总是说真话而僵尸永远撒谎。但更复杂的情形是,特兰西瓦尼亚一半的居民完全疯了,他们的信仰中是非完全颠倒:他们认为所有真的命题是假的,而假的命题却是真的。另一半完全正常并知道哪些命题真、哪些命题假。因此特兰西瓦尼亚的居民有四类:清醒人,疯癫人,清醒鬼,疯癫鬼。清醒人说的为真;疯癫人说的为假;清醒鬼说的为真;疯癫鬼说的为真。举例来说,清醒人会说2+2=4;而疯癫人会说不是(因为他确实认为不是);清醒鬼会说不是(因为他知道是但撒谎);疯癫鬼会说是(因为他认为不是但说到他相信什么时会撒谎)。

    如果将这四种人映射到题目里提到的两种人,那么Sam显然是个清醒鬼——她知道哪条路才是对的,但会撒谎;而Amy显然是个疯癫人——她知道哪条路是“对”的(但实际是错的)而说实话。

    由于我受《这本书叫什么?》的影响很深,所以一开始我很“理智地”认为答案A才符合正确答案的特征——事实证明,这个答案也是对的。请读者自行分析。

    但在分析A的过程中,我发现C也可以达到效果。分析如下:

    假定正确的道路是A。你问:正确的道路是哪条?

    如果问到的是Amy(误信者),那么她会“认为”正确的道路是B,于是老老实实说“B”;如果问到的是Sam(撒谎者),她知道A是正确答案,但会撒谎说“B”。

    所以,无论他们的回答是什么,你只要选择另外一条路就对了。这个答案比A更简单,所以更应该成为正确答案。

    (注意,如果是常规的“君子小人”局面,在不知道谁是君子、谁是小人的前提下,问题C是不起作用的。)

    GPT5选择了A作为答案。我很难说它判断错了,因为A确实也能达到目的(但不需要反转得到的回答)。只是出题的人太刁钻,在这个题目的环境下,放入了一个非常像错误答案的正确答案。

  • AI在发展,我们怎么办?

    AI在发展,我们怎么办?

    (本文非常长,但结尾处有福利送上。)

    限于条件,从22年底到现在,我其实并没能好好地用上最新的AI工具。不过,我总算也是通过各种方式,在还算“最近”的时间里,接触了不少最新的东西。

    昨天,在现代传媒大厦22楼的星辰仕达举办了一场“AI+智慧医疗”的分享会,我和分享嘉宾之一的、微软昆山工业元宇宙应用中心的Nick聊了一会,有了点想法,就凑一篇文章,总结一下我一年多来,使用各类AI的体会和感想。

    ChatGPT以及同类

    (我没有ChatGPT 4,所以在下面提到的回答和截屏,如果没有特别说明,我都用微软的Copilot。)

    ChatGPT是我们到目前为止最熟悉的AI应用,也有了很多变种。但是它们最基本的应用,都是:接受提问,提供回答。

    仔细分析下来,其实我们在寻求三种不同的回答:

    事实性的

    这是最简单的,也应该是最“准确”的。这里,我给“准确”打了引号,因为对于一个事实性的问答来说,我们不去追究“原始事实”的准确性。换句话说,如果AI搜索到的所有资料都说“莫拉维拉共和国成立于1487年”的话,那么AI经过一定的算法后告诉我们这个共和国成立于1487年没有什么问题,是准确的。但这个信息不一定“正确”。

    这里涉及的问题就非常根本了:

    第一个问题就是:即便AI能给我们数据,我们可以对这些数据有多大的信心?

    AI获取数据的来源、处理数据的“规则”中,有没有所谓的bias(偏见)?

    我们对这种类型的偏见其实一点都不陌生。在人类历史上,曾经有过——甚至现在还有——基于种族、性别、肤色的种种偏见以及种种歧视,并引发了种种悲剧。到了较近的年代,网络时代的“地图炮”也是一种典型的偏见——当然还有种种根植在思想中的固有偏见(“男的没一个好东西”,“女人穿得暴露就是在勾引人”……),我就不一一列举了。

    我们完全可以相信:一个在预设偏见的前提下训练出来的ChatGPT必然也只能给出充满了偏见的回答。所谓的rubbish in, rubbish out,说的也是这个道理。

    第二个问题就是:我们有没有办法去判定一个回答的真实性?如何判定?

    这个问题其实有点悖论的味道:如果我知道一个正确答案,我还去问AI干嘛?我之所以问AI,可不就是因为我不知道答案嘛?

    从我目前使用的情况来看,AI对于纯事实性的回答,还是比较可信的。早期AI问答中出现的那种“一本正经的胡说八道”已经不多了。

    在纯事实问答方面,AI的附加值在于:它博览群书,记忆超群,但它不能替代你的研究。

    所以,我可以想象到的一种最合理的应用场景会是:

    作为在某个领域有一定经验和积累的人,向AI询问针对领域的一些事实问题——这样的回答很容易得到验证。 同时,随着对话的深入,可以向AI询问一些尚未有定论的问题,AI应该可以基于它掌握的数据,给出一些判定。 这样的过程,是有助于此人在这个领域的学习和研究的。

    推理性的

    说老实话,我对AI的推理能力还是有点不放心的。我用了一个最基本的“君子小人岛”的问题来测试。

    我先让Copilot进入角色:

    我:你现在是一个逻辑学家了。我需要你帮助我进行一些逻辑推理。 Copilot:当然,我很乐意帮助你进行逻辑推理。请告诉我你需要帮助的具体问题或情况。😊

    然后再引入前提:

    我:有很多谜题是关于这样一个岛的:这个岛上的居民一些是“君子”,他们总是说实话,另一些是“小人”,他们总是说谎话。这个岛上的居民不是君子就是小人。 Copilot:我明白了,你提到的是一个经典的逻辑谜题类型,通常被称为“君子和小人”的问题。在这类问题中,”君子”总是说实话,而”小人”总是说谎。你的目标通常是通过提问来确定一个或多个居民是君子还是小人。 请告诉我具体的谜题,我会尽力帮助你解决。😊

    (看得出来,Copilot心情不错,很会卖萌。而且,它似乎自信满满,用上了“经典”、“通常”等词。)

    然后我提出了我的问题:

    我遇见三个人A、B、C。每个人不是君子就是小人。A和B做出了如下的陈述: A:我们都是小人。 B:我们中正好有一个君子。 A、B、C各是哪类人?

    出乎我意料的是,Copilot完美地解决了这个问题!而且给出了推理过程:

    我表示:答案对了,但推理过程还很模糊。于是Copilot进一步详细列出了过程:

    对此我是很surprise的!

    我不甘心,给了它一个更难的问题:

    在这个岛上,我遇见两位当地人A和B。他们进行了如下的陈述: A:B是君子而且这个岛是玛雅岛。 B:A是小人而且这个岛是玛雅岛。 这个岛是玛雅岛吗?

    我们先看Copilot的回答:

    很抱歉,Copilot的推理出现了严重的错误。正确的答案是:这个岛不是玛雅岛。但为了防止AI从我的回复中学到推理过程,我将这个推理过程留给各位读者去思考了。

    创造性的

    在昨天的演讲中,Nick分享了两张片子,是他分别用中文和英文“求助”Copilot,如何写当天要用的PPT——当然,我才不信他会用AI的提示来完成昨天的PPT!

    (两个提示词的意思基本相同。回答的质量有很大的差别。另外,我昨天在现场,但我认为Nick根本就没有按照这个提纲,虽然可能用到了一些思路和数据。)

    一个高度创新的东西是没有办法用现有的东西去验证其真伪的,我们只能说对提问者“有没有用”?所以,在这一类型的问答中,AI给出的答案可能有用:能帮你开拓思路,提供新的讨论点,给出基本的数据,做好最基本的框架,完成一个几乎“有着标准答案”的工作汇报……但更多情况下,可能毫无用处:如果你不能appreciate它的回答的话。

    所以,对于Nick这样一位highly innovative的人来说,我相信他在提问前,脑子里已经有了一些想法(所以才能写出那么长的提示词),再根据回答(知道数据正确,发现新的讨论点),最终还是老老实实地回到电脑上写PPT去了(当然也会不断借助Copilot来辅助)。

    衍生话题:更有创造性的”回答“

    2月份的时候,Sora出世,那一段“A stylish woman walks down a Tokyo street…”的视频引爆了眼球。这是在图像、视频上的突破。

    不久前,Suno出世。这次是音乐!

    从文字到图形到视频到音乐,AI在越来越抽象的、也越来越专业的领域快步前进!

    能比音乐更抽象的是什么?我很期待!

    最后,送上我用Suno编写的一首歌曲,歌长约2分钟。你听出来是关于什么的曲子了吗?欢迎留言!

    [video width="512" height="768" mp4="https://blog.rsywx.net/wp-content/uploads/2024/04/Moonlit-Serenity.mp4"][/video]

    最最后,我说说我的判断:我从来不觉得AI是个挑战,或者会威胁“我”的工作,它不过是个会卖萌、偶尔会出bug的工具罢了。

    (大家想想AI最有成就的领域是在哪里,就会同意我的判断了。)