今天一大早看到这么一条来自新浪财经的消息:

看完标题,我有两个问号:
- 什么是“哥德尔测试”?
- 哪三大数学猜想?
我不负责任地做个断言:国内知道哥德尔的人不多,看过他相关书籍的人不多,知道并深刻理解他的著名定理的人更少——而肾上鄙人在下我,算是一个。
我从来没有听过“哥德尔测试”。在AI或者说计算机领域,著名的测试是“图灵测试”,但和“证明数学题”关系不大,它更多地是测试智能体能否“冒充”(imposter)一个人——哪怕是一个三四岁的小孩。
为了避免我的“武断”妨碍了我的判断,我找到了消息中提到的原文。原文也没有定义,而只给出了一个说明:evaluating whether a model can produce correct proofs for very simple, previously unsolved conjectures.(评估一个模型1是否能就非常简单但之前未曾解决的猜想,给出正确的证明)
而且整个关于“godel test”的搜索,也没有任何一个权威、可靠的地方给出定义。
所以,我的推测是:这个Godel Test应该是一个新造的词,算是对哥德尔的致敬。
以上的研究,算是回答了我的第一个问号。
第二个问号:哪三大数学猜想?
如果只看标题,我会想到:黎曼猜想、孪生素数猜想、哥德巴赫猜想……
显然,如果GPT5解决的是这三个猜想中的任何一个,新闻界就不会这么安静了。我又仔细看了一下论文中提到的喂给GPT5的5道题目,显然它们都属于submodular maximization, a subfield of combinatorial mathematics with many applications in AI:一个组合数学中的分支,在AI中有很广泛的应用。
那么,我会将这样的题目称为“标题党”:没能恰当地表述原文的核心思想:这三个被证明的猜想,根本称不上“大”。
=========
原文提到了陶哲轩(Terence Tao)对AI的一个印象。他和OpenAI的o1模型协作了一段时间,得出如下印象:就感觉像是在指导一个平庸但不是完全不行的研究生(...seemed roughly on par with trying to advise a mediocre, but not completely incompetent, graduate student)。
(我最近也一直在调戏调教AI写程序,我的感觉和他一毛一样。)
写到这里,我想到了一位物理学家对问题难度的定义。《混沌——科创新科学》这本书里提到(p3):
就像其他物理学家一样,费根鲍姆2使用一种简短的“行话”来评价这些问题。他会说,“这种事是显然的”,指任何熟练的物理工作者通过适当思考和计算就能够理解的结果。“并非显然”,指的是那些赢得尊重和诺贝尔奖的工作。而对那些最艰难的问题,那些只有长期深入钻研宇宙奥秘才能有所领悟的问题,物理学家们备用的词语则是“深刻”。
在我看来,只有“深刻”的问题才能称为“大”问题。费根鲍姆在1974年研究的正是一个“深刻”的问题:混沌。

Leave a Reply