论一个小编的自我修养——从一篇新浪文章说起

看完标题，我有两个问号：

什么是“哥德尔测试”？
哪三大数学猜想？

我不负责任地做个断言：国内知道哥德尔的人不多，看过他相关书籍的人不多，知道并深刻理解他的著名定理的人更少——而肾上鄙人在下我，算是一个。

我从来没有听过“哥德尔测试”。在AI或者说计算机领域，著名的测试是“图灵测试”，但和“证明数学题”关系不大，它更多地是测试智能体能否“冒充”（imposter）一个人——哪怕是一个三四岁的小孩。

为了避免我的“武断”妨碍了我的判断，我找到了消息中提到的原文。原文也没有定义，而只给出了一个说明：evaluating whether a model can produce correct proofs for very simple, previously unsolved conjectures.（评估一个模型¹是否能就非常简单但之前未曾解决的猜想，给出正确的证明）

而且整个关于“godel test”的搜索，也没有任何一个权威、可靠的地方给出定义。

所以，我的推测是：这个Godel Test应该是一个新造的词，算是对哥德尔的致敬。

以上的研究，算是回答了我的第一个问号。

第二个问号：哪三大数学猜想？

如果只看标题，我会想到：黎曼猜想、孪生素数猜想、哥德巴赫猜想……

显然，如果GPT5解决的是这三个猜想中的任何一个，新闻界就不会这么安静了。我又仔细看了一下论文中提到的喂给GPT5的5道题目，显然它们都属于submodular maximization, a subfield of combinatorial mathematics with many applications in AI：一个组合数学中的分支，在AI中有很广泛的应用。

那么，我会将这样的题目称为“标题党”：没能恰当地表述原文的核心思想：这三个被证明的猜想，根本称不上“大”。

=========

原文提到了陶哲轩（Terence Tao）对AI的一个印象。他和OpenAI的o1模型协作了一段时间，得出如下印象：就感觉像是在指导一个平庸但不是完全不行的研究生（...seemed roughly on par with trying to advise a mediocre, but not completely incompetent, graduate student）。

(我最近也一直在调戏调教AI写程序，我的感觉和他一毛一样。)

写到这里，我想到了一位物理学家对问题难度的定义。《混沌——科创新科学》这本书里提到（p3）：

就像其他物理学家一样，费根鲍姆²使用一种简短的“行话”来评价这些问题。他会说，“这种事是显然的”，指任何熟练的物理工作者通过适当思考和计算就能够理解的结果。“并非显然”，指的是那些赢得尊重和诺贝尔奖的工作。而对那些最艰难的问题，那些只有长期深入钻研宇宙奥秘才能有所领悟的问题，物理学家们备用的词语则是“深刻”。

在我看来，只有“深刻”的问题才能称为“大”问题。费根鲍姆在1974年研究的正是一个“深刻”的问题：混沌。

这里的模型特指LLM模型。 ↩
爱德华·阿尔伯特·费根鲍姆（Edward Albert Feigenbaum，1936年1月20日—），生于美国新泽西州，计算机科学家，专长于人工智能，经常被人称为专家系统之父。为1994年图灵奖得主。 ↩

论一个小编的自我修养——从一篇新浪文章说起

Comments

Leave a Reply Cancel reply

More posts

让我来康康AI可以有多“靠谱”？

末日生存指南

数学谜题总是那么让人着迷

龙虾为谁而煮？