我算是一个对计算机以及相关软件发展比较关注的一个人了。
自从近期我们熟稔并使用的AI面世后,我却“远远”落后了:没办法!每当我想注册这些早期的AI,它们都会提示我:Service not available for your country/region。我也不想用一些hack的方式去尝新,于是就落后了。
不过过去一年来,国内的AI发展也迅猛无比,特别是DeepSeek刚问世那会,给圈子带来了很大的冲击。
和朋友们聊天,我发现我属于秉持比较古板的“AI”概念的人之一。
=======
人类获得知识,有两种途径:要么是演绎,要么是归纳。
应该说,演绎法在大数据、机器学习出现之前,是人类获得知识的根基。这当然不是说,这里就没有“归纳”,只是限于通讯(造成数据流通不够)、算力(造成归纳能力不够、运算能力不够),因此归纳的地位不如演绎强劲。
在我看来,演绎是区别人类智能和所谓人工智能的核心。只有一个智能体能进行相当于人类一般人水平的演绎后,我才愿意将它称为真正的智能。
=======
如果基于现在市面上充斥着的“AI”,我觉得可以分为三大类。
一类是可以对结果进行严格正确性验证的AI。在我看来,这类AI最有用,也最先进。
在这方面领先的,是Google Deepmind。它走入大众视野远远早于ChatGPT:2016年AlphaGo以绝对优势战胜了李世石。之后它的研发进程就像一匹脱缰的野马:AlphaZero进入了国际象棋,成为目前世界顶尖棋手队伍中的必备成员,标志着信息完全对称情况下AI的顶峰;AlphaStar进入星际争霸,进入全球前0.2%的顶尖选手行列,标志着信息不完全对称情况下AI的顶峰;AlphaFold对蛋白质空间结构的预测准确率110先。
在更抽象的数学领域,AlphaTensor发现了一种新的矩阵乘法算法,将4*4矩阵算法中的计算次数——常规的64步计算,到Strassen在50年前发现的49步——改进到47步。不要小看这2步!如今,AlphaEvolve更是专门致力于发现更好、更快的算法。
在更实用的编程领域,AI模型更是层出不穷。
这些AI解决的问题,都有一个共同的特征:都有一个明确的目标(并辅以相应的规则)。国际象棋是将死对面的王,星际争霸是端掉所有其他人的基地;蛋白质折叠必须使这个结构具有可判定的功能;算法必须得到正确的结果。
遗憾的是,在这个领域,我还很少看到国内公司发威——除了逻辑推理这块好像还有点声音。
为了测验AI逻辑推理的本领,我找了一道题目:鲍西娅(角色《威尼斯商人》,但故事都是作者编的)
鲍西娅想到:“尽管我丈夫选对了盒子,看出他有一点聪明,但是问题不是真正那么难。本来我当然可以把问题出的更难一些,找个真正聪明的丈夫的。”于是她和丈夫离了婚,决定找个更聪明的。
这次她在盒子上刻下了这样的铭文:
| 金 | 银 | 铅 |
|---|---|---|
| 肖像不在银盒子里。 | 肖像不在这个盒子里。 | 肖像在这个盒子里。 |
鲍西娅对求婚者说明,这三句话中,至少有一句是真的,至少一句是假的。
这道题在这本书里不算难,只有入门水平。我用GPT4o,Claude3.7 Sonnet以及DS做了测试。
- 4o和Claude表现出众,分别在20s和30s内一次给出了正确答案:肖像在金盒子里。
- DS也给出了正确答案,但耗时120s,而且中间推理过程出现了反复,也就是得到正确答案后,由于其对题目文本的理解还不够,又回头用形式逻辑进行了一遍推理。

我将这类AI放在第一类,是因为我们找工具的目的是为了完成“我们的目的”。
第二类AI是可以给出可证伪的结果。
这两天太子从纽约州Ithaca长途迁移到山东德州Austin,全程要1700多英里。他做了一个行程,分了四天。我让ChatGPT o1也做了一个,也提了一些要求:4天跑完、劳逸结合、能看风景、有美食、住宿可以简单。
它给出了一个方案:
– Day 1: Ithaca to Columbus (~400 miles)
– Day 2: Columbus to St. Louis (~400 miles)
– Day 3: St. Louis to Texarkana (~400 miles)
– Day 4: Texarkana to Austin (~500 miles)
这个方案和太子的方案只有第二天不同。o1还提示,这么走“好像”可以看到(著名的、历史悠久的、太子小时候很爱看的《汽车总动员》中提到的)66号公路。
这种方案,有可证伪性:城市名称不对、距离不对、途径的公路不对、路上景点不对、住宿点名字地址不对……但没有完全的正确性,也就是说,我完全可以走另外一条路线,同样可以说满足我提的那些要求。所以在我看来,只能是第二类。
第三类AI给出了无法证伪的结果。生成音乐、影片、对话播客(我这里不是说播客的内容,因为内容是可以证伪的,而是说AI最终将内容呈现的形式)、各种报告等。
比方说,你让AI写一篇当前XX形势的分析、第一季度工作小结,结果——特别是那些AI生成的内容——就是无法证伪的。形势到底是不是“稳中向好”了呢?“我”到底有没有“领会精神”了呢?
总结一下:
- 第一类AI:成就最高,门槛最高。哲学层次。
- 第二类AI:成就次之,门槛次之。准科学层次。
- 第三类AI:成就最次,门槛不一。一般层次。
第三类AI中的那些所谓报告生成可算是最次的了。

Leave a Reply