Tag: AI

  • 手搓一个AI赋能的电子书阅读器

    手搓一个AI赋能的电子书阅读器

    我挺喜欢看书的,也挺喜欢看电子书——特别是有些时候,实体书搞不到,那就只能看电子书了。

    之前吧,我用一个非常old的KPW3看书,也不敢抱怨:屏幕小了一点,英文单词翻译弱了一点,中文输入(比如添加笔记)拉了一点,导出功能肋了一点,售后服务是没有一点……但没有别的特别动心的选择。

    这不,AI来了,我感觉我又行了,我编程能力一般,但可以让AI帮我写一个AI赋能的电子书阅读器啊!

    说干就干。今年年初的时候,我萌生了这个想法,从GitHub那里拉了一个现成的Python ePub解析库,然后在此基础上加入自己的功能。

    比起之前的随手0天完成项目,我是很认真地在创作——为此我专门升级了我的显卡呢!

    先说开发工具、AI模型配置。

    我选用了Visual Studio Code作为我的开发工具,同时用GitHub Copilot作为我的AI agent,其中的GPT 5.4作为模型。

    用KPW3看书有一个重要的不便:它的标注功能太弱了。我看书有一个习惯:喜欢划线,有一些单词——特别是拉丁文短语——我想记下来,有一些地方我觉得很有意思——可以进行后续的讨论和写作……

    有了一块很强的显卡后,这些我都想让AI来完成,于是我安装了Ollama,并安装了模型Hermes3作为本地快速查询的模型,然后安装了Gemma4:31b-cloud作为远程模型。

    这么一来,整体应用的框架就算基本成了:

    1. 打开WEB界面,上传书籍,阅读。
    2. 阅读界面可以调整阅读界面、字体名称、字体大小、Light/Dark模式等。
    3. 如果看到我不认识的单词或者专属名词,可以划词翻译或者要求AI给出解释
    4. 如果看到一段话我想加入我后续的讨论和写作,我可以要求AI就此给出讨论要点
    5. 一般地,我可以随手加个批注
    6. 以上所有这些AI产出的、我的内容都可以保存到数据库,以便整理、导出。

    这就是我这个AI电子书阅读器的基本功能了。

    在开发过程中,我基本没有写代码,就是在和我的IDE“聊天”。最终的阅读界面是这样的1

    (上图是模拟纸质背景读书的效果,并显示了我让AI查找Lynch syndrome返回的结果——用的是Cloud模型。)

    回到书籍列表界面并展示深色效果:

    以及本书所有划线部分的内容——导出部分还在开发:

    这个程序的代码我已经放在了GitHub:https://github.com/taylorren/ai-reader,有兴趣的朋友可以克隆一份,启动不一样的电子书阅读之旅

    相关文章


    1. 微信可能会不让我发图片,但我不准备换了。 
  • 让AI更懂你

    让AI更懂你

    如果说在不久前,碳基人类最值得学的“通用语言”是英语,那么到了硅基AI时代,我想再加一个:MD,也就是 Markdown。

    在我看来:只要你想认真使用AI,就最好学会用MD这种轻量级语言来组织表达。

    相信不少人和我一样,会刷到:“我只是拉了一个文件,AI就帮我做好了总结!”,“我写了三行提示,AI就帮我做好了PPT!”之类的标题党。

    我承认,这种情况确实存在——甚至我有时也会这么做,也会得到还算可以的结果。

    但这并不是让AI更懂你、更好为你做事的正确方式。

    原因很简单。自然语言适合聊天,却不擅长精确表达和协作。你随口问一句,AI当然也能答;可一旦你要它整理文章、比较方案、按固定格式输出、修改长文、分步骤执行任务,纯口语就很容易乱。

    而MD的价值就在这里:它能把你的意图结构化。

    比如,你当然可以直接这样说:

    帮我写一个方案,要包括背景目标风险预算时间安排,并且先给结论,再展开分析。

    但如果你用MD把要求写清楚:

    # 任务
    写一个项目方案
    
    ## 输出要求
    1. 先给结论
    2. 再展开分析
    
    ## 内容结构
    - 背景
    - 目标
    - 风险
    - 预算
    - 时间安排
    

    AI通常就会“聪明”得多。因为标题、列表、编号、代码块,这些在我们看来只是格式,在AI那里却是非常明确的路标(信标)。

    不是AI偏爱MD,而是它更容易处理层级清晰、约束明确的信息。

    常用的MD语法其实就那么多。如果要看一遍,也不用找太多资料,直接看 Markdown Guide 的基础语法 就够用了。

    # 标题
    ## 子标题
    
    - 并列要求
    - 并列要求
    
    1. 第一步
    2. 第二步
    
    **重点限制**
    
    > 背景材料
    

    MD最早出现,是为了用更少的标记完成基本排版,本来是个文档工具。但现在,它也越来越适合拿来和AI协作。它训练的并不只是格式习惯,更是一种表达能力:先分层级,再写要求;先给边界,再让AI发挥。写提示、写知识库、写任务单、写会议纪要,都会因此受益。

    支持MD的免费工具有不少。Windows和 Mac上都可以直接用ObsidianVS Code;前者更像笔记本,后者更像工具台。更轻量的编辑器也不少。

    不会MD,你当然也能用AI;但会MD,你往往更容易把需求讲清楚,也更容易让AI稳定地把事做好。

    所以如果今天有人问我:想把AI用好,最值得先学的东西是什么?

    我的答案会是:

    先学会把想法写清楚;而MD,往往是最好上手的起点。

    相关文章

    • [[251218.2026 AI辅助创作指南]]
    • [[251009.assert(编程!=抽烟烫头喝着酒)]]
    • [[250204.NotebookLM试用体验]]
  • 让我来康康AI可以有多“靠谱”?

    让我来康康AI可以有多“靠谱”?

    Google沉寂了好一段时间,前两天放出了一个重要的模型升级:Gemma 4。我下载了、运行了。

    我用的测试工具比较多,包括:Visual Studio Code(VSC)中的Github Copilot(自动选择模型),Ollama(Gemma 4 31b),还有国产的豆包。

    其中,本地跑Ollama的桌面机配了一块5060 Ti 32G的显卡。

    我一直有收藏文档做站点的习惯,所以这次我就从我的维基站点中的两个专栏里随手拉了一些题目:

    第一题

    爱丽丝来到遗忘林的时候,她不是所有的事情都忘记了,她只是忘记了某些事情。她经常忘记自己的名字,最容易忘的是星期几。狮子和独角兽可是林中的常客。他们都是很奇怪的动物。狮子在周一、周二和周三撒谎,其它日子说实话。而独角兽呢,正好相反,它周四、周五、周六撒谎,而其它日子说实话。这天,爱丽丝遇见狮子和独角兽在树下休息。他们做了如下的陈述: 狮子:昨天是我说谎话的日子。 独角兽:昨天也是我说谎话的日子。 爱丽丝是个非常聪明的女孩,她从这两个陈述就可以知道今天是星期几了。那么今天是星期几?

    这是一道入门题。所有的AI都可以得到正确答案。但Gemma的推理过程比较突出:它检查了周一的情形后,总结出:无论是狮子还是独角兽,能说出这句话的日子和前一日必须是处于不同的说真话还是说假话的日子。所以,很快,它推理出狮子只有周一、周四,独角兽只有周四、周日,才能做出如题的陈述。所以,当天只能是周四。这个推理过程非常有意义。

    第二题

    莎士比亚的《威尼斯商人》中,鲍西娅有三个首饰盒:金的、银的和铅的。其中的一个盒子中放着鲍西娅的肖像。求婚者要在其中选一个盒子,如果他足够幸运(或者足够聪明)选到了有肖像的那个盒子,他就可以娶鲍西娅为妻。每个盒子的盖子上都有一段铭文来帮助求婚者做出聪明的选择。 现在,假定鲍西娅希望选择她的夫君时,不是基于他的品德,而只是基于他的聪颖。她在盒子上刻下了如下的铭文:
    肖像在这个盒子里。 肖像不在这个盒子里。 肖像不在金盒子里。
    鲍西娅对求婚者说明,这三句话中,最多只有一句是真的。 求婚者该选择哪个盒子?

    这道题也不难。所有AI都可以得到正确答案:求婚者应该选择银盒子。

    Gemma和Copilot的推理过程相似。它们都敏锐地判定出:由于金盒子和铅盒子上的陈述互相矛盾,那么这两个陈述肯定有一个为真。而题目中说“最多只有一句为真”,那么银盒子的陈述就是假的。既然如此,肖像必然在银盒子里。

    (以上两题来自我最喜欢的逻辑书《这本书叫什么?》。我选了其中最入门的两个章节中的两题。)

    第三题

    Life Isn’t a Bowl of Cherries 你和朋友Amit面前有4只樱桃碗,里面分别装着5,6,7,8颗樱桃。 你们轮流行动;每次可以任选一只碗,并从中取走至少1颗樱桃。 如果你先手,并且想确保最后一颗樱桃是Amit取走的,那么你的第一步应该从哪只碗里取走几颗樱桃?

    所有AI都知道这是一道有关NIM sum游戏的策略题,并给出了第一步操作:从8颗的碗里拿走4颗,并解释了其中的数学原理:各个碗的樱桃数量的异或值为零是本题的关键。

    但只有Gemma明确指出:这个所谓misere Nim(确保对手赢)游戏,策略和常规的Nim(确保自己赢)游戏,策略是一样的,直到最后一步。

    第四题

    Spaghetti Loops 把50根煮熟的意大利面看作50段线段,它们一共有100个端点。 现在把这100个端点随机两两配对并打结。 问:最终形成的闭合面条环(loop)个数的期望是多少?

    三个AI表现正常。但豆包只有第一步推理是对的:它知道在第一次挑面条的一头,并和任意另一头打结的时候,成环的概率是$\frac{1}{99}$。但它太早进行一般化,简单地将这个概率乘以了50。经过一次提示,它正确地得出,最终形成闭环的期望是$\frac{1}{99}+\frac{1}{97}+\frac{1}{95}+\cdots+\frac{1}{3}+1$。但在计算这个公式的时候出错。经过再次提示,得到了2.937…的正确结果。

    (以上两题来自我最近开始整理的《数学谜题》。)

    ====

    我觉得吧,AI能帮我总结东西、帮我做PPT都是极好的。但要是能帮我学习逻辑、学习数学,从而可以真正地与它开展严肃的讨论,那才是更好的。

  • 龙虾为谁而煮?

    龙虾为谁而煮?

    2026一开年,AI界现象级的一个应用就是“龙虾”(OpenClaw)。这个应用在GitHub已经获得了57.8K的Star,超过了之前的榜首应用(如React),而且登顶速度惊人。

    “龙虾”是什么?

    在回答这个问题之前,先回顾一下这几年我们和AI打交道的演化:

    1. 基于WEB界面/AI应用界面的交互。这个交互过程的典型特性,是用户提问+上传(受限类型的)文件,AI给出回复。用户根据回复,作出相应的修订等工作。目前,这个方式还是很主流的,而且AI已经可以生成各式文件(图片、音乐、视频、文档等)供下载。
    2. 应用嵌入/命令行。大量IDE的工作方式是基于应用内嵌,比如VSC中的Copilot;而等到SpecKit出现后,推动了命令行工作方式,比如Copilot、Gemini、Qwen等。
    3. 自托管式。AI有了更大的自主权。OpenCode(以及oh-my-opencode)是这一方面的先驱,让人类可以通过简短的描述性文本,完成十分复杂的任务。而其后继及登峰造极者,目前看来就是“龙虾”。

    所以,龙虾到底是什么?

    它是一个拥有极高自主权、极大能力的AI代理(agent)。它的上限决定于两个因素:你的想象力,以及你对它的授权

    授权的风险

    授权是个很tricky的动作,而涉及到AI的时候,就更加的tricky——因为没有了一个人类下级在得到上级授权后常有的一个动作:”汇报并确认“。这可以算是引入了风险。

    即使获得授权的人类不进行汇报并确认,但在一个组织中,还有check and balance。你也许获得授权动用100万的资金,但财务在收到此类请求时,很可能会动用财务规范,进行一个核验。

    但龙虾不会,而且它缺乏人类下级常有的“常识判断”机制。你的授权通常以最直接的方式给予:你的账户、密码、密钥、设定……一旦给予,龙虾就会自动运行。如果是一些对物理世界没有影响的操作(比如只是写个代码、抓取新闻),那还好;如果是对物理世界有影响的操作(比如买卖股票),这里的风险就太大了。

    (在我看到的有关龙虾的新闻中,已经有人用龙虾找对象谈恋爱了。)

    注意:我不是说不应该授权。现代商业、政体运作已经证明,授权是成功运营的基本要素。我的要点是:只有充分理解授权带来的权利和义务(或者说pros and cons)后,你才能学会授权和被授权。

    龙虾显然还不能如人类那样充分理解授权带来的权利和义务,或者说,它的设计初衷就是为了“享受”授权带来的执行便利,而非履行审核义务。

    你应该养龙虾么?

    龙虾的设置说简单也行,说复杂也行。

    说简单,是因为官网上关于安装龙虾只有一行命令,以Windows为例:iwr -useb https://openclaw.ai/install.ps1 | iex

    说复杂,是因为这个命令,需要你打开“终端”(确切说是Powershell),运行命令。

    更复杂的,是-useb这个选项是啥意思?整个命令到底干了什么?

    如果你的回答是:我不知道……我就安装就是了。那么你的计算机应用水平可能和我一样,在养龙虾前真的要三思。

    接下来的问题,是如果你给了龙虾足够的权限,你的Windows系统万一受到损害怎么办?专家建议你“开个沙盒”,或者用一台“闲置”的机器。但这听起来就像建议你“在家里建个生化实验室”一样轻松。问题来了:沙盒怎么弄?闲置机器哪里去弄、又如何配置?

    而安装只是第一步。配置社交账号、配置权限……这些真的不是初学者能熟练掌握的。

    手枪是个精密器械,不会有人说:全民学习枪械知识。龙虾是个精密的app,为什么有人说:大家都来养龙虾吧?

    (而我看到某公司竟然也匆匆进场,推出种种套餐、服务帮大家养龙虾的时候,我真的是吓了一跳……)

    我的建议

    要拥抱AI,积极使用AI,但不要FOMO(Fear Of Missing Out)。

    如果真的要养龙虾,不妨先提升自己的AI使用水平、计算机使用水平、计算机操作系统使用水平,对相应的知识点有了基本的掌握后,再来思考要不要养龙虾的问题。

    回到授权的问题,我在想:

    参加了庞氏骗局的人,亏本后会闹事。

    用了龙虾,亏了更多的人,会不会闹得更厉害?

    也许,企业的一个底线应该是:民众的认知局限固然不是它的错,但至少可以做些“开启民智”的事情,而不是利用这种认知差来赚黑心钱。

    或者说,它们其实没有任何真正的创意,只会用你的焦虑赚钱罢了。

    龙虾为谁而煮?显然,并不是为没有准备的你而煮。

    (这两张图,一张由Nano Banana生成,一张由本机生成。)

  • AI写一个更好的音乐播放插件……以及愚蠢的人类的干预

    AI写一个更好的音乐播放插件……以及愚蠢的人类的干预

    我一直用Jellyfin来管理我的媒体收藏:音乐、电影、照片等……其中的音乐收藏是我多年收集的成果,质量远超网络音乐……

    不过,我不是很喜欢它自带的播放界面:没有频谱动态显示,CD封面也太小。于是我决定采用快速原型开发方式制作一个。

    工具

    • Visual Studio Community 2026作为开发环境
    • C#语言
    • 智能体:Github Copilot尊贵入门会员
    • 编程模型:GPT-5.2-Codex

    我用了2个上午,0手工代码,最终完成一个我个人认为还比较可用的小程序。

    主要功能:

    1. 显示当前播放曲目的信息:曲名,艺术家,专辑。
    2. 显示CD封面(Artwork),并转动——感觉回到唱机时代。
    3. 简单的回放控制:上一首、下一首、播放/暂停。
    4. 环形播放进度提示,悬停时提示曲目总长和剩余时长。
    5. 动态频谱显示。
    6. 曲目切换后动态更新系统托盘图标(Tray Icon)提示,并更新图标为Artwork。
    7. 可配置Jellyfin Server(服务器和API Key),安全连接自家的服务器。

    最后的界面如下(只有那个橙色的环,那个机器人是我Steam Wallpaper Engine的壁纸)。

    谈谈过程

    这次开发,延续了我比较喜欢的快速原型开发过程。全程我提供了:

    1. Jellyfin的API文档
    2. 一个可以借鉴的现成插件配置(.ini)和界面(.png截屏)。

    我用的Agent学得很彻底,在一些核心的功能方面,基本没有任何波折,在第一个半天就基本完成了。而且,在第一个半天,我还微调了界面,使其更符合我的个人偏好。

    用编程术语说,这个时候我已经有了一个MVP(Minimum Viable Product,最简可行产品)。所以第二个上午我集中在微调。

    我想动态更新任务栏(Taskbar,不是Tray)应用图标,使其成为我现在播放的专辑的封面。这个工作耗费了我上午的大部分时间。AI试图用各种不同的方法来实现。但:

    1. 多数方法无效
    2. 部分方法只能部分有效

    这时,我只能人工干预了。我在网上进行了一些搜索,得到一个结论是:我的要求很难实现。

    我将这个反馈提给AI,它才如梦方醒,说:确实如此!但有折中的方案:不用Taskbar,而用Tray。

    事实证明,这个思路是对的:每当乐曲切换,Windows就能弹出一个提示,提示我现在播放的是什么曲目,并更新应用Tray Icon的图标。

    AI最终实现的是动态更新系统托盘中的应用程序图标,而非任务栏上的窗口按钮图标。

    通过这次开发实践,我总结出一套有效的人机协作开发模式:

    1. 明确需求边界:在AI开始编码前,清晰定义功能需求和技术约束
    2. 渐进式验证:采用MVP(最小可行产品)方式,先实现核心功能再逐步完善
    3. 智能识别瓶颈:当AI尝试多种方案仍无法解决问题时,应及时介入分析技术可行性
    4. 灵活调整策略:当原定方案受技术限制无法实现时,主动寻找替代方案
    5. 经验驱动决策:结合自身技术经验判断AI方案的合理性,必要时引导AI探索其他路径

    这种协作模式充分发挥了AI的快速编码能力和人类的架构判断能力,实现了高效的软件开发。

    这里的一个重要结论是:不能完全依赖AI。AI的讨好型人格——至少我使用的AI的缺省人格——使得它很难挑战人类提出的想法。它会顺着你的想法无畏地前进,头破血流也很难让它幡然醒悟:这个方案是行不通的。

    这个时候,人的介入很重要:为它打开新的思路。而这样的工作,是需要人的经验和判定的。

    我觉得,这是人和AI协同工作的方向。

    (我让Nano Banana和本机的Comfy用同样的关键词生成了两张图。)

  • AI at the Gates

    AI at the Gates

    从2022年底ChatGPT问世,这三年来所谓AI的发展已经令人眼花缭乱:文字对话,图像,音乐,视频,编程……几乎我们日常使用电脑的每个领域,都有了AI的参与。

    我也在力图跟上这些最新技术的发展,但最大的问题在于:那时国内模型还没有跟上,而国外的模型对国内的用户又是极不友好——这就让我很羡慕朋友圈里能第一时间用到这些AI的伙计。

    24年的时候,有好朋友帮我开了个账号,借用他们公司套壳的ChatGPT和其他一些AI。这么用对我当然有帮助,但也有不便:我需要在AI界面和我的应用界面之间不断地拷贝/粘贴,完全打乱了我的工作流(workflow)。

    那时还装了一个本地的AI,就是大名鼎鼎的Ollama。虽然不能解决两个界面间内容转移的问题,至少是一个本地的AI。这时候最大的问题,就是我的电脑显卡都太差了:我的服务器是最烂的显卡,我的台式机好一些,但是很老的3050。这样的GPU配置根本不配让我“畅享”AI。

    到了2025年,我开始真正地深度依赖AI:

    • 编写程序:用Kiro、VSC、Trae。一般的流程,就是给出我的想法,让AI帮我去实现。我用AI完成了我“任氏有无轩”藏书管理程序的前台和后台的改写。还顺手开发了一些小应用(比如一个带有AI支持的ePub阅读器)。
    • 写作文字:用Qwen、Copilot的CLI。现在我一般是先和AI讨论我的初步想法,并形成提纲。然后我开始写作。最后让AI看一遍,给点建议。
    • 分析提高:用NotebookLM、Qwen和Copilot。这时,我会让AI分析大量的原始材料。此时我多年的写作习惯就有了很大的作用:我可以“喂”给AI大量的文字资料,让它分析。说实话,我从我的“过去”学到了很多。

    这些工具本身就是AI或者嵌入了AI,我可以在一个环境中完成几乎所有的功能。

    2025年,才算是我的AI元年。

    这不,到了年底,也算为了纪念一下,我决定升级我的显卡,买了一张5060 Ti 16G的N记显卡。一个最显著的变化就是速度大幅提升。

    我的《黑悟空》游戏原来只能勉强跑到30 FPS,现在随手一调就是150 FPS;原来和Ollama对话,回复是一个字一个字蹦出来的,现在就是很流畅的大段文字流回来,逼得我不得不再次训练我的英文速读能力。

    这两天一直在和AI对话,让它给我一些“下一步”学习的想法。今天我在台式机上装了一个ComfyUI,就能自己生成图片了,这也是我下来想探索的一个方向。

    这次,真的是AI at the Gates1了。


    1. AI at the Gates的题目来自一本老电影《Enemy at the Gates》。 
  • 再次推荐NotebookLM

    再次推荐NotebookLM

    使用NotebookLM有了一段时间,但使用频率不是很频繁:一个是网络连接的问题,一个是总觉得单纯的一问一答(然后保存对话产出)没啥大用。

    前两天为了测试网络连接,又跑上去看了一下,发现有了很多改进,NLM提供了更多的“探索”资源的方式。我让它做了一些“探索”,并表示满意:它的总结基本不会漏东西,并且用AI独有的“联想”为我找到了我之前也没有意识到的connection——而经过我的reflection,这样的connection确实还是有道理的。

    怎么用

    要让NLM进行探索,你需要给它提供资源。这些资源几乎可以是任何东西,常见的如:PDF,文本,Word文档,以及诸多图片格式和音频格式。

    提问:如果是PPTX怎么办?NLM并不直接支持。我的建议是导出PDF,或者将PPTX中的文字和图片分离出来再上传。

    有了资源,NLM就能干活了。目前,NLM可以帮忙做这么多的“探索”(并产出结果):

    1. Audio Overview:根据资源,生成一个约莫15分钟的两人(一男一女)的英文对话,但不是和资源“作者”的对话。
    2. Video Overview:顾名思义,就是视频的呈现了。但时长会缩短,只有5分钟上下。而且,不要认为这个Video会有多complex,它只是一些slides的动态演示加配音罢了。
    3. Mind Map:思维导图。提取分层次的要点,并能就某个特定主题加以深入讨论。
    4. Reports:如名字。就算是一个报告。
    5. Flashcards:闪卡。我不知道大家知不知道这个玩意儿。它就是一个双面卡片。卡片正面是相关的提问点(比如:“任老师2025年去了哪些国家?”,反面是答案(“A国、B国、C国”)。闪卡在强化学习中很有用。
    6. Quiz:和闪卡类似。但类似知识竞赛这样的过程。一问一答还有提示。
    7. Infographic:用一张图总结资源,目前在Beta阶段。比如,我让它总结到目前为止我2025年的博客内容,它给了我这么一张总结:

    特别需要提出的是,这里有大量的中文生成。如果不是用文字贴上去的方式,而是完全由AI生成,那么说明NLM在后台生成图片的时候用的是比较强大的Nano Banana Pro。

    1. Slide Deck:这个是我最喜欢的功能,可惜目前还在Beta阶段,而且我的账号只让我每天用两回。它可以根据资源,整理出一份排版非常摩登、配画配字的PPT。在这个过程中,NLM表现出极强的关联、逻辑能力。

    用来干什么

    NLM提供了8种整理、探索资源的方式。我觉得各自有不同的应用场景。

    1. 如果你是学生党,可以将教授的课件传进去,让NLM提供Quiz、Flashcard的总结。那你可以快速回顾授课内容,并通过Q&A的方式加快、加深学习。
    2. 如果你需要对一篇文字加以总结,那么可以用Infographic、Report、Slide Deck等方式。其中,Infographic适合做宣传、引流,Report适合深度阅读,Slide Deck更适合进行二次呈现。
    3. 如果你要做自媒体,那么我觉得Audio适合播客,Video适合视频号——我等下就将Video传到微信Channel里去。
    4. 如果你是和我一样的写写党,我建议不妨定期做些类似的回顾。回顾的重点,我觉得可以放在“连贯性”和“自洽性”上。在我这个年纪,思想已经基本成型,就不应该有太多的思想180度大转弯,自洽是非常重要的一个标记:表明我一如既往地遵从我自己的思想体系在思考这个世界

    AI的出现,确实改变了我平时的思考和写作过程,更重要的,它为我带来了一些我几乎都没有注意到的洞见,而基于这些洞见,可以让我进一步思考和写作。这样的AI应用,我是乐于使用并向大家推荐的。

  • 重新定义搜索和浏览

    重新定义搜索和浏览

    AI时代,上网的两个重要动作:搜索浏览被重新定义了。

    而且我还注意到,还有一个新的动作需要被加入。我还没想好这个动作应该怎么命名,暂且先用“整理”名之。


    搜索的进化

    先说搜索这个动作。

    Google——这个互联网“搜索”时代事实上的霸主引擎,在AI时代,也已经发生了变化:

    在Google中输入搜索关键词,大部分情况下,它已经可以提供一个非常high level的AI小结。(如上图中搜索vibe coding而给出的“AI概览”)。

    我个人认为,这个功能还是有用的:

    如果你只是想有一个基本的概念,那么看看AI总结也就差不多了。如果还想进一步了解,那么AI的总结中也有很多有用的链接——这些链接都是经过算法而脱颖而出的,质量相当高。

    这样的搜索结果推送,既保留了深度、精度,也提供了诸多便利。

    这可以说,是搜索引擎与AI结合的第一步,更好地提升了搜索的质量。


    浏览的困境

    搜索到高质量的结果后,就是“浏览”的过程。

    这个过程往往是“痛苦”的:

    痛点一:语言的隔断

    看长篇外文内容的时候,语言是个障碍。虽然肾上鄙人在下我的英文水平不差,但要看大段大段的文字还是有点“痛苦”。

    痛点二:藏而不用

    看完后的整理也“痛苦”。之前我用过Evernote、现在我用Notion来做网页剪贴。但是往往“藏”了之后再也不看。时间一长,自己藏了些啥都不知道了。

    简单说来,我也患上了FOMO(Fear Of Missing Out)——看到东西就想藏,但忘了:藏而不用,就是白藏

    痛点三:无法为写作服务

    藏而不(能)用,对我这样一个喜欢写作的人来说,是很痛苦的。

    痛点四:灵感转瞬即逝

    还有很多时候,我浏览到一些东西,会很快有一些想法。等真正落笔写的时候,往往会丢失几乎所有。而且在写的时候,也会“词不达意”。


    第三个动作:从信息到知识的转化

    因此,我希望浏览时就能:

    1. 借助AI分析 – 不只是翻译,而是理解、提炼、关联
    2. 和AI进行脑力震荡 – 在阅读的当下就能提问、质疑、延伸
    3. 最后才是收藏 – 连同原文和与AI的交流一起保存

    这个过程,其实不是简单的“整理”,而是从信息到知识的转化,是让外部内容内化为自己思考的一部分

    传统的收藏工具解决的是“存储”问题,但AI时代需要的是“对话式的思考工具”。


    用YouMind实践

    前两天发现了YouMind这个工具,感觉它能解决我的“痛苦”:

    • 浏览时即可与AI对话 – 不是先藏后看,而是边看边想
    • 保留完整的思考轨迹 – 原文 + AI对话 + 我的想法,三者一体保存
    • AI辅助理解和延伸 – 可以让AI总结、翻译、提问、关联

    它可以作为一个浏览器的插件而存在,而且现在好像、似乎可以随意注册(使用Google或者Apple ID)。

    在浏览到一个对你有“帮助”的网页后,你可以点击浏览器上的图表激活Youmind并开始对话:

    (上图就是我和Youmind就中美两国首脑最新会面的新闻而进行的交流。作为Demo,我没有做深入的讨论,只是让它做一些总结。)

    在我使用Youmind的时候,我发现它很智能,用到了最新的AI智能体,这点是很不错的——就冲这点,如果它将来收费,我也会毫不犹豫地订阅。

    总结一下

    互联网的本质是信息的流动,但信息的价值不在于流动本身,而在于它能否转化为我们的思考和创作

    过去二十年,我们解决了“找到信息”的问题——Google让搜索变得高效。

    现在,AI时代给了我们新的可能:不只是找到信息,而是和信息对话,让它成为自己思考的一部分

    搜索、浏览,再加上这个我还没想好怎么命名的“第三个动作”——它们构成了AI时代上网的完整闭环。

    这个“第三动作”,暂且称之为“整理”,但它其实远不止整理那么简单。它是思考的延伸,是灵感的捕捉,是创作的起点

  • 三个AI做一道小题目

    三个AI做一道小题目

    昨天去好朋友张总的公司参加了一次分享。分享人是Sasaya-san,一位资深的IT人员。

    他除了展示他平时如何使用公司内置AI平台、公共AI平台以及本地AI平台(如Ollama)来帮助他总结资料、提取要点外,还展示了他向AI提问的一些框架,如:5W1H,MECE1,PREP等。这些框架的介绍让我有了新的思路和想法。Arigato, Sasaya-san!

    今天在某视频平台看到了一道有意思的题目。这道题目不算太难:

    简单翻译一下:某人(Amrit)和他爷爷同一天生日,爷爷的岁数是他的3倍。生日气球送来的时候被弄乱了。而这4个生日气球是“6 8 7 2”(如图)。请问,Amrit几岁?——据说只有30%的人可以答对。

    通过简单的计算,就可以知道:$26*3=78$。26 78正好用完四个气球。

    (你做到这里停下了笔,开始奇怪为什么这么简单的题目只有30%的人能做对,“自然”得出结论说歪果仁的数学真的很差……)

    这道题目有一个小陷阱——“气球被弄乱了”。弄乱不光可以是先后顺序乱了,还可以是“上下”顺序乱了!所以,6这个气球其实……可以是9来的!而$29*3=87$,也正好用完4个气球!

    所以,这道题目有两个合理的答案:Amrit要么26岁,要么是29岁。

    ==========

    题目做完了,我在想,能否让AI来试试这个挑战呢?

    我询问了:DeepSeek,豆包以及Gemini Cli。前两个是图片直接上传,最后一个是用文字转述。

    结果如下:

    DeepSeek(深度思考)

    1. 上传图片。
    2. 基本读懂题意,但受到图片中“30%”的干扰,然后开始blahblah……
    3. 打断DS,明确告知不用理睬“30%”。
    4. 得到26的答案。(37秒)
    5. 提示:The balloons are muddled up. It gives you an important hint.
    6. 还是只得到26的答案。(67秒)

    豆包

    1. 上传图片。
    2. 得到Amrit只有2岁(他的爷爷6岁)这个讲不通的答案。
    3. 提示:你必须用完4个气球。
    4. 得到26的答案。
    5. 提示:The balloons are muddled up. It gives you an important hint.
    6. 还是只得到26的答案。

    Gemini CLI

    1. 因为我用的是CLI,所以没有上传图片,而是用文字描述。(也就去掉了30%这个干扰项)。
    2. 得到26的答案。
    3. 提示:The balloons are muddled up. It gives you an important hint.
    4. Gemini恍然大悟。它“认为”类似这样的经典谜题中,这样的提示表明有一个数字也许可以看成另外一个数字。
    5. 判定如果6翻个个儿,就变成了9
    6. 重新计算,得到新的答案29

    (Gemini最后的推理过程)

    综合评分

    DS和豆包差不多在伯仲之间。DS受到干扰项的影响,而豆包第一个答案完全没有道理。而经过第二个提示,两者都未能找到第二个答案。所以我觉得能给到45-50分。

    而Gemini第一次给出了一个答案,经过提示给出了第二个答案。我觉得可以得到80分左右。

    (该图片由Nano Banana生成)

    反思

    这道题目,我一开始也没有想到第二个答案,也需要再想想才能得到。一方面是这样的题目做得不多,二方面可能还是有思维定式。

    结合昨天Sasaya-san的演讲,得到一个有用的hint就是:在使用AI提升自己的生产力的时候,还是不能太随意、太vibe,人类的充分思考和方法论的引入还是有用的——否则,你真不知道ta是怎么想的。我将其称为在不确定性下追求确定性的一种努力。


    1. MECE: Mutually Exclusive, Collectively Exhaustive. 大概可以翻译为:不交叉、不遗漏。 
  • 一道GPT5没能答对的题目?

    一道GPT5没能答对的题目?

    今天晚上10点,会有一件很大的事情:凹凸曼将宣布ChatGPT 5!他甚至发了一张非常震撼的图——星战迷当然会一眼懂:

    国外有一些人已经提前拿到了邀请,开始了测试,据说表现可圈可点,在编程、推理、科学、数学等方面都十分强劲,110先。

    一些海外的up主也纷纷贴出了自己的测试结果,其中有这么一位老兄提到,他给了GPT5十个问题,它一次(最多两次)答对了9题,只错了1个逻辑推理题!

    一道GPT5都没能答对的题目!

    题目是这样的:

    (图片来自相应公众号)

    这个题目有两个难点。第一个是,如果有两个答案正确,那么简单的那个答案更正确。第二个是,作为读者需要深刻理解英文原文中mistruthlies的区别。

    lies容易理解,就是“撒谎者”。如果A是一个真的陈述(比如2+2=4),那么此人知道A为真,但偏偏会回答“否”(也就是他会说2+2=4为假,2+2!=4)。

    mistruth比较绕,我愿意将其翻译为“误信者”。什么意思呢?同样对于2+2=4这个陈述,他认为(相信、确信)2+2!=4,也就这么表达出来:2+2!=4注意,他说的是实话,但是是“错误”的实话,他并没有撒谎!

    因此,这道题目翻译过来,大概就是:

    Amy是个误信者,Sam是个撒谎者(骗子)。你没法分辨谁是谁。你可以想他们中的一个问一个问题,来找到A/B两条路中哪一条通往藏宝洞。你应该问什么问题(如果两个问题都能达到效果,那么更简单的问题为正确答案)。

    • A: 如果我问你的sister,哪条路是对的,她会怎么说?
    • B: 你姐姐叫什么名字?
    • C: 哪条路通往藏宝洞?
    • D: 要你猜的话,我会走哪条路?
    • E: 藏宝洞里的藏宝是什么?
    • F: 你sister的电话号码是啥?

    关于此类“君子/小人”的逻辑谜题,我真的强烈推荐斯穆里安写的《这本书叫什么?》。在这本书的第12章《德古拉是否还活着?》里,他定义了四种特兰西瓦尼亚(Transsilvania)的居民:

    我在特兰西瓦尼亚那会,当地居民大概有一半是活人,而另一半是僵尸。活人和僵尸在外表上没有任何区别,但是――至少在特兰西瓦尼亚――活人总是说真话而僵尸永远撒谎。但更复杂的情形是,特兰西瓦尼亚一半的居民完全疯了,他们的信仰中是非完全颠倒:他们认为所有真的命题是假的,而假的命题却是真的。另一半完全正常并知道哪些命题真、哪些命题假。因此特兰西瓦尼亚的居民有四类:清醒人,疯癫人,清醒鬼,疯癫鬼。清醒人说的为真;疯癫人说的为假;清醒鬼说的为真;疯癫鬼说的为真。举例来说,清醒人会说2+2=4;而疯癫人会说不是(因为他确实认为不是);清醒鬼会说不是(因为他知道是但撒谎);疯癫鬼会说是(因为他认为不是但说到他相信什么时会撒谎)。

    如果将这四种人映射到题目里提到的两种人,那么Sam显然是个清醒鬼——她知道哪条路才是对的,但会撒谎;而Amy显然是个疯癫人——她知道哪条路是“对”的(但实际是错的)而说实话。

    由于我受《这本书叫什么?》的影响很深,所以一开始我很“理智地”认为答案A才符合正确答案的特征——事实证明,这个答案也是对的。请读者自行分析。

    但在分析A的过程中,我发现C也可以达到效果。分析如下:

    假定正确的道路是A。你问:正确的道路是哪条?

    如果问到的是Amy(误信者),那么她会“认为”正确的道路是B,于是老老实实说“B”;如果问到的是Sam(撒谎者),她知道A是正确答案,但会撒谎说“B”。

    所以,无论他们的回答是什么,你只要选择另外一条路就对了。这个答案比A更简单,所以更应该成为正确答案。

    (注意,如果是常规的“君子小人”局面,在不知道谁是君子、谁是小人的前提下,问题C是不起作用的。)

    GPT5选择了A作为答案。我很难说它判断错了,因为A确实也能达到目的(但不需要反转得到的回答)。只是出题的人太刁钻,在这个题目的环境下,放入了一个非常像错误答案的正确答案。