深入 180 日
EN
下载本日: EPUB PDF

模块一 · 知识与推理的根基 · 第 003 日 / 180

逻辑与有效推理

从已知通往未知有三条路,只有一条真正保险。

演绎 所有 M 都是 P s 是 M ∴ s 是 P 保真 无新知 归纳 ……故皆然? 超越已知 或毁于下一例 溯因 意外线索 最能解释 它的故事 三种推理引擎——保证自左至右递减
演绎把你锁在安全的房间里;归纳与溯因送你出门——代价是确定性。

个陌生人走进伦敦的诊室。不过片刻,夏洛克·福尔摩斯便断言:此人是一名刚从阿富汗归来的退役军医。华生愕然。肤色黝黑,手腕却苍白——那是在海外晒出的,并非海滨日光。手臂僵直,是战伤;面容憔悴,显露出艰辛与热病。福尔摩斯称之为「演绎」,这个词已随他流传了一个多世纪。但他用错了词。福尔摩斯所施展的——也正是令他不朽的技艺——并非演绎。它更谦逊、更冒险,也更具创造力。

这个误称是再好不过的入口,因为今日全篇围绕一个几乎人人混淆的区分:推理不止一种,而它们给出的保证并不相同。有些推理天衣无缝——只要承认前提,结论便无处可逃;另一些则丰硕却可错——它们越过证据,可能被明日的意外推翻。把前者当后者、或把后者当前者,是人类错误中惊人比例的根源。所以我们要把界线画清楚。

◆ 我们身在何处

前两日,我们都在推理的外围徘徊。在第 1 日,我们追问真信念何以成为知识——并撞上阿格里帕三难:任何理由要么无穷追问,要么陷入循环论证,要么在某处武断止步。到第 2 日,休谟的归纳问题表明,再多观察也无法证明一条普遍定律,因此波普尔告诉我们应去证伪而非证实。今日我们打开引擎本身。先前两个谜题其实都关乎两种特定推理模式的边界;如今我们为三者命名,看逻辑如何蜕变为数学,再跟随它抵达本课程最奇异的前沿——以零容错的精确度核查证明的机器。今日最明亮的线索,是计算

西德尼·佩吉特笔下的福尔摩斯与华生,福尔摩斯手中拿着一块怀表。
佩吉特笔下的福尔摩斯成了「演绎」的公众形象;然而那些著名的诊断式跳跃,通常先是溯因:线索在前,最佳解释在后。

模型

三种引擎,三种担保

如果今日只能记住一件事,就记住这个三分法。推理不是一种活动,而是三种——按承诺的大小排列。

演绎是保真引擎。结论早已蕴含在前提之中;有效的演绎只是把它展开。承认所有人都会死,且苏格拉底是人,你便无法回避「苏格拉底会死」——否认它便是自相矛盾。这种安全的代价,是演绎具有非扩展性:它从不向你揭示关于世界的真正新知,只是重新排列你已拥有的东西。数学是演绎艺术被推至极限的形态,这也正是数学家何以如此笃定——以及他们的确定性为何永远无法回答关于这个宇宙的任何一个问题。

归纳是概括引擎。你见过太阳升起一万次,便推断它明日仍将升起。直到 1697 年以前,所有人记录下的天鹅都是白色,于是「所有天鹅皆白」看似牢不可破。归纳是扩展性的:它增添内容,将已有的案例推向未知。正因如此,它不保真。这是第 2 日休谟埋下的炸弹,至今仍在滴答作响:任何有限次的观察,都无法在逻辑上担保下一次。归纳是经验知识真正成长的方式,但它不提供逻辑保证。

溯因是解释引擎——也是多数人从未学过名称的那一种。你遇到一个令人惊讶的事实,于是寻找一个假设:若它为真,惊讶便会消散。美国博学家查尔斯·桑德斯·皮尔士(Charles Sanders Peirce,1839–1914)将它单独提出,视为唯一真正具有创造性的模式:它不是检验或展开旧观念,而是生成新观念。「科学的每一块进步之板,最初都是由溯因独自铺就的。」他写道。演绎与归纳处理你已有的假设;溯因则回答假设最初从何而来。

回到福尔摩斯。黝黑肤色、僵直手臂、憔悴面容——这些都是令人惊讶的事实;福尔摩斯一跃而至最能同时解释它们的假设:一名从炎热战场归来的战伤军医。但请注意,这一跃并无担保。此人也可能是个演员,夏天在摩洛哥度假,打网球时扭伤了肩膀。福尔摩斯的结论是最佳解释,而非唯一解释——这正是溯因的签名——而非演绎。(这一点在第 4 日还会回来,届时我们将用概率把「最佳解释」变得精确。)

一个伟大误称的形态

福尔摩斯并不孤单。我们说医生「诊断」——那是溯因,从症状推理到最可能产生它们的疾病。听发动机的技工、勘查犯罪现场的侦探、盯着反常读数的科学家:他们都在溯因,都在跃向那个能把奇怪变得平常的解释。甚至你读到的这句话也依赖它——你推断这些文字背后有一颗心灵,因为这是它们有序排列的最佳解释,而非某个定理强迫你如此推断。溯因是我们游于其中的水;我们只是很少叫出它的名字。

人人都容易混淆的区分

有效并不等于为真

在演绎引擎内部,住着整个逻辑中最易被误解的观念;厘清它,比背诵一打谬误更能切中要害。那就是有效性可靠性的区别。

一个论证是有效的,当且仅当它的形式保证:前提为真时,结论必为真。有效性是形状的性质,而非内容的性质——它只问论证的骨架,不问骨架里装了什么。《互联网哲学百科全书》表述得干净利落:一个论证有效,「当且仅当它的形式使得前提为真而结论为假成为不可能」。而可靠性要求更多——一个论证是可靠的,仅当它既有效,且所有前提实际为真。

真正容易令人失足的是这一点:一个有效论证完全可能导出一个荒诞的假结论。请看:

所有鸟都会飞。企鹅是鸟。因此,企鹅会飞。

形式毫无瑕疵——「所有 M 都是 P;s 是 M;因此 s 是 P」,正是「苏格拉底会死」那一例所套用的模子。若前提为真,结论就不得不跟随。所以这个论证完全有效。但它也显然不可靠,因为第一个前提是假的:并非所有鸟都会飞。有效性只认证管道的结构;可靠性还要追问管中流淌的是否为清水。一个有效却不可靠的论证,就像一条做工完美的管道,输送的却是污物。

这可不是钻牛角尖。它是归谬法——数学中最锋利的工具之一——背后的工作原理:要证明某前提为假,就先假设它,有效地推理到一个你已知道为假的结论,于是假结论便逆流而上,反证前提为假。整个技巧恰恰依赖一个有效论证故意产出假结论。有效性是舟,真理是货;学会分别追踪二者,你读任何论证时都会少一层迷雾。

当形式破裂时

藏在每个「如果」里的两种谬误

若有效形式是安全路径,谬误便是伪装成同一路径的陷阱。其中最危险的一批藏在条件推理——「若 P,则 Q」形式的命题——之中,因为无效式与有效式往往只有一步之遥。

两个有效招式是老朋友。肯定前件式:若 P 则 Q;P 真;故 Q。否定后件式:若 P 则 Q;Q 假;故 P 假。两者滴水不漏。现在轮到它们那对危险的孪生冒牌货登场。

肯定后件的推法是:若 P 则 Q;Q 真;故 P。它抓错了箭头方向。「若某人住在圣迭戈,他就住在加利福尼亚。Joe 住在加利福尼亚。因此 Joe 住在圣迭戈。」但加利福尼亚很大;Joe 完全可能在萨克拉门托。结论可能为真,这正是该谬误如此诱人的原因——它有时碰巧命中正确答案——而一个通过破碎论证到达的真结论,正是第 1 日那个盖梯尔陷阱穿上了逻辑学家的外衣。

否定前件是它的镜像:若 P 则 Q;P 假;故 Q 假。「如果下雨,地面会湿。没下雨。所以地面不湿。」但别忘了洒水器、爆裂的水管、打翻的水桶。排除一个原因,并不等于排除结果本身;同一结果完全可以有多条来路。

一个教学经典例子能把结构刻进记忆:若一只动物是狗,它就有四条腿。这只动物有四条腿。因此它是狗。猫、马,甚至桌子都会抗议。这种荒谬正是关键——它与圣迭戈例子共用同一种破碎形式,只是把荒诞感放大,让齿轮滑脱清晰可见。(欧仁·尤内斯库在他的戏剧《犀牛》中整整一幕都建立在这个谬误之上:一位逻辑学家庄严地证明,一只有四条腿的猫必定是狗。)

这些是形式谬误——骨架断裂。它们的近亲,非形式谬误,缺陷不在形式而在内容:post hoc ergo propter hoc(公鸡打鸣,太阳升起,因此公鸡召唤了黎明)、人身攻击、悄悄偷换词义的歧义。形式谬误靠检查骨架便可识破;非形式谬误则要读清文字实际在做什么。

交互演示 · 检查形式,而非文字

推理检视器

选择一个条件论证形式。机器不关心句子说了什么——只关心形状是否保证结论。在两种有效招式与它们两个臭名昭著的替身之间切换,再载入一个现实例子,体会为什么残缺形式会骗过我们。

换上真实说法

脉络

逻辑如何变成数学

你正在使用的这套机制有着深远的历史,并最终转向一个出人意料的方向:在二十三个世纪里,对好论证的研究慢慢变成了一门代数的分支。这个故事有四座里程碑。

亚里士多德(公元前 4 世纪)在《前分析篇》中建立了第一个形式系统。他的天才在于以字母充当占位符——「所有 AB」——从而研究脱离内容的论证形式。这是词项逻辑:它处理「人」「会死」这类词项之间的关系。中世纪逻辑学家以助记名兴致勃勃地编录有效的三段论式——BarbaraCelarentDarii。这些名字不是人名,而是密码:元音标记命题类型,A 表示「所有 S 都是 P」,E 表示「没有 S 是 P」,I 表示「有些 S 是 P」,O 表示「有些 S 不是 P」。因此 Barbara 是 AAA,Celarent 是 EAE,Darii 是 AII;例如 Barbara 意味着:所有 M 都是 P;所有 S 都是 M;所以所有 S 都是 P。近两千年间,这就是逻辑。

斯多葛学派,尤其是克律西波斯(约公元前 279–206 年),建立了第二条与之平行的逻辑,历史几乎让它失传。亚里士多德处理词项,斯多葛学派则用我们日常仍在使用的联结词处理整个命题:如果……那么、并且、或者、并非。克律西波斯列出五条「不可证明式」——基本推理图式,第一条(「若第一,则第二;但第一;故第二」)正是肯定前件式。这便是命题逻辑,也是每一块计算机芯片内部逻辑的远古源头。斯多葛学派很可能已经对联结词有了真值函项的理解——通过组成部分的真假判断整体的真假——这比后人重新发现早了两千年。20 世纪逻辑学家扬·武卡谢维奇曾令学者惊讶地主张,斯多葛逻辑并非亚里士多德的穷亲戚,而是「同等级的成就」。随后它被掩埋多年,亚里士多德独尊——这提醒我们,思想史并非一场整齐的接力赛。

乔治·布尔把两个传统推上了新轨道。1854 年,他在《思维规律的研究》中做了一件大胆的事:把逻辑推理当作计算。令 1 为全域,0 为空无;乘法即「且」,加法即「或」。骤然之间,有效推理的规律看上去如同代数定律。「我们不应再把逻辑与形而上学相联系,」布尔宣称,「而应把逻辑与数学相联系。」他的书销量平平,同代人也大惑不解。直到几十年后,1937 年克劳德·香农注意到布尔的二值代数精确描述了电路开关,布尔代数才成为数字逻辑名副其实的基础。你此刻用来阅读这段文字的设备中,每一个 AND 门都是克律西波斯的一句话在硅中的实现。

戈特洛布·弗雷格完成了自亚里士多德以来最大的跳跃。他那薄薄一卷、令人生畏的《概念文字》(Begriffsschrift,1879)引入了量词——形式的「所有」(∀)与「存在」(∃)——以及谓词逻辑。亚里士多德的词项逻辑会被「马皆动物,故马头皆动物头」这类论证难倒;弗雷格的机制不仅能处理它,而且远不止此——它把命题解析为以个体为自变量的函数。它常被称为符号逻辑史上最伟大的一部著作。但悲剧性的尾声随之而来:弗雷格梦想把全部算术还原为纯粹逻辑,就在第二卷即将付梓之际,年轻的伯特兰·罗素寄来一封信,里面藏着一个悖论——所有不包含自身的集合构成的集合:它是否包含自身?无论回答「是」或「否」,都会自相矛盾。弗雷格宏大的基础工程由此崩裂。但他的逻辑在废墟中幸存,成为我们今天仍在讲授的现代符号逻辑。(那个悖论的幽灵,以及它所暗示的边界,将在第 28 日重新浮现;届时哥德尔将证明,没有任何形式系统能满足数学家曾怀有的全部希望。)

辩论

逻辑是发现还是发明?

这里有一个听起来像沙龙游戏、实则直抵根本的问题。那些基岩般的定律——同一律(A 是 A)、矛盾律(A 与 非-A 不能同真)、排中律(A 或非-A,没有第三种)——看似无可回避。但它们究竟栖居何处?是实在的特征,即使心灵不存在也编织在宇宙之中?是思维的特征,任何思考者都无法逃避的语法?还是人类的约定——真实且具约束力,但终究是被选择出来的,犹如象棋规则?

逻辑实在论

被发现

定律是客观的、独立于心灵的世界结构。我们并不立法规定矛盾律,正如我们并不立法规定素数——我们只是发现它。逻辑是从实在中读出的。

心理主义

思维规律

定律描述心灵必须如何运作——实为心理学的一个分支。弗雷格与胡塞尔猛烈抨击这一点:逻辑真理是精确且先验的,而心理学是经验且模糊的。

约定主义

被发明

定律是我们因有用而采纳的约定——一旦选定便具约束力,但并非由宇宙降下。奇怪的是,尽管它与道德反实在论渊源甚深,这个立场却很少有充分发展的版本。

可修正性

经验的?

奎因与普特南提出了激进的想法:即便逻辑也可能因经验理由而被修正——量子力学可能把我们推向非经典逻辑,恰如相对论曾把我们推向非欧几何。

最后一个方框,正把问题引向今日的前沿。历史上大部分时间里,「思维规律」似乎不可触碰——质疑它们仿佛锯断自己正坐着的树枝。但二十世纪产生了严谨且可运作的替代逻辑,它们悄然放弃某条神圣定律,却依旧运转。一旦你看到这些替代逻辑确实能承担实际工作,那个宏大的形而上学问题便会软化成一个更实际、也更耐人寻味的问题:不是「哪种逻辑为?」而是「对这项工作来说,哪种逻辑才是合适的工具?」下面就来看这些替代者。

前沿 · 2026

三条活跃前沿,以及一道炒作过滤网

本课程每日都以前沿研究收尾,每条主张都标明了它能承受多少重量。逻辑的前沿出奇地具体:它运行在真实计算机上,核查真实证明,并且最近与人工智能发生碰撞——这要求我们擦亮眼睛。

前沿 01 非经典逻辑 · 已确立

故意打破规则的那些逻辑

「经典」逻辑并非唯一一致的选项;它只是更广阔的逻辑图景中一个已站稳脚跟的位置,每一套替代逻辑都放弃了大多数人以为不可动摇的某条定律。

直觉主义逻辑放弃了排中律。它由 L. E. J. 布劳威尔开创,1920–30 年代由阿伦德·海廷形式化,坚持一条陈述只有在你能构造出其证明时才算为真。你不能凭空断言「A 或非-A」——你必须证明其中一边。一个例子能尖锐地说明动机:排中律会让你轻松断言,对任何计算机程序,「它停机或不停机」——然而(我们将在第 27 日看到)不存在判定停机的通用方法,因此没有构造支撑这一断言。直觉主义说:那就别断言。这听起来像是哲学洁癖,直到你发现经由一种美得值得专设一框的对应关系,它竟通向计算机科学的心脏。

次协调逻辑放弃了爆炸原则。在经典逻辑中,单个矛盾是灾难性的:从「P 且非-P」你可以推出任何东西(原则ex contradictione quodlibet,「由矛盾可得任意结论」)——一处不一致,整座系统便付之一炬。次协调逻辑拒绝这一点,让你即便某些矛盾潜入,仍能合理推理——这对大型数据库、法典,以及任何局部不一致却仍有整体价值的信息集都很有用。更强硬的哲学表亲,双面真理论——格雷厄姆·普里斯特认为有些矛盾实际为真,如说谎者语句「这句话是假的」——则争议大得多。务必区分二者:你可以采纳次协调逻辑(关于爆炸原则的技术选择)而不成为双面真理论者(关于真实矛盾的本体论主张)。前者是工具;后者是世界观。

模糊逻辑完全放弃了二值限制。1965 年,卢菲特·扎德让真值在 0 到 1 的连续区间滑动,以刻画模糊性——「水是温的」为 0.7 真——建立在 1920 年代扬·武卡谢维奇的多值逻辑之上。它运行在控制系统与家电中。而模态逻辑——关于必然可能(□ 与 ◇)的逻辑——以及经过精心选择的时态逻辑,支撑着硬件与软件的形式验证:某些具体片段既能表达有用性质,又足够克制,可以保留模型检查所需的可判定性。这些不是博物馆中的藏品,而是现代技术世界实际运转的逻辑。

桥梁 · 命题即类型

直觉主义逻辑之所以重要的根本原因,是柯里–霍华德对应:在适当的形式系统中,命题对应类型,证明对应程序。证明一个定理,可以被看作构造一个居于相应类型之中的程序式对象——反过来也一样。

逻辑 计算 命题 类型 证明 程序 「存在一个 x……」 构造该 x 的代码

这就是为什么下面若干证明助手建立在类型论基础之上——也是为何逻辑与计算,我们五条线索之二,并非彼此相邻的邻域,而是同一片疆域的两面视图。(将在第 27–29 日继续展开。)

前沿 02 机器核查证明 · 已确立

零容错的证明:证明助手的崛起

亚里士多德的梦想是一条紧密到无人能够怀疑的推理链。二十三个世纪后,这个梦想有了软件化身。证明助手是一种程序,其中每一步逻辑都必须通过机器核查;没有任何一步能凭权威、直觉或一句「显然」而蒙混过关。主流系统包括Lean(现为 Lean 4)、Rocq(原名为 Coq,2025 年更名)、AgdaIsabelle/HOL。Lean、Rocq 与 Agda 属于类型论家族;Isabelle/HOL 则建立在经典高阶逻辑之上。目标相同,基础不同。

Lean 的社区共建数学库mathlib,是世界上最大的统一数学形式化库之一:超过 278,000 条定理与 132,000 个定义——2026 年 6 月统计时如此,且仍在增长——覆盖了某著名「形式化这些」挑战清单上 100 个问题中的 84 个。这不是玩具。看看它已验证的成果:

  • 2022 · 已完成液体张量实验。2020 年 12 月,菲尔兹奖得主彼得·朔尔策向全世界发出挑战,要求验证其「凝聚数学」中一个他本人都不太确定的定理。约翰·科默兰与亚当·托帕兹带领的团队在 Lean 中完成了验证,于 2022 年 7 月 14 日收束。一位一线数学家借助机器,获得对一份复杂到人类审稿人难以安心核查的证明的信心——这正是关键所在。
  • 2023 · 三周内完成多项式弗雷曼–鲁萨猜想。蒂姆·高尔斯、本·格林、弗雷迪·曼纳斯与陶哲轩发表这一加性组合学结果的证明数日后,陶哲轩启动了一个 Lean 项目来形式化它——三周后便宣布依赖图「被一片可爱的绿色完全覆盖」。形式化几乎与研究同步推进。
  • 2024–25 · 已完成等式理论项目。陶哲轩的合作实验(2024 年 9 月启动)旨在判定 4,694 条代数定律之间的蕴涵关系——若把每条定律对自身的平凡蕴涵也算入,共有 22,033,636 个有序对;若只数非平凡图边,则为 22,028,942 条——结合人类证明、自动证明器、AI 与 Lean 验证,50 余位贡献者,在 200 多天内完成了工作。这是一种大规模协作、机器核查数学的新范式。
  • 2024–2029 · 进行中费马大定理。凯文·巴扎德由 EPSRC 资助的项目(2024 年 4 月启动,伦敦帝国理工学院)旨在形式化 FLT——并非怀尔斯的原始证明,而是一条现代路线。巴扎德「谨慎乐观」地认为自己能把它归约到 1980 年代已知的结果,但坦率承认整个项目「至少需要 5 年」。尚未完成——最诚实也准确的说法是:它仍在进行中,也是那 100 个挑战问题中尚未闭合的最后一项。

这种确定性已从纯数学延伸到生命所依赖的系统。Rocq 中被证明正确的 C 编译器CompCert;一项著名的编译器查错研究耗费约六个 CPU 年,试图诱使它生成错误代码,却一无所获——「我们测试过的唯一一个 Csmith 无法找到错误代码的编译器」——同时在 GCC 与 LLVM 中找出了大量 bug。seL4 是第一个在 Isabelle/HOL 中拥有完整机器检查功能性正确性证明的操作系统微内核:在其明确列出的假设下,C 实现细化了形式规格,因此整类崩溃与不安全行为不是靠希望避免,而是被定理排除。这些不是普通承诺,而是关于软件的有条件定理。就是逻辑的机械化所能做的事——而且它已确立

前沿 03 奖牌级 AI · 已确立 「AI 解决了数学」 · 炒作

当 AI 遇见证明核查器

最新、也最被喧嚣包围的前沿,是机器学习与形式证明的碰撞——此处正是炒作过滤器该上场的时候,因为标题与事实之间已经出现了漂移。

先看真正的里程碑。2024 年 7 月,DeepMind 的AlphaProof 与 AlphaGeometry 2 联手,在国际数学奥林匹克(IMO)6 道题中解出 4 道,获得 28 分——位居银牌档顶端,仅比 29 分的金牌线低 1 分。它甚至攻克了令人畏惧的第 6 题,这道题在约 600 名人类参赛者中只有 5 人完整解出。该方法于 2025 年 11 月 12 日在线发表于 Nature,正式版本于 2026 年刊出。真正把它同聊天机器人式空谈区分开的关键设计事实是:AlphaProof 在 Lean 内部工作。它把约一百万道自然语言问题自动形式化为约 8000 万条 Lean 陈述,然后以 AlphaZero 风格的循环训练自己,其中每一步都由 Lean 核查。用 DeepMind 的话说,「无需担心幻觉」——因为一个幻觉步骤根本无法编译。神经网络提供创造性搜索,证明助手提供真值基准。这种结合真实且重要。已确立

2025 年 7 月,门槛再次抬高:DeepMind(Gemini「Deep Think」模型)与 OpenAI 都报告了金牌分数——6 题中解出 5 题,35 分——而且引人注目的是,它们在时限内以端到端自然语言完成,而非在 Lean 内部完成。DeepMind 的结果由 IMO 官方认证;OpenAI 的结果是内部评分。确实令人印象深刻。但也正是在这里,第 1 日练出的校准直觉该派上用场:

  • 「金牌」是一个分数,不是加冕。这些是竞赛题——数学中狭窄、限时、已知存在简短答案的一角。它们不是开放的研究问题,而且据官方 2025 年结果,仍有 26 名人类参赛者得分超过两个 AI 系统
  • 离开 Lean 是一种取舍,不是无代价的升级。2024 年的银牌是形式验证的——由机器保证正确。2025 年的自然语言金牌是人工评分的,意味着我们重新依赖可能藏有细微漏洞的散文。更通用,却更不确定。别让「金牌胜过银牌」的叙事掩盖了认识论地面的移动。
  • 它昂贵且狭窄。每道困难的 2024 年题需要两到三天的计算,而且题目还需先被人工形式化为 Lean 陈述。这还称不上通用数学智能。

最需要明确否定的说法是:AI 尚未「解决数学」,也没有使数学家变得多余。 炒作 没有任何 AI 独立证明过一个著名的开放猜想并被接受为里程碑。关于定理证明代理找到小型 Lean 证明、或帮助完成狭窄形式化任务的报道虽然有趣,但仍早期、范围有限,也还不能替代被数学共同体接受的研究数学;它们应归入有望的线索,留待日后审视,而非大肆宣扬。真正的革命比标题更安静、也更持久:一条延续 2300 年的标准——证明是一条无人能怀疑的链——终于交由机器以零容错执行,而 AI 正在学习沿这些严苛轨道搜索。(我们将在第 138–145 日深入追寻这一主题。)

关于虚构来源的注记

本课程的炒作过滤器有一条必须明说的规则:凡是指向未来日期预印本编号的引用,一律剔除。这一领域的搜索结果中,充斥着信誓旦旦引用尚不存在论文的条目。以上每个里程碑都可追溯到真实、有日期、可核实的原始来源——已发表的 Nature 论文、官方竞赛结果、具名研究者本人的公开宣布。当一条关于 AI 与数学的声明无法这样追溯时,正确反应不是兴奋,而是怀疑。

开放问题

真正尚未解决的是什么

二十三个世纪之后,有效推理的研究依然留有真正未决的问题:

  • 是否只有一种真逻辑,还是有许多种?当直觉主义逻辑、次协调逻辑与模糊逻辑都能切实派上用场,「正确逻辑」便渐渐显得更像工具选择,而非宇宙事实——但多元论者与一元论者仍真正地各执一词。
  • 发现还是发明?逻辑定律是从实在中读出、嵌入任何可能心灵,还是由约定采纳?经验物理学能否如普特南所想迫使我们修正?
  • 溯因究竟是什么?「最佳解释推理」是真正第三种模式,还是换了外衣的归纳?甚至皮尔士本人是否将其理解为最佳解释推理(而非仅仅生成假设),学者之间亦有争议。
  • 机械化证明能否改变数学本身若一个结果为真,却只有计算机核查过证明,有没有人真正理解它?一个已验证却不透明的证明,与一个能带来洞见的人类证明,价值是否相同?
  • 以及将萦绕 AI 单元的问题:当一台机器输出一个真实且得到充分支持的定理时,它是否知道任何东西——还是它只是第 1 日那个终极盖梯尔案例的翻版——因与理解毫无关系的理由而恰巧正确?(第 138–145 日。)

◆ 用三句话概括今日

核心观点
推理有三种引擎、三种担保——演绎保真却不扩展内容,归纳概括却可能被下一例打破,溯因跃向最佳解释——而在演绎内部,有效性(形式成立)与可靠性(形式成立且前提为真)是完全不同的两件事。
最佳类比
夏洛克·福尔摩斯的「演绎」其实是溯因——对线索的最佳解释,而非保证结论——而一个有效却不可靠的论证,是一条接合严密却输送污水的管道。
当下争议
逻辑是发现还是发明(以及是否只有一种真逻辑,还是一套工具箱),如今被一条真实的前沿所激化:Lean 等证明助手以零容错验证前沿数学,AI 已达奖牌水准——但并未真正「解决数学」。

今日线索 › 计算(柯里–霍华德:证明对应程序;硅芯片中的布尔代数;证明助手)· 信息(形式化使证明内容可被机器核查)· 涌现(大规模协作证明判定约 2200 万个蕴涵关系)——也将演绎与归纳衔接到第 1 日第 2 日

明日 第 04 日

概率作为扩展逻辑

今日负责扩展却可能失手的引擎是归纳,而溯因留给我们一个任务:判断哪种解释最佳。明日,我们为二者加上数字刻度。概率原来并非与逻辑分离的学科,而是部分信念的自然延伸——蒙提霍尔问题将展示我们的直觉能错得多离谱,而贝叶斯定理又如何纠正它们。带上今日对天衣无缝与只是看似合理的区分;你即将学习如何演算「看似合理」。


来源

来源与延伸阅读

  1. "Validity and Soundness." Internet Encyclopedia of Philosophy (accessed 2026). iep.utm.edu/val-snd ——基于形式的有效性与可靠性区分。
  2. "Deductive and Inductive Arguments." Internet Encyclopedia of Philosophy. iep.utm.edu/ded-ind ——保真推理与扩展性推理之分。
  3. Douven, I. "Abduction." Stanford Encyclopedia of Philosophy (rev. 2021). plato.stanford.edu/entries/abduction ——皮尔士、最佳解释推理,以及关于溯因究竟是什么的学术争论。
  4. "Aristotle's Logic." Stanford Encyclopedia of Philosophy. plato.stanford.edu/entries/aristotle-logic ——三段论、《前分析篇》与词项逻辑。
  5. Bobzien, S. "Ancient Logic." Stanford Encyclopedia of Philosophy. plato.stanford.edu/entries/logic-ancient ——克律西波斯、斯多葛不可证明式与命题逻辑;武卡谢维奇的重新评估。
  6. Boole, G. (1854). An Investigation of the Laws of Thought. London: Walton & Maberly. See "George Boole, The Laws of Thought," PhilPapers. philpapers.org/rec/BOOTLO-4 ——逻辑作为代数;「逻辑与数学」。
  7. "Origins of Boolean Algebra in the Logic of Classes." Mathematical Association of America (Convergence). old.maa.org ——布尔、文恩、皮尔士,以及经香农(1937)通往数字逻辑之路。
  8. "Frege's Logic." Stanford Encyclopedia of Philosophy. plato.stanford.edu/entries/frege-logic ——《概念文字》(1879)、量词、谓词逻辑与罗素悖论。
  9. "Intuitionistic Logic." Stanford Encyclopedia of Philosophy. plato.stanford.edu/entries/logic-intuitionistic ——布劳威尔、海廷、对排中律的拒斥、BHK 解释。
  10. Priest, G., Berto, F. & Weber, Z. "Dialetheism" and "Paraconsistent Logic." Stanford Encyclopedia of Philosophy. plato.stanford.edu/entries/dialetheism ——爆炸原则、次协调性与双面真理论、Logic of Paradox。
  11. "Fuzzy logic." Wikipedia (accessed 2026). en.wikipedia.org/wiki/Fuzzy_logic ——扎德(1965)、[0,1] 上的真值、多值 / 武卡谢维奇根源。
  12. Garson, J. "Modal Logic." Stanford Encyclopedia of Philosophy. plato.stanford.edu/entries/logic-modal ——必然 / 可能与计算机科学及验证应用。
  13. "Curry–Howard correspondence." Wikipedia (accessed 2026). en.wikipedia.org/wiki/Curry–Howard_correspondence ——命题即类型,证明即程序。
  14. "Mathlib statistics." Lean community (accessed June 2026). leanprover-community.github.io/mathlib_stats.html ——当前定理与定义数量。
  15. "100 theorems in Lean." Lean community (accessed June 2026). leanprover-community.github.io/100.html ——Wiedijk 的 100 个定理基准中已有 84 个在 Lean 中形式化。
  16. Commelin, J. & Topaz, A. et al. "Liquid Tensor Experiment." Lean community blog (completion 14 July 2022); Scholze's original challenge (Dec 2020). leanprover-community.github.io ——机器核查一位菲尔兹奖得主自己都不太确定的证明。
  17. Tao, T. "Formalizing the proof of PFR in Lean4." terrytao.wordpress.com (Nov 2023). Gowers, Green, Manners & Tao, "On a conjecture of Marton," Annals of Mathematics (2025). terrytao.wordpress.com
  18. Tao, T. et al. "The Equational Theories Project." Project announced Sept 2024; retrospective paper Dec 2025 (arXiv:2512.07087). teorth.github.io/equational_theories ——22,033,636 个含自蕴涵的有序对;22,028,942 条非平凡图边;50 余位贡献者,Lean 验证。
  19. Buzzard, K. "Fermat's Last Theorem project." Lean community blog (launch 30 April 2024); EPSRC grant EP/Y022904/1 (2024–2029), Imperial College London. leanprover-community.github.io ——进行中;「至少需要 5 年」。
  20. Leroy, X. et al. "CompCert" — a formally verified C compiler. Yang, Chen, Eide & Regehr, "Finding and Understanding Bugs in C Compilers," PLDI (2011). compcert.org ——约六个 CPU 年未找到错误代码。
  21. Klein, G. et al. (2009). "seL4: Formal Verification of an OS Kernel." SOSP '09. sel4.systems ——首个操作系统微内核功能性正确性的机器检查证明(Isabelle/HOL)。
  22. "AI achieves silver-medal standard solving International Mathematical Olympiad problems." Google DeepMind blog (25 July 2024). deepmind.google ——AlphaProof + AlphaGeometry 2;28 分;在 Lean 中工作。
  23. Hubert, T., Mehta, R., Sartran, L. et al. (2026). "Olympiad-level formal mathematical reasoning with reinforcement learning." Nature 651: 607–613. doi:10.1038/s41586-025-09833-y. nature.com/articles/s41586-025-09833-y ——AlphaProof 方法论文;2025 年 11 月 12 日在线发表,2026 年 3 月 13 日正式出版;约 8000 万道 Lean 问题。
  24. "Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the IMO." Google DeepMind blog (July 2025). deepmind.google ——35/42,官方认证;时限内的自然语言证明。
  25. "66th IMO 2025." International Mathematical Olympiad. imo-official.org/editions/2025individual results ——630 名参赛者;金牌线 35;人类分数分布。
  26. "Our First Proof submissions." OpenAI (2026). openai.com/index/first-proof-submissions ——OpenAI 对其 2025 年 7 月 IMO 金牌级结果的后续总结,35/42 分。
  27. "Philosophy of logic" & "Logical realism." Wikipedia / Stanford Encyclopedia of Philosophy (accessed 2026). plato.stanford.edu/entries/logical-pluralism ——实在论、约定主义、奎因 / 普特南关于修正逻辑、逻辑多元论。

第 03 日完 · 尚有 177 次深入