深入 180 日
EN
下载本日: EPUB PDF

模块一 · 知识与推理的根基 · 第 02 日 / 180

科学方法划界

太阳四十五亿年来每日东升。那么明日依旧会升起——对吗?

? …昨日 今日 明日
● 每一次过往的日出都是证据——却证明不了下一次日出

问一个孩子,明天太阳是否会升起,他多半会觉得你问得莫名其妙。当然会升——它一向如此。这份笃定,仿佛知识最底层的磐石。可若再追问一句你凭什么相信,你便一脚踏上一座断崖——那是 1739 年一位寡言的苏格兰哲人悄然掘出的,至今无人填平。你唯一的凭据,不过是太阳从前升起过。你的论证其实是:未来会与过去相似,因为在过去,未来曾与过去相似。请再读一遍——它预设了它想要证明的东西。

这座断崖,名为归纳问题;整部科学的机器,正是从这里启动——不是凯旋,而是从一个缺口出发。今日,我们将目睹思想家们耗费两个世纪试图攀援而出:他们放弃证明,转而追逐否证;他们意识到科学其实并不像教科书所写的那般整饬;最终,在我们所处的时代,科学家以所能想象的最严苛方式拷问这整桩疑问——让大量已发表的发现接受复现,然后冷眼旁观其中一部分拒绝重演。

◆ 我们身处何处

昨日(第 1 日)我们追问,单个信念何时堪称知识,并邂逅了盖梯尔那只停走的钟——那是一桩被运气而非关联拯救的真信念。今日,我们将这一忧虑从一颗心灵放大到整个文明尺度的机构:科学如何裁定,哪些主张才配进入竞技场?请把昨日的工具留在手边。第 1 日信念刻度盘(信念有程度之分,并非全有即全无)即将成为面对休谟质疑的唯一清醒回应;而那道能筛去热门发现、又让复现实验悄然将其收回的炒作过滤器,今日将成为整场戏的第三幕。

地上的裂口

休谟抽去了地基

1739 年,二十八岁的大卫·休谟出版《人性论》——一部问世时备受冷落的著作,他自嘲它「一出世便已夭折」。书中藏着一枚引线极长的炸弹。休谟注意到,我们关于尚未直接经历之事的全部信念——面包明日仍将如今日般滋养我们,太阳仍将升起——都倚靠一个隐秘的假设:即自然是齐一的,未曾经历的事物会与过往经验一样运作。

他指出,这一假设无从辩护。不是逻辑问题:太阳明天不升起,并不蕴含矛盾。诚如休谟以不动声色的精准所言:

太阳明日不会升起,这一命题并不比它明日会升起更不可理解,也不蕴含更多矛盾。 ——休谟,《人类理解研究》,§IV(1748)

因此,齐一性并非逻辑真理。那么,能否以经验为之辩护——「它向来如此,所以推断它会继续如此是稳妥的」?且看陷阱合拢:这一论证动用了过去预测未来的原则,来证明过去预测未来。这是循环论证。人不可能拽着自己的头发离开地面。休谟的结论堪称真正激进,值得不加粉饰地陈述:我们对自己的未来之确信,毫无理性根据。我们期待日出,是出于习惯,而非逻辑证明。

这便是科学方法自诞生起就试图包扎的伤口。若我们永远不能以堆积证实的案例来证明一条普遍定律——再多的白天鹅也无法证明「所有天鹅皆白」——那么科学声称发现自然定律时,究竟在做什么

关于黑天鹅的注记

欧洲人曾如此确信所有天鹅皆白,以至于「黑天鹅」成了数个世纪以来的习语,意指不存在之物——好比「太阳从西边出来」。然而 1697 年,荷兰探险家抵达西澳大利亚,发现河湾中满是黑天鹅Cygnus atratus)。百万次确认的目击筑起了一条坚不可摧的定律;珀斯的一只孤鸟却将其击得粉碎。请在心中持守这一不对等——它即将成为今日全篇的枢轴。

一只黑天鹅带着几只灰色幼雏在水面上游动。
一只黑天鹅让这种不对等变得一目了然:确认案例可以堆积数百年,而一个反例仍足以击碎定律。

逃遁之路

波普尔的柔道:别再试图证明

1920 年代的维也纳。年轻的卡尔·波普尔被各种急于攫取「科学」之名的思想运动包围:弗洛伊德的精神分析、阿德勒的个体心理学、马克思的历史理论。追随者们如痴如狂。他们环顾四周,满眼皆是证实——每一句口误都印证弗洛伊德,每一次政治旋涡都印证马克思。而波普尔猛然意识到,这恰恰是它们的病灶所在。

解释一切的理论,其实一无所释。若没有任何可想象的观察能够反驳你的理论——若有人救起溺水儿童,与有人眼睁睁看着他溺毙,皆能同样套入弗洛伊德的框架——那么你的理论并不勇敢。它是空洞的。它没有排除任何可能,故世界无从惊扰它。

请将之与爱因斯坦对照。1915 年,广义相对论作出了一项大胆的、高风险的预言:掠过太阳的星光会弯折一个特定角度——1.75 角秒,是牛顿预言的两倍。若 1919 年的日食测量结果符合牛顿的预测,爱因斯坦便将完结。他把理论的脖子伸了出去。,波普尔说,才是真实科学的印记。

于是波普尔使出一记哲学柔道。休谟说得对——你永远无法证实一条普遍定律。很好。那么停止尝试。将黑天鹅的不对称性翻转为一门方法:

一种理论之科学地位的标准,在于其可证伪性、可反驳性,或可检验性。 ——波普尔,《猜想与反驳》(1963)

你无法以任何数量的白天鹅证明「所有天鹅皆白」——但一只单独的黑天鹅便永久否证了它。证实终归无望;证伪却可一锤定音。依此观点,科学并非从证据拾级而上、迈向确定性。它提出大胆的猜想,然后竭尽全力试图反驳它们。那些在我们最猛烈的反驳尝试中幸存的理论,并非被证明——它们只是仍屹立不倒、得到佐证,在下一轮检验之前被临时信任。知识之增长,来自理论在反驳中幸存,而非证实案例的累积。

划界标准——科学与伪科学之间的界线——由此干净利落。一项主张的科学性,取决于它是否把头伸出去:是否排除某些可能,作出可被推翻的预言,预先告诉你什么会证明它错误。「经济由阶级斗争支配」没有排除任何明确结果。「光线弯折 1.75 角秒」却排除了 1.74 与 1.76。后者是科学;前者更像一套披着白大褂的世界观。

公允以待弗洛伊德

这是个利落的故事,波普尔讲得极为出色——或许太出色了。后来的哲学家(尤其是 1984 年的阿道夫·格伦鲍姆)辩称,波普尔把精神分析刻画得过于简单:弗洛伊德有时确实指明过什么将反驳他(「只有当恐惧症被证明存在于性生活完全正常之处时,我的理论才能被反驳」)。而许多受人敬重的科学——历史学、进化论、宇宙学——同样无法进行对照实验。可证伪性是一束锐利的探照灯。今日余下时光,我们将看着它在边缘处摇曳明灭。

复杂的现实

库恩:但科学并非那样运行

波普尔描述的是科学应当如何运作。1962 年,物理学家转行的史学家托马斯·库恩审视了科学实际如何运作——发现了某种更芜杂、也更有人情味的东西。他的《科学革命的结构》成为二十世纪最广为引用的学术著作之一,并赋予你一个用过百遍却不知出处的词:范式

这是库恩的异端之说。真正工作中的科学家,几乎在所有时间里,都不是在证伪他们的宏大理论。他们在做他所谓常规科学之事:在一个被接受的框架——一个范式——内部解谜,而他们将这范式视为理所当然。一位化学家醒来时不会想着反驳元素周期表;她用它去琢磨一个反应。范式不是被告。它是法庭本身。

而当实验结果异常时?科学家们大多不会像波普尔的故事要求的那样立刻抛弃理论。他们会把它视为反常——一个留待日后解决的谜题,大概是自己哪里做错了。理论太过有用、太过多产,不至于因一个顽固的数据点就弃之。(注意,这与证伪主义正好相反——而且,说来尴尬,这也正是那些弗洛伊德主义者和马克思主义者所做的。)

只有当反常堆积——变得太多、太核心而无法忽视——领域才滑入危机。而危机的解决,并非通过整洁的反驳,而是一场科学革命:向新范式的全盘切换。托勒密的圆环让位于开普勒的椭圆;牛顿的绝对空间让位于爱因斯坦的时空。库恩认为这些转变如此彻底,以至于两个范式变得不可通约——「无共同尺度」,因为对立阵营甚至对关键词汇的含义、哪些问题才重要都无法达成一致。「质量」于牛顿与爱因斯坦意指着微妙不同的东西。范式切换不太像赢得一场论证,更像是一次格式塔翻转——鸭子变兔子,你无法同时看见两者。

一个值得破除的迷思

库恩常被引为「科学不过是意见」或「所有范式同等有效」的证据。他憎恶这种解读,并耗费数年反击。他并非在说科学是非理性的——而是说,科学的理性比那套洁净的证伪主义童话所承认的更具共同体特征、更有历史纵深,也更趋保守。范式之所以被推翻,是因为对手真正解决了更多谜题。那不是相对主义,只是对人类实际科学实践的一种现实主义态度。

修补

拉卡托斯:理论从不孤身赴死——以及杜恒–奎因的幽灵

波普尔说证伪;库恩说科学家并不如此,也不应急于如此。是否存在一条道路,能兼纳二者——在保持证伪之脊梁的同时承认库恩的历史?伊姆雷·拉卡托斯,一位栖身伦敦经济学院的匈牙利流亡者,试图搭建的正是这样一座桥梁。但首先,我们必须会见那萦绕整间屋子的幽灵。

它被称为杜恒–奎因论题,一旦看见便无法视而不见。其主张简单却摧枯拉朽:没有任何假说是被单独检验的。当你检验「这颗星位于彼处」时,你同时依赖光学、大气模型、望远镜校准、光如何传播的理论。因此,当预言失败时,纯逻辑从不告诉你哪一环断裂。或许是假说错了——又或许只是望远镜校准有误。你总可以把责任推给辅助假设,来拯救自己钟爱的理论。波普尔那洁净的「一只黑天鹅便杀死理论」,原来从不曾那般洁净:你可以坚称那只黑天鹅不过是一只被涂漆的鹅。

这并非书斋里的琐屑——它是真正发现的引擎。1840 年代,当天王星偏离其牛顿式轨道时,无人宣布牛顿被反驳。他们归咎于一项辅助假设:必定有一颗隐匿行星在牵引它。他们是对的——海王星便于 1846 年以此方式发现,一场辉煌的正名。受此鼓舞,天文学家们对水星的摇摆使出同一招,预言了另一颗隐匿行星,命名为祝融星。他们搜寻了数十年。它并不存在。水星的摇摆是在告诉世人,牛顿本人并不完备——而唯有 1915 年的爱因斯坦能道破此点。同样的逻辑招式,截然相反的结果。那么,如何分辨高明的拯救与绝望的遁词?

拉卡托斯的答案重构了科学的单元。不要评判孤立的理论——要评判随时间展开的研究纲领。每个纲领都有一个硬核(例如「牛顿定律成立」),外裹一层可调辅助假设的保护带。麻烦来临时,你在保护带中吸纳冲击,而非伤及核心。这本身没有问题。关键在于接下来会发生什么:

  • 一个进步纲领的补丁预言了令人惊异的新事实,而这些新事实随后真的出现。「有一颗隐匿行星」预言了海王星会出现在天空中的某个特定位置——而它果然就在那里。这场拯救以新知识偿付了自身
  • 一个退化纲领的补丁永远只是事后追补,为每一次失败硬凑借口,却从不预言新事物。祝融星被无尽地重新安置到恰好无法被看见之处,便是警示的信号。

这便是重新绘制的划界线——而且与真实历史契合得多。科学不是单一理论面对单一裁决;它是一个纲领在岁月中赢得或失去立足之地,衡量的标准在于它是否持续告诉我们尚未知晓的事物。

重锤

费耶阿本德与「那」方法的死亡

随后,拉卡托斯的友人与论敌保罗·费耶阿本德把整个项目推到了极限。在《反对方法》(1975)中,他提出了一项调皮、恼人、却又出人意料地证据充分的论证:翻检科学突破的真实历史,你会发现每一条方法规则都曾在某个关键时刻被打破——而打破它恰恰是为了推动进步。伽利略以宣传、修辞伎俩和无视不利数据的方式推进了哥白尼事业。若他遵从了整饬的方法规则,那场革命或许便会停滞。

他的结论成为科学哲学中最臭名昭著的一句口号:「怎么都行。」但这里有一个几乎人人忽略的关键细节——费耶阿本德并意指「随心所欲,所有想法平等」。他的意思是,这是一个苦涩的归谬论证:唯一没有历史反例的方法规则,空泛到允许一切。用他的话来说,这是一位理性主义者终于诚实地审视历史后发出的「惊恐的呼喊」。他焚烧的是「存在某种大写 M 的方法论可以一劳永逸地定义科学」的观念——而非对混乱的背书。

1983 年,哲学家拉里·劳丹发表了看似葬礼悼词的文字。在那篇著名论文《划界问题的消亡》中,他论证所有试图画出清晰界线的尝试——包括波普尔的——皆已失败,而「科学」与「伪科学」过于多样,无法共享单一的决定性标记。这些术语,他尖刻地写道,大体只是「承载我们情感评判的空洞辞藻」。两千五百年后,划界问题被宣告死亡。

复活

为何界线依然重要

然而——这个问题太有用,不会真的入土为安。2013 年,哲学家马西莫·皮柳奇与马尔滕·布德里编纂了一部直言不讳的文集:《伪科学哲学:重新思考划界问题》,推动划界问题的复兴,回击了劳丹。他们的论证部分出于实践,且难以回避:在一个疫苗抗拒、气候否认、神迹疗法与智能设计「理论」并存的世界里,分辨科学与其仿品并非闲散的客厅游戏。它关乎生死。

他们的哲学转向是,不再要求某种单一的万能标准,而是将科学视为一个家族相似概念——借用维特根斯坦的术语。并非每种科学都共享某一特征,而每种伪科学都缺乏它。取而代之的是一组彼此重叠的特征:可证伪的预言,诚然,但也包括经验证绩、对修正的开放、与既有知识的融贯、对反常的诚实处理,以及典型遁词的缺席(无尽的事后补救、受迫害叙事、对证据免疫)。没有单根线维系整条绳索;是众多线股的交叠。真正的科学可能在某一标准上薄弱,而在其余标准上强劲。伪科学则通过同时败给整幅图景而暴露自身。

而这便铺垫了今日全篇的压轴一击。以上的一切——波普尔、库恩、拉卡托斯、那簇美德——皆是哲学,在研讨室中辩论。但在过去十五年间,科学做了一件非凡之事:它以大规模实证的方式,将划界问题转向了自身。它问自己,已发表的诸多发现能否经受住最基本的科学要求。

互动 · 启动探照灯

划界实验室

选择一项主张。我们先以波普尔检验它(是否可证伪?)——再交给库恩拉卡托斯簇群视角,让裁决变得复杂。注意四种视角相左之频繁。那分歧本身,便是科学哲学。

前沿 · 2026

复现危机:划界在现实检验中

若有一条几乎人人认同的标准——波普尔、库恩、你的高中老师——那便是可复现。真正的结果,当别人照着程序再做一遍时,应当再次出现。它不是侥幸、捏造或风尚。于是在 2010 年代,科学家们做了一件显而易见、令人不安、却从未被系统做过的事:他们取来成堆的已发表、经同行评议、备受赞誉的发现,逐一尝试复现。

结果 01 核心数字 · 已确立 其含义 · 有争议

震动心理学的一声枪响

里程碑是开放科学合作组织的《估计心理科学的可复现性》Science,2015 年 8 月 28 日)——约 270 位研究者,在布莱恩·诺塞克领导下,复现了三本顶尖心理学期刊上的100项研究,并与原作者合作确保方法无误。结果在该领域引发爆炸。但唯一最重要的教训却藏于明处:并不存在单一的「复现率」。该论文报告了数个,而它们讲述着不同的故事。请看。

97%原始研究报告了统计显著效应
97%
36%复现实验再次达到显著性 ← 那个著名而惊人的数字
36%
47% 的原始效应落在复现实验的 95% 置信区间内
47%
39% 被复现团队主观判定为已复现
39%
≈50% —— 复现实验的效应量平均约为原始大小的一半
~50%

每当你听见「只有三分之一的心理学是真实的」,便是有人抓起了36% 而丢弃了其余。更诚实的概括更微妙,也更有意思:复现实验中的效应平均更弱——大约为首次报告的一半强度,且往往因复现实验功效不足而未能检出。[核心数字已确立];这些数字究竟能在多大程度上说明哪些原始效应真实存在,[解释仍有争议]

而作者拒绝让任何人——乐观者或唱衰者——过度解读。他们自己的结论是一篇校准的小杰作,也是对第 1 日教训的直接回响:基于错误理由而持有的真信念,并不等于知识:

我们已确立为真实的效应,有多少?零。而我们已确立为虚假的效应,有多少?零。 ——开放科学合作组织,Science(2015)

请记住杜恒–奎因的幽灵:一次失败的复现实验并不在逻辑上反驳原始研究——条件总有差异。而这正是批评者发难之处。Gilbert, King, Pettigrew & WilsonScience,2016 年 3 月)认为该项目自身的复现实验统计功效不足,且经校正后,「数据与相反结论一致」——也就是复现情况可能相当好。原团队回应,乐观与悲观的解读皆未得到充分支持。[有争议] ——解读确属悬而未决,即便这一广泛问题如今已被普遍承认为真实存在的现象。

结果 02 非心理学独有 · 已确立

这并非一个领域的难堪

那种条件反射式的辩护——「软科学嘛,还能指望什么」——随着同样的复现实验在其他领域展开并返回同样令人沮丧的结果,这种辩护便不攻自破。这场危机是全局性的。以下是经核实的锚定数字;每次请注意度量标准,因为如我们刚见,度量标准就是故事本身。

项目与发表处复现对象已复现*效应量缩减
心理学
OSC, Science 2015
100 项研究,3 本顶尖期刊 36% 约为原始效应的 50%
癌症生物学
Errington et al., eLife 2021
计划复现 193 项实验——仅约 50 项得以尝试 ~46%† 约缩小 85%
实验经济学
Camerer et al., Science 2016
18 项实验室实验(AER, QJE) 61% 约为原始效应的 66%
社会科学
Camerer et al., Nat. Hum. Behav. 2018
NatureScience 中的 21 项实验 62% 约为原始效应的 50%
临床前肿瘤学
Begley & Ellis, Nature 2012
53 篇「里程碑」论文(安进) 11% ——(53 篇中仅 6 篇被确认)

*「已复现」= 同方向显著效应,最严格的一般度量。†癌症生物学数字为已完成实验中的比例;引人注目的是,193 项原始实验中无一能仅凭发表的方法复现,且仅有 2% 可获得原始数据。[已确立]

最深的信号甚至不是失败率——而是癌症生物学团队发现他们无法弄清原始科学家究竟做了什么。方法部分过于单薄,无从遵循;原作者往往不愿分享方案或数据。一项你连尝试复现都做不到的发现,并非未通过波普尔的检验——它拒绝接受检验。而一项调查将这种不安落到了实处:当Nature于 2016 年调查1,576 位科学家时,超过70% 表示他们曾尝试复现他人的实验却遭失败,超过一半未能复现自己的实验。[已确立] ——尽管请注意这是意见数据,是科学家们相信什么,而非实际测量的比率。

结果 03 著名失效案例 · 已确立 「彻底死亡」 · 有争议

那些烟消云散的发现——以及敢于承认的科学家们

抽象的概括不会刺痛人;具名的失败才会。一连串曾被称颂、在 TED 演讲中广为人知的效应,在高功效、预登记的复现实验中折戟——而令人瞩目的是,在最清楚的案例中,原作者本人公开改变了主意:

  • 权力姿势。2010 年的发现称,以神奇女侠式站姿站立两分钟可提升睾酮与风险承受意愿(一场被观看数千万次的 TED 演讲)——在 2015 年一项规模大得多的复现实验中,于每一项生理指标上失败。随后,原论文的第一作者达娜·卡尼做了一件罕见而可敬的事——她公开否定了自己最著名的成果:「我不相信『权力姿势』效应是真实的。」 [已确立]
  • 自我损耗。意志力是一种随使用而耗竭的有限燃料这一主导理论,在23 间实验室N = 2,141,2016 年)中得到检验。合并后的效应在统计上与无法区分(d = 0.04)。该领域的一位领军研究者迈克尔·因兹利希特写道,他感到「脚下的地面正在移动」。[已确立] 标准效应未能复现;某种微小效应是否尚存仍在争论。
  • 社会启动。那项经典主张——阅读关于老年的词汇会使你离开实验室时走得更慢——在 2012 年的独立复现实验中失败。它震动了整个领域,以至于诺贝尔奖得主丹尼尔·卡尼曼发出公开信,警告启动效应研究者,他们的领域已成为「质疑心理学研究诚信的典型代表」。[已确立] 针对这个具体案例。
  • 斯坦福监狱实验(1971)——或许是心理学史上最著名的「研究」——被档案研究(Le Texier,American Psychologist,2019 年)揭示更接近于一场摆拍的戏剧:狱卒被诱导向残忍,结果被耸人听闻地渲染。它与其说是一次复现失败,不如说是划界问题中的警示案例——一项或许从来不是真正实验的演示。[有争议] ——津巴多生前反驳了这些批评;是否应将其从教科书中剔除仍在争执。
转折 自我修正 · 乐观的解读

这是科学的失败——还是科学在运作?

换个角度看,整场危机也可以是一个充满希望的故事,而非一桩丑闻。上述每一个数字都来自科学家以科学审视科学——使用预登记、高功效、公开共享的方法来揭露并丢弃那些站不住脚的主张。那是波普尔的反驳之刃,终于向内翻转。危机并非划界标准错误的证据,而是它们正在运作的证据,痛苦地、公开地运作着。

而且它还触动了真正的改革。研究预登记——在看见数据之前陈述你的假设与分析——关上了那扇夸大效应的暗门(p 值操纵);注册式报告,即期刊在结果出现之前仅依据方法接受研究,如今已被 300 余家期刊采纳。有人提议将「显著」阈值从p < 0.05 收紧至p < 0.005,而开放数据与多实验室联盟的文化已成常规。该领域正视休谟留下的缺口,看见运气与偏见多么轻易地伪造知识——正是第 1 日盖梯尔忧虑在工业规模上的重现——并开始重建其工具。我们将在第 149 日再次完整遇见这场改革运动。

悬而未决的问题

何谓真正尚未落定

两千五百年过去,「何为科学?」这一问题的审慎回答仍有几条线没有系紧:

  • 是否存在任何单一的划界标准——还是劳丹赢了,留下的只有维特根斯坦式的、重叠的诸美德家族,而无总纲?
  • 杜恒–奎因问题能在多大程度上被驯服?若一次失败的检验从不在逻辑上归罪于某个假说,那么高功效、预登记的复现实验如何真正缩减腾挪空间——它们能否将之彻底关闭?
  • 那些根本无法进行实验的科学又该如何——宇宙学、进化生物学、弦理论?若一种理论在整整一代人的时间里无法作出可检验的预言(第 48 日的量子引力难题隐约浮现),它是科学、原科学,还是数学?
  • 复现的底线在哪里?社会科学中 62% 的复现率——面对复杂的人类行为,这算失败、合理水平,还是在「复现」定义本身达成一致之前无从判断?
  • 而那个将萦绕整门课程的问题:若即便经同行评议、备受赞誉的发现也被夸大了半数之多,那么——在阅读任何一项自信的断言时,包括本页上的——该如何设定你的信念刻度?(带上刻度盘。第 4 日第 6 日。)

◆ 一日三句话

核心洞见
休谟指出,你永远无法靠堆积证实的案例来证明一条普遍定律,因此科学转而提出大胆的、可证伪的猜想,并竭力试图反驳它们——但真实的科学比那条洁净规则更复杂(库恩、拉卡托斯、费耶阿本德),而现代复现危机正是那场辩论最终以硬数据接受了检验。
最佳类比
黑天鹅:百万只白天鹅无法证明「所有天鹅皆白」,但澳大利亚的一只黑天鹅便永久否证了它——证实终究做不到,证伪却可一锤定音。
活的争议
是否存在单一界线划分科学与伪科学(波普尔的可证伪性 vs 劳丹的「消亡」),以及复现数字究竟意味着什么——是破碎科学的丑闻,还是科学按设计运作的健康、公开的自我修正。

今日线索 › 信息(复现实验作为检验一项主张承载真实信号抑或噪音的试金石)· 演化(在波普尔那里,知识像选择过程一样增长——经反驳而幸存的猜想,预告第 74 日)· 计算与涌现(轻触——科学作为一个分布式的、自我修正的寻错系统,能完成任何单个心智无法完成之事)。

来源

来源与延伸阅读

  1. Hume, D. (1739–40). A Treatise of Human Nature, Book I, Part iii. And (1748) An Enquiry Concerning Human Understanding, §IV–V. ——归纳问题;日出段落。见 Stanford Encyclopedia of Philosophy, "The Problem of Induction" (修订版 2018)。
  2. Popper, K. (1959). The Logic of Scientific Discovery (orig. Logik der Forschung, 1934). And (1963) Conjectures and Refutations: The Growth of Scientific Knowledge. Routledge. ——可证伪性;爱因斯坦 vs 弗洛伊德/阿德勒/马克思。见 SEP, "Karl Popper"
  3. Kuhn, T. S. (1962; 2nd ed. 1970). The Structure of Scientific Revolutions. University of Chicago Press. ——常规科学、范式、反常、危机、革命、不可通约性。见 SEP, "Thomas Kuhn"
  4. Lakatos, I. (1970). "Falsification and the Methodology of Scientific Research Programmes," in Lakatos & Musgrave (eds.), Criticism and the Growth of Knowledge. Collected in Philosophical Papers, Vol. 1 (Cambridge UP, 1978). ——硬核、保护带、进步与退化纲领。
  5. Feyerabend, P. (1975). Against Method: Outline of an Anarchistic Theory of Knowledge. New Left Books. ——认识论无政府主义;「怎么都行」作为归谬。见 SEP, "Paul Feyerabend"
  6. Duhem, P. (1906). The Aim and Structure of Physical Theory. And Quine, W. V. O. (1951). "Two Dogmas of Empiricism," The Philosophical Review 60(1): 20–43. ——不充分决定 / 整体确证论。见 SEP, "Underdetermination of Scientific Theory"
  7. Laudan, L. (1983). "The Demise of the Demarcation Problem," in Cohen & Laudan (eds.), Physics, Philosophy and Psychoanalysis. Reidel, pp. 111–127.
  8. Pigliucci, M. & Boudry, M. (eds.) (2013). Philosophy of Pseudoscience: Reconsidering the Demarcation Problem. University of Chicago Press. press.uchicago.edu ——复兴;科学作为家族相似 / 簇群概念。
  9. Open Science Collaboration (2015). "Estimating the reproducibility of psychological science." Science 349(6251): aac4716. doi:10.1126/science.aac4716。 science.org ——97% / 36% / 47% / 39% / ~50%。
  10. Gilbert, D. T., King, G., Pettigrew, S. & Wilson, T. D. (2016). "Comment on 'Estimating the reproducibility of psychological science.'" Science 351(6277): 1037. ——批评; OSC 回应 (Anderson et al.,同期)。
  11. Errington, T. M. et al. (2021). "Investigating the replicability of preclinical cancer biology." eLife 10: e71601 (Reproducibility Project: Cancer Biology). ——193 项中约 50 项实验被尝试;效应约缩小 85%;方法/数据大多无法获得。
  12. Camerer, C. F. et al. (2016). "Evaluating replicability of laboratory experiments in economics." Science 351(6280): 1433–1436. doi:10.1126/science.aaf0918 ——18 项中 11 项(61%)。
  13. Camerer, C. F. et al. (2018). "Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015." Nature Human Behaviour 2: 637–644. ——21 项中 13 项(62%)。
  14. Klein, R. A. et al. (2018). "Many Labs 2: Investigating variation in replicability across samples and settings." Advances in Methods and Practices in Psychological Science 1(4): 443–490. ——28 项中 15 项(54%);场景未能解释失败。
  15. Begley, C. G. & Ellis, L. M. (2012). "Raise standards for preclinical cancer research." Nature 483: 531–533. doi:10.1038/483531a ——53 项中 6 项(11%)里程碑论文被确认(安进)。
  16. Baker, M. (2016). "1,500 scientists lift the lid on reproducibility." Nature 533: 452–454. doi:10.1038/533452a ——>70% 未能复现他人结果;>50% 未能复现自己的结果。
  17. Hagger, M. S. et al. (2016). "A multilab preregistered replication of the ego-depletion effect." Perspectives on Psychological Science 11(4): 546–573. ——23 间实验室;d = 0.04。
  18. Ranehill, E. et al. (2015). "Assessing the robustness of power posing." Psychological Science 26(5): 653–656. And Carney, D. R. (2016), 公开声明否定权力姿势效应。见 概述
  19. Le Texier, T. (2019). "Debunking the Stanford Prison Experiment." American Psychologist 74(7): 823–839. doi:10.1037/amp0000401。 pubmed
  20. Ioannidis, J. P. A. (2005). "Why most published research findings are false." PLoS Medicine 2(8): e124. ——奠基性(且基于模型,故细节上有争议)论文。
  21. Benjamin, D. J. et al. (2018). "Redefine statistical significance." Nature Human Behaviour 2: 6–10. doi:10.1038/s41562-017-0189-z ——p < 0.005 提案(及 Amrhein & Greenland「移除而非重新定义」的反驳)。
  22. Chambers, C. D. (2013). "Registered Reports: A new publishing initiative at Cortex." Cortex 49(3): 609–610. And Chambers & Tzavella (2022), Nature Human Behaviour 6: 29–42 ——注册式报告如今已有 300 余家期刊采纳。
深度探究附录 没有基岩的地基 我们一直在说"证伪""检验""观察"。现在往下一层——发现底下什么也没有。

文的旅程带你走过了:休谟的深坑、波普尔的逃生、库恩的混乱、拉卡托斯的修补,以及复现危机把这场论战推入实战检验。本附录走进同一栋楼的地下室——掀开地板,直视地基。而在那里等候的发现,由截然不同的人一次又一次做出,却惊人地一致:根本没有地基。没有理论中立的观察可以平息争端。没有不循环的理由支撑对明天的期待。没有纯粹逻辑的算法能给一个命题盖上"科学"的印章。有的只是打入沼泽的桩子——打得够深,暂时撑得住。

◆ 我们在哪里

本附录紧接第 2 日主课的末尾,主课停在复现危机和那个问题上——"科学是失败了,还是按设计在运行?"这里我们深入主课中点到为止的四个话题:(1) 休谟的问题认真对待后变成什么样——以及藏在它背后的那个更棘手的谜题;(2) 波普尔坦诚承认的自己理论体系中的裂缝;(3) 为什么"中立检验"可能根本不存在;(4) 让大多数已发表的研究成果膨胀的真正数学。请把第 1 日建立的校准直觉牢记在心——读到最后你就会明白为什么那是唯一安全的态度。

第一部分 · 深坑愈深

休谟回答了自己的谜题——然后古德曼把它搞得更糟

主文把休谟留在了这样一个位置:他认为没有任何不循环的方式可以论证我们对日出的信心。但休谟其实并没有就此止步,教科书略过的部分恰恰是最有人情味的。在证明了理性无法为归纳提供根基之后,他问了一个显而易见的追问:那为什么我们每分每秒都在用归纳,却从不崩溃?他的回答几乎带着温情。我们靠习俗来推断——靠习惯。孩子被火烫过一次就怕火;这不是演绎,这是反复经历磨出的痕迹:

"在许多实例中发现,两类对象……总是联结在一起的;如果火焰或冰雪再次呈现于感官之前,心灵便被习俗引向对热或冷的预期……这种信念是将心灵置于如此情境中的必然结果。" — Hume, Enquiry, §V (1748)

这一步值得命名,因为它会在整个课程中反复出现。休谟把一个问题拆成了两个。一个是辩护问题(归纳能否被演绎地、不循环地证明?——不能,这道伤口永远不会愈合),另一个是描述问题(心灵为什么还是照样推断?——因为我们天生如此,靠的是习俗)。他放弃了前者,回答了后者。我们不是碰巧有本能的推理机器;我们是有本能的机器,只是学会了用理性的语言来包装自己的习惯。(你会在 第 11 日的启发式与偏差、第 119 日的预测性大脑中再次感受到这种一模一样的拆分。)

四种爬出深坑的尝试

两个半世纪以来,哲学家们试图从休谟的坑里爬出来。没有一个人完全成功——但这些尝试都很精彩,每一种都是一种不同的气质变成了一个论证。

斯特劳森
消解问题

问"归纳是否合理"本身就问错了。推理得,在某种程度上就意味着根据证据按比例调整信念。要求一个外在的认可戳,就像问法律本身是否合法。这个问题根本不需要回答。

赖欣巴赫
务实地下注

我们无法证明归纳有效——但可以证明它是现有最好的赌注。如果有任何方法能追踪自然界的规律性,归纳最终一定能找到。它不会比其他方法更差,所以用它就好。作为一种手段来辩护,而不是作为真理来辩护。

波普尔
否认前提

他的激进主张:根本不存在归纳。科学从不从实例中概括;它大胆猜想,然后试图反驳。方法中没有归纳步骤,休谟的问题就无处下嘴。(批评者说:那科学就永远不能告诉我们一个理论对预测是可靠的——而这显然是我们需要的。)

贝叶斯
量化更新

把学习看作通过贝叶斯定理来修正信念度——也就是第 1 日的信念刻度盘。这优美地形式化了从证据中学习的过程,但它并没有解决休谟的问题:先验概率和更新规则本身仍然需要根基。(第 4 日会正式展开。)

就在你以为最坏的情况已经过去的时候,哈佛的逻辑学家 纳尔逊·古德曼 在 1955 年站了出来,引爆了第二颗炸弹——一颗即使你承认归纳完美运作也会被炸到的炸弹。它被称为新归纳之谜,而它的武器只有一个胡造的词。

会变蓝的祖母绿:认识一下 "grue"

定义一个新的颜色谓词,grue(绿蓝)。一个对象是 grue 的,条件是它在某个未来日期——比如说 2050 年 1 月 1 日——之前被检查过并且是绿色的;或者它到那时还没有被检查过,而是蓝色的。奇怪、人造、无用。但看看它能做什么。

每一颗被检查过的祖母绿都是绿色的。所以每一颗被检查过的祖母绿按定义也 grue 的(在 2050 年之前被检查过,而且确实是绿色)。这意味着你那一堆如山的证据以完全同等的力度支持以下两个假设:

  • H₁:"所有祖母绿都是绿色的。"→预测你在 2051 年挖出的下一颗祖母绿是绿色的。
  • H₂:"所有祖母绿都是 grue 的。"→预测你在 2051 年挖出的下一颗祖母绿是蓝色的

证据无法在两者之间做出选择,因为每一次观察都同等地证实了两者。归纳推理,即使承认它运作良好,也不会告诉你哪一种规律性可以被投射到未来。在下方的互动中试试——拖动你的观察视野,看两个理论如何在完美一致的状态下保持到它们突然剧烈分歧的那一刻。

互动 · 证据无法打破的平局

绿色 vs. 绿蓝

关于祖母绿的两种理论,两个平行世界。拖动"今天"——也就是你检查祖母绿的截止线。实心宝石是你见过的(你的证据);空心宝石是每种理论的预测。虚线是截止日期 t。注意:只要"今天"在 t 的左边,两个世界中你检查过的每一颗宝石都完全相同。

H₁ · 全部绿色 H₂ · 全部绿蓝 t (截止:2050) 今天

平局成立

你检查过的每一颗祖母绿都是绿色的——而这个事实对"全绿"和对"全绿蓝"来说是完全同等的证据。两种理论对你见过的每一颗宝石都达成共识。古德曼的要点是:无论过去的证据多么丰富,都无法告诉你该把哪一个带进未来。

最明显的反驳——"但 grue 是拼凑的胡话,绿色 才是自然的!"——恰恰是陷阱。古德曼的回击:从 grue 语言内部看,反而绿色才是那个奇怪的东西。定义"bleen"(t 之前蓝,t 之后绿),你就可以把朴素的"绿色"定义为"t 之前 grue、之后 bleen"——绿色变成了看起来滑稽的复合物,grue 反而成了简单的本原。没有任何"上帝视角"能加冕绿色为天然的那一个。古德曼自己的出路是说我们投射的是那些已经扎根的谓词——也就是我们的语言在过去使用成功过很多次的那些。这很诚实,但也让人有点泄气:它把自然的规律性建立在的不是自然本身,而是人类词汇的偶然习惯上。休谟说我们的推断依赖习俗;古德曼说连我们用来推断的概念也依赖习俗。深坑原来下面还有地下室。 扎根性 · 仍有争议

第二部分 · 波普尔承认的裂缝

仔细审视证伪

主课里波普尔是那个带着简洁规则登场的英雄。但他同时也是——这极大地归功于他——自己最诚实的批评者。他承认的三个微妙之处对后来的一切都影响深远。

第一:划界不是关于意义

波普尔经常被与维也纳学圈的逻辑实证主义者(石里克、卡尔纳普,以及他们的英伦扩音器 A.J. 艾耶尔,其 1936 年出版的 Language, Truth and Logic 曾轰动一时)混为一谈。实证主义者有自己的著名准则——意义的可证实性理论:一个陈述只有在可以被经验验证(或按定义为真)时才是有意义的。其他一切——形而上学、神学、伦理学——不是错的,而是字面意义上的废话、"伪陈述"。这对整个哲学分支来说就是一台碎木机。

波普尔认为这既傲慢又自我毁灭(可证实性准则本身不可证实,所以按它自己的规则它就是废话)。他的观点更尖锐也更谦逊。可证伪性区分的是科学的非科学的——但它对意义一言不发。不可证伪的命题完全可以是有意义的,往往还很深刻,有时甚至是未来科学的种子。"每一物体都被其他物体吸引"在成为牛顿定律之前,曾是不可检验的形而上学。划界是在地图上画一条线;它并不把线那边的地方烧掉。忘了这一点,就会把波普尔变成他自己明确拒绝做的那种反智粗人。

第二:最大胆的理论恰恰最不可能为真——而这正是关键

这是对常识的一个美妙反转。我们倾向于欣赏与数据紧密贴合的"安全"理论。波普尔欣赏的恰恰相反。一个理论禁止得越多——世界能证明它错的方式越多——它的经验内容就越高,碰巧为真的概率就越低。"爱因斯坦的光线恰好偏折 1.75 角秒"是走钢丝;"经济受到多种因素影响"是坐沙发。一个理论可能恰恰因为几乎什么都没说而拥有高概率。所以波普尔翻转了奖励目标:科学应该追求大胆的、不大可能的、高内容的猜想,然后把它们暴露在残酷的检验中。概率是懦夫优化的东西。可检验性才是科学优化的东西。(记住这个想法——它与我们 第 4 日将遇到的贝叶斯概率最大化图景形成了真正的张力。)

第三:没有基岩——只有沼泽中的桩子

正是这条裂缝给了本附录标题。快速概述波普尔时往往会跳过它。一次证伪需要一个事实来完成证伪——一个"基本陈述",一份观察报告,比如"指针指向 1.75"。但这些从哪里来?不是来自纯粹的、脱离理论的观看。每一次观察都渗透着假设(仪器正常工作、光线行为如常、"指针"和"指向"正确地切割了世界)。所以基本陈述不是由自然给定的;它们是被接受的——通过约定、通过决定、暂时地。波普尔亲口说了这话,在他写过的最美的段落中:

客观科学的经验基础因此没有任何"绝对"的东西。科学并不建立在坚实的基岩之上。它的大胆理论结构仿佛矗立在沼泽之上……桩子被打下去……但并没有打到任何天然的或"给定"的基础;如果我们不再把桩子打得更深,那不是因为我们已经到达了坚实的地面。我们只是在桩子已经足够牢固、能够支撑结构——至少暂时如此——的时候停下来。 — Popper, The Logic of Scientific Discovery (1959)

想想这意味着什么代价。如果完成证伪的事实本身是通过约定被接受的,那证伪就永远不是口号所承诺的那种干净、绝对的断头台。一位科学家可以总是拒绝基本陈述而不是拒绝理论("仪器出了故障")。波普尔的辩护是方法论上的:约定好,作为游戏规则,不要用特设性的修补来逃避——不要为了方便而反复重新打桩。这很合理。但请注意,这是我们选择的一条规则,而不是我们发现的某个事实——这与波普尔反感的库恩"常规科学"图景中的群体判断不无相似。沼泽吞噬的确定性比教科书版本承认的要多一些。

确证不是真理的首付

还有一条波普尔式的细则,因为人们经常搞错。当一个理论经受住了一次严酷的检验,波普尔说它得到了确证——但确证绝对不是一种概率,一个经过大量检验的理论并不会因此变得"大概是真的"。它只是一份关于这个理论承受了多么严厉的打击并存活下来的成绩单,仅"暂时"有效。希拉里·普特南提出了显而易见的反驳:如果科学从不允许把任何理论称为大概或可靠的,那我们怎么可能有理由使用最好的理论来造桥、发射探测器到火星?我们显然依赖它们。波普尔冷峻的回答——暂时依赖经受了严厉检验的东西,但不把它当作大概为真的——很多人觉得太过冰冷,不足以作为全部答案。

第三部分 · 缺失的中立地带

你们看到的甚至不是同一场日出

波普尔的沼泽暗示观察不是基岩。一位名叫 诺伍德·拉塞尔·汉森 的哲学家兼物理学家在 Patterns of Discovery(1958)中进一步把刀推进去,提出了一个后来成为口号的说法:观察是负载理论的。他说,"看到的东西比眼球接收到的更多。"你感知到的东西已经被你相信的东西塑造了。

他的思想实验令人难忘。让相信地球静止不动的第谷·布拉赫,和相信地球在旋转的约翰内斯·开普勒,在黎明时分站在同一座山丘上。同样的光子击中同样的视网膜;一台相机会记录下完全相同的图像。然而——他们看到的是同样的东西吗?第谷看到太阳从固定的地平线上升起。开普勒看到固定的太阳在地平线向翻滚远离时显露出来。原始的感觉可能是共享的,但"看到"——那个有意义的、概念性的"看作"行为——从头到尾都被理论塑造着。

第谷: 太阳升起 开普勒: 地球转动
同样的光子,同样的视网膜——两场不同的日出。如果观察是负载理论的,就不存在中立裁判来裁决理论之间的冲突。

这是埋在整个"决定性实验"概念下面的一颗安静的地雷。证伪主义的图景需要一种中立的观察语言——双方都能接受的事实——来充当竞争理论之间的裁判。汉森(以及后来的库恩,带着他的鸭兔图和那个学生——物理学家看到"熟悉的亚核事件记录"的地方他只看到"混乱的碎线条")暗示裁判可能在比赛开始前就已经偏袒了,悄悄穿着某一方的队服。(公平性检查:汉森自己也承认两次黎明体验中有"某种东西""对两人来说是相同的",所以强主张——他们看到的是字面意义上的不同东西——确实有争议。最小版本是安全的;最大版本则是一场争论。 主张强度 · 有争议)

奎因拉出线头,整件毛衣跟着动

如果单次观察是负载理论的,哲学家 W.V.O. 奎因 在 1951 年指出,单次检验也是负载理论的——并以此写成了现代哲学中一篇极具影响力的论文:"经验主义的两个教条"。我们在主课中遇到了它的产物(杜恒–奎因论题:没有假说是被单独检验的)。这里是它的母体思想,而且更加激进。奎因把人类全部知识——从"这里有一只杯子"到逻辑法则——想象成一张巨大的信念之网

我们所谓的全部知识或信念……是一张人造的织物,只在边缘与经验接触……整个科学就像一个力场,其边界条件就是经验。 — Quine, "Two Dogmas of Empiricism" (1951)

经验只触及这张网的边缘。当冲突发生——一个预测失败——冲击波向内传播,但由你选择在哪里吸收它。你总是可以通过调整其他地方来保护你喜欢的任何信念,无论它有多深。奎因的两个惊世结论是:经验"不是逐个地,而是作为一个整体"与我们的信念相遇,因此——

任何陈述都可以在任何情况下被保持为真,只要我们在系统中的其他地方做出足够剧烈的调整……反过来,同理,没有任何陈述是不可修正的。 — Quine (1951)

没有任何陈述是不可修正的——包括逻辑和数学。(奎因提到,有人提议修改排中律来简化量子力学。)不存在一个享有特权的确定性核心;只有一张由边缘的经验和我们"尽量少拆"的偏好绷紧的网。这是目前为止最深的"没有基岩"版本:连思维的法则都没有钉死。

逻辑、 数学 ↑ 深层、受良好保护 经验 边缘:观察报告
奎因之网:冲击落在边缘,涟漪向内扩散,但由你决定什么让步。中心总是可以被保全——代价在别处支付。

劳丹踩下刹车:逻辑上可能 ≠ 理性上合理

如果你一直觉得地面在向"所以什么都可以,一切都是选择"的方向倾斜——很好,因为那就是深渊,而 拉里·劳丹(对,就是主课中那位拆迁队长)是把所有人从深渊边拉回来的那个人。在"Demystifying Underdetermination"(1990)中,他论证说人们从奎因那里推导出的惊人结论,其实是由一个糟糕的等式偷运进来的:把逻辑上可能的等同于理性上合理的

是的,劳丹承认,纯粹的演绎逻辑从不迫使唯一的理论选择——你可以总是"不惜一切代价"地保全某个信念。但科学从来就不是只靠演绎逻辑运行的。它靠的是逻辑加上一整套厚实的扩展性标准——简单性、丰富性、与已确立结果的一致性、预测记录。他引用杜恒的话表示赞同:"纯逻辑不是我们判断的唯一规则。"你可以归咎于望远镜而不是理论,不代表这样做合理;你可以通过添加足够多的借口和补丁来坚持地球是平的,不代表这对一个理性的探究者来说是一个活选项。这张网没有逻辑基岩——但它有理性的张力,而这个张力足以做真正的工作。欠决定是真的,但基本没有杀伤力。区别在于"我无法确定你不是缸中之脑"和"所以一切赌注都作废"。第一句话是正确的;第二句话并不成立。 从相对主义中的标准救援

第四部分 · 给弗洛伊德一个更公平的审判

格伦鲍姆:精神分析不是非科学——而是失败的科学

主课中我们提到波普尔可能曲解了弗洛伊德。把那个直觉变成一份法医级别论证的哲学家是 阿道夫·格伦鲍姆,在 The Foundations of Psychoanalysis(1984)中——他的判决比波普尔的有趣得多,也严厉得多。

波普尔说精神分析是不可证伪的——它解释一切,不禁止任何东西,所以根本没有进入科学的竞技场。格伦鲍姆说:胡说,而且不是在帮弗洛伊德说话。弗洛伊德的理论确实做出了可以检验的命题。如果被压抑的同性恋是偏执狂的必要原因,那么一个对同性恋更加宽容的社会应该会看到偏执狂减少——这是一个真实的、可检验的预测。更核心的是,格伦鲍姆挖掘出了他所谓的弗洛伊德的吻合论证(来自弗洛伊德 1917 年的演讲):弗洛伊德为自己的方法辩护说,只有那些与患者内部"真实情况吻合"的精神分析诠释才能产生持久的疗效——所以持久的治疗成功将证实这些诠释。

这是一个真正的科学赌注。按格伦鲍姆的解读,这个赌输了。持久的缓解通过其他疗法也会出现,甚至不做任何分析也会自行缓解——所以治疗成功不能证明弗洛伊德式诠释是唯一正确的。他还论证说,"来自躺椅的证据"被分析师自己的暗示所污染:患者可能会迎合分析师,产出理论所预测的那些记忆和联想。所以这些数据承受不了弗洛伊德赋予它们的因果权重。格伦鲍姆的结论重新框定了整个划界问题:精神分析不是被安全隔离在竞技场外的科学——它是走进了擂台并被击倒的科学。是坏科学,不是非科学。(这是一个确实不同的、也可以说更尊重的判决:它认真对待弗洛伊德到足以检验他。 吻合论证的解读 · Erwin 等人有争议)这一区分——不可证伪的被证伪的——是你在未来每一场"X 是不是科学"的争论中都用得上的。

第五部分 · 危机的发动机房

为什么大多数研究结果被夸大了:真正的数学

主课给你看了残骸——心理学复现研究中只有 36% 重新达到统计显著性,效应量减半,权力姿势轰然倒塌。但它没给你看能制造出这种规模残骸的那台机器。这台机器不一定是造假。它是算术,而且一旦你看见了就再也无法视而不见了。三个齿轮咬合在一起:基础率灵活性过滤

齿轮一:基础率陷阱(伊奥安尼迪斯的炸弹)

2005 年,医生兼统计学家 约翰·伊奥安尼迪斯 发表了 PLoS Medicine 历史上被下载最多、被争论最多的论文之一,标题就是一个引爆装置:"为什么大多数已发表的研究结果是假的。"他的论证不是修辞,而是一个公式。我们真正关心的是阳性预测值(PPV):给定一项研究报告了一个"显著"效应,这个效应为真的概率是多少?它取决于三个数字——显著性阈值 α(惯例为 0.05)、研究的统计功效(它捕捉到真实效应的机会),以及最关键的事前概率 R:在一个领域检验的所有假说中,有多少比例实际上是正确的。

最后一个数字是致命的,也是研究者最容易忘记的。直觉如下。假设一个领域检验了 1,000 个假说,其中只有 100 个是真的(因为好想法很稀少,大部分猜测都是错的)。全部以 80% 的功效和标准的 5% 阈值来检验。你会正确标记出 100 个真效应中的大约 80 个。但在 900 个错误的假说中,5% 的假阳性率会给你大约 45 个"显著的"结果——全是噪音。所以在你大约 125 个作为发现发表的成果中,约 45 个——超过三分之一——是假的。而这还是乐观的情况。降低功效或降低真假说的比例,假发现就会淹没真发现。下面的互动让你亲自操作伊奥安尼迪斯的机器。

互动 · 操作伊奥安尼迪斯的机器

发现纯度引擎

一个领域在 5% 显著性阈值下检验 1,000 个假说。设置其中有多少真的为真、研究有多大的统计功效、以及渗入了多少偏倚(p 值操纵)。观察作为"发现"发表的成果中实际为真的比例——PPV。

检验结果
显著
("发表")
检验结果
不显著
(归档)
实际为真
80真阳性 ✓
20遗漏(假阴性)
实际为假
45假阳性 ✗
855正确接受零假设

在所有作为"发现"发表的结果中(显著列):

64%

为真。这里每 100 个已发表的"发现"中大约有 64 个是真的——而 36 个是伪装成信号的噪音。

伊奥安尼迪斯的推论直接从这台机器中得出,读起来就像一张复现危机打击最严重的区域地图:研究规模越小、真实效应越小、分析灵活性越大、经济利益越多、领域越热门(更多团队在竞赛同一个问题),任何一项已发表发现为真的概率就越低。这不是愤世嫉俗。这是用不完美的工具检验稀少真理的几何学。 该模型 · 精神上被广泛接受

它并非没有受到挑战,而挑战本身也值得了解。统计学家 史蒂文·古德曼和桑德·格林兰(2007)同意其基本精神,但对工程细节提出了质疑:模型把每一个显著的 p 值都当作恰好是 0.05(丢弃了信息),自行编入了自己的偏倚参数而不是去测量它们,而那个引人注目的"更多团队 → 更多谬误"的结果部分是建模的人为产物。伊奥安尼迪斯回应说核心论点依然成立,而且他自己的表格也显示在良好条件下发现可以达到 85% 的可信度。诚实的结论是:科学假阳性率的精确值确实不确定且因领域而异——但论证的方向——低基础率加上低功效可以制造假阳性——很难忽视。 精确比率 · 有争议

齿轮二:灵活性——如何找到任何东西(披头士实验)

基础率陷阱假设你诚实地在 5% 的水平上做检验。真实的研究更松漏。2011 年,三位心理学家——西蒙斯、尼尔森和西蒙森——用一出科学戏剧的杰作展示了它有多漏。他们的论文"False-Positive Psychology"创造了研究者自由度这个词:科学家在研究过程中做出的所有那些微小的、看似无辜的选择——什么时候停止收集数据、剔除哪些异常值、纳入哪些控制变量、比较哪些条件。每个选择都有道理。但合在一起,它们就是一台制造显著性的机器。

为了证明这不是假想,他们对真实的本科生做了一项真实的实验,报告了一个真实的、统计上显著的结果:听披头士的"When I'm Sixty-Four"会让人真的变年轻。不是感觉年轻——是变成更年轻。在控制了参与者父亲的年龄之后,听到这首歌的受试者的实际时间年龄(调整后均值 20.1 岁)被计算为比听到对照曲目的人(21.5 岁)小一岁半,p = .04。这个效应当然在形而上学上是不可能的。这正是全部要点。他们利用了论文本身所审判的那种寻常灵活性来达到这个结果:在看到数据走向之后选择协变量、结果变量、比较方式和停止规则。如果你能证明一首披头士的歌逆转了衰老,你就能证明任何事情。他们提出的解法——公开每一个选择,最好在收集数据之前——就是主课中提到的预注册运动的种子。

最令人不安的部分:你不需要作弊

安德鲁·盖尔曼和埃里克·洛肯在 2013 年给它定了最锐利的形,分岔花园。你可能以为 p 值操纵需要跑 20 个分析然后报告那个"奏效的"。但假设一个诚实的研究者只跑了一个分析,而且事先就有那个假说——只是他们选择的具体检验方式被数据恰好长什么样所塑造了。如果数据出来得不同,他们就会理所当然地用不同的方式分析。所有那些未被采取的路径仍然毒化了 p 值,因为它默认假设从来只有一条路。"问题在于,"他们写道,许多潜在的对比是"依赖于数据的"——所以一个完全真诚的科学家,从未有意识地钓鱼,仍然可以滑入假阳性。这就是为什么好的意图救不了你,也是为什么改革必须是结构性的

齿轮三:过滤——文献是幸存者展厅

第三个齿轮是最早被发现的。早在 1959 年,西奥多·斯特林就注意到了关于什么能被印出来的一件致命事实。他调查了四本主要心理学期刊,发现在使用显著性检验的文章中,294 篇中有 286 篇——惊人的 97.28%——拒绝了零假设并报告了阳性结果。而且他调查的研究中没有一项是复现研究。期刊发表赢家。零结果死在文件柜里——罗伯特·罗森塔尔在 1979 年将这个问题形式化为文件柜问题(并用"失效安全 N"加以量化:需要多少被埋藏的零结果才能推翻一个已发表的效应?)。

把三个齿轮叠在一起,危机就被过度决定了。大多数被检验的假说是错的(基础率)→ 灵活性把假的说成"显著的"(分岔路径)→ 只有显著的才能发表(文件柜),而且往往在发表后被重新包装成从一开始就预测到的(诺伯特·克尔在 1998 年命名的罪:HARKing——在结果已知后提出假说,它悄悄地"将 I 类错误翻译成了理论")。已发表的文献不是真相的地图。它是残酷而隐形的筛选之后的幸存者展厅——与进化主线的暗黑完美回响,也是第 1 日 Gettier 担忧的回响:那些"正确"的结果,但原因与真相毫无关系。

统计学家的判决 ASA 2016 · 已确立

p 值不是什么

2016 年,美国统计协会(ASA)在其 177 年历史上首次对一项特定统计实践——p 值——发布了正式的公开警告(Wasserstein & Lazar, The American Statistician)。该领域在美国的主要专业协会打破沉默,这本身就告诉你问题已经严重到什么程度了。它的六条原则值得你在显眼处纹上,因为危机中的许多误用都违反了其中之一:

  • p 值衡量的是数据与某个模型的不兼容程度——仅此而已。
  • 不是假说为真的概率,也不是你的结果"由偶然产生"的概率。
  • 结论永远不应取决于 p 是否跨过 0.05 这条"明线"。
  • 正确的推断要求完整的报告和透明度(不隐藏分岔路径)。
  • p 值不说明效应的大小或重要性。
  • 单凭它本身是支持一个假说的拙劣证据度量。

最常见的误解——p = 0.05 意味着"95% 的可能性发现是真的"——是彻底错误的,上面那个基础率引擎就是原因:一个发现为真的概率压倒性地取决于真假设有多稀少,而 p 值对此一无所知。2019 年的一份后续声明走得更远,一些统计学家呼吁该领域彻底废除"统计显著"这个说法。改革尚未完成。 改革要走多远 · 进行中

第六部分 · 定义了一个领域的决斗

伦敦,1965 年 7 月:科学哲学界的一场著名交锋

主课中的四位主角——波普尔、库恩、拉卡托斯、费耶阿本德——不是在教科书里礼貌排队的抽象符号。他们是活生生的对手,1965 年 7 月,他们(以及其他人)在伦敦贝德福德学院的一次国际研讨会上当面交锋。会议论文集因为各位参战者拒绝停止修改而拖延多年,最终在 1970 年以 Criticism and the Growth of Knowledge 之名出版——该领域最带电的著作之一。全书以库恩开篇,被接连的回复轰炸,以库恩的反击收尾。

断层线很尖锐。波普尔指责库恩的"常规科学"——在不受质疑的范式内埋头解题——根本不是科学,而是一种智识上的从众心理,甚至"暴民心理学":正是证伪主义本想废除的那种不加批判的教条主义。库恩反击说波普尔把科学中罕见而激动人心的革命时刻误认成了科学的日常实质——日常的科学压倒性地是保守的、受范式约束的——而这是一个特征,正是它让一个领域能积累深刻成果,而不是永远在重审自己的地基。

一本书里的二十一个范式

最尖锐的一击来自一个出人意料的方向。语言学家 玛格丽特·马斯特曼,大体上同情库恩,坐下来数了数他使用自己核心词汇的方式——结果发现库恩至少以 21 种不同的含义在使用"范式"一词,她将其归类为形而上学的、社会学的和具体的"人工制品"类型。她的评价是一把完美的双刃剑:库恩的书"科学上洞明,哲学上晦涩"。这是毁灭性的批评,同时也是一次平反——概念是含混的,它显然触及了某些真实的东西。库恩后来承认了这一点,花了大半职业生涯试图更精确地说出他的本意。

库恩的两个更深层想法值得从漫画式简化中拯救出来,因为它们都被惯常地夸大了:

  • 库恩损失。科学进步并非纯粹的累积。当一个范式倒下时,继任者可能会丢失旧范式曾拥有的解释性成就——燃素化学解释了早期氧气化学最初无法解释的一些事情。进步是真实的,但粗糙;我们用一组已解的谜题换取另一组更大、不同的谜题,有时还会在路上掉落几个。(这在多大程度上威胁实在论有争议——大多数有记录的损失是轶事性的而非定量的。)
  • 世界变化论题。库恩最臭名昭著的一句话是,革命之后"科学家此后工作在一个不同的世界中"。但精确地读他,他是谨慎的——他写的是"我们可能想要说"世界变了,把它铺垫为一种说话方式,而不是声称现实本身在重新排列。他的晚年一直在回缩最激进的解读,退守到一种窄义的分类不可通约性(只是互锁的技术词汇体系发生了转换,而不是整个现实),并坚持——反对他的相对主义粉丝——"世界不是被发明或建构出来的"。传说中的库恩比书页上的库恩更疯狂。

费耶阿本德,那位所谓的破坏者,在挑衅的外表下有一颗建设性的心。他真正的提议是多元主义:一个健康的科学应该最大化竞争理论的数量,而不是强制推行共识。两条口号承载着它。增殖原则:积极地发明和捍卫与当朝理论相矛盾的理论。还有反归纳:刻意发展与哪怕是确凿确认的事实不一致的想法——因为,正如汉森警告过的,观察是负载理论的,所以唯一能揭示你当前视角中隐性假设的方法,就是通过一个竞争者的镜头来看世界。在后来的序言和回复中,他强调"什么都行"不是他宣扬的信条,而是"一个理性主义者仔细审视历史时发出的惊恐感叹"。他的怪物原来是一个支持智识多样性作为发现引擎的论证——这与本附录一直在走向的方向惊人地接近。

贯穿线

没有底,但它照样运转

退后一步看,整个附录就是一个长音。休谟:对明天的期待没有逻辑上的正当理由。古德曼:连我们的概念都不安全。波普尔,坦诚地说:证伪的事实建立在约定之上,建立在沼泽中的桩子上。汉森:连你看到的东西都被理论扭曲了。奎因:整张网,包括逻辑在内,是悬浮的——没有任何东西不可修正。而复现危机就是这些抽象变得可怕地具体的时刻:当你真正审计一些文献时,三分之一或更多的高调发现无法通过严格的复现检验,恰好是基础率和分岔路径的数学所预测的那样。

如果你以为寓意是绝望,那可以理解。但恰恰相反,而劳丹给了我们钥匙:逻辑上可能的不是合理的。科学没有地基,也不需要地基。它的运转方式像一座城市的运转——底部没有哪块不可移动的石头,只有无数相互支撑的结构,不断被检查,偶尔被宣布拆除重建,整体之所以立着,不是因为建在岩石上,而是因为它自我纠错的速度比崩塌更快。复现危机不是沼泽吞噬了科学。它是科学公开地打入新的桩子,因为注意到旧的在变软。那不是方法的失败。那正是方法。

这就是为什么接下来 178 日唯一理智的姿态是我们在第 1 日建立的:用刻度盘而不是开关来持有每一个信念。按证据的比例调整你的信心,留一点余量给自己可能搞错的预期,对最吸引眼球的声明保持最大的怀疑。这一切的下面没有基岩。学着在桩子上建造吧。

◆ 本附录三句话概括

核心洞见
在科学方法之下挖掘,你会发现没有地基——没有不循环的归纳辩护(休谟),没有安全的概念(古德曼的 grue),没有理论中立的观察(汉森),没有不可修正的信念(奎因),只有波普尔"打入沼泽的桩子"——而复现危机是经验性的警示信号,背后有一台数学引擎(基础率 × 灵活性 × 过滤)在驱动。
最佳类比
建在无底沼泽上的桩基建筑——桩子只打到"暂时够牢为止"——配上那首"证明"听众变年轻的披头士歌曲,那个展示了寻常灵活性可以制造出任何结果的实验。
活的争议
无基础状态是否会滑向"什么都行"(奎因之网),还是能被理性标准驯服(劳丹:逻辑上可能 ≠ 理性上合理)——以及,在经验层面,科学的真实假阳性率究竟是多少(伊奥安尼迪斯 vs. 古德曼与格林兰),这个问题仍未定论且因领域而异。

此处的线索 › 信息(p 值、基础率、以及证据能承载和不能承载什么)· 进化(文献作为幸运阳性结果的幸存者展厅)· 计算与涌现(科学作为一个没有中心地基的自我纠错系统,靠相互间的张力支撑自身)——将第 2 日主课的线索再往下一层延伸。


来源

来源与延伸阅读

  1. Hume, D. (1748). An Enquiry Concerning Human Understanding, §IV–V. — "怀疑的解答";习俗/习惯作为推断的基础。参见 SEP, "The Problem of Induction."
  2. Goodman, N. (1955). Fact, Fiction, and Forecast. Harvard University Press. — 新归纳之谜("grue");可投射性与扎根性。参见 SEP, "Nelson Goodman."
  3. Strawson, P. F. (1952). Introduction to Logical Theory, ch. 9 — 归纳问题的"消解"。 Reichenbach, H. (1938). Experience and Prediction — 务实的辩护。
  4. Ayer, A. J. (1936). Language, Truth and Logic. — 逻辑实证主义和证实主义的英文推广。参见 SEP, "Logical Empiricism" SEP, "Alfred Jules Ayer."
  5. Popper, K. (1959). The Logic of Scientific Discovery (orig. 1934). — 可证伪性的程度;"沼泽中的桩子"段落(§30);确证 ≠ 概率;划界 ≠ 意义。参见 SEP, "Karl Popper."
  6. Putnam, H. (1974). "The 'Corroboration' of Theories," in The Philosophy of Karl Popper. — 对波普尔使科学无法论证依赖理论的反驳。
  7. Hanson, N. R. (1958). Patterns of Discovery. Cambridge University Press. — 观察的理论负载;黎明时 第谷 vs. 开普勒。
  8. Quine, W. V. O. (1951). "Two Dogmas of Empiricism." The Philosophical Review 60(1): 20–43. — 信念之网;"没有任何陈述是不可修正的";确认整体论。 全文
  9. Laudan, L. (1990). "Demystifying Underdetermination," in Minnesota Studies in the Philosophy of Science 14: 267–297. — 逻辑上可能 ≠ 理性上合理;欠决定的限度。参见 SEP, "Underdetermination."
  10. Grünbaum, A. (1984). The Foundations of Psychoanalysis: A Philosophical Critique. University of California Press. — 吻合论证;精神分析作为可证伪但失败的(坏科学,不是非科学)。
  11. Ioannidis, J. P. A. (2005). "Why most published research findings are false." PLoS Medicine 2(8): e124. — PPV 模型;事前概率、功效、偏倚。 plos.org
  12. Goodman, S. & Greenland, S. (2007). "Why most published research findings are false: problems in the analysis." PLoS Medicine 4(4): e168 — 主要的统计学批评;附伊奥安尼迪斯的回复 (e215)。
  13. Simmons, J. P., Nelson, L. D. & Simonsohn, U. (2011). "False-Positive Psychology." Psychological Science 22(11): 1359–1366. — 研究者自由度;"When I'm Sixty-Four" 实验 (p = .04)。
  14. Gelman, A. & Loken, E. (2014). "The Statistical Crisis in Science" ("The garden of forking paths," 2013 工作论文). American Scientist 102(6): 460. — 无需有意识 p 值操纵的假阳性。 PDF
  15. Kerr, N. L. (1998). "HARKing: Hypothesizing After the Results are Known." Personality and Social Psychology Review 2(3): 196–217.
  16. Sterling, T. D. (1959). "Publication Decisions and Their Possible Effects on Inferences Drawn from Tests of Significance—Or Vice Versa." JASA 54(285): 30–34. — 294 篇中的 286 篇 (97.28%) 显著性检验文章拒绝了零假设;没有一篇是复现研究。
  17. Rosenthal, R. (1979). "The file drawer problem and tolerance for null results." Psychological Bulletin 86(3): 638–641. — 发表偏倚;"失效安全 N"。
  18. Wasserstein, R. L. & Lazar, N. A. (2016). "The ASA Statement on p-Values: Context, Process, and Purpose." The American Statistician 70(2): 129–133. — 六条原则;2019 年的后续声明呼吁废除"统计显著"。 tandfonline
  19. Lakatos, I. & Musgrave, A. (eds.) (1970). Criticism and the Growth of Knowledge. Cambridge University Press. — 1965 年贝德福德学院研讨会论文集;包含 Kuhn、Popper、Lakatos、Feyerabend 和 Masterman 的"The Nature of a Paradigm"(21 种含义)。
  20. Kuhn, T. S. (1962/1970). The Structure of Scientific Revolutions, ch. X & Postscript. — 库恩损失;世界变化论题("我们可能想要说……");后期的分类不可通约性。参见 SEP, "Incommensurability."
  21. Feyerabend, P. (1975). Against Method. — 多元主义、增殖、反归纳;"什么都行"作为"一个理性主义者的惊恐感叹"。参见 SEP, "Paul Feyerabend."

明日 第 03 日

逻辑与有效推理

今日我们频频倚仗「有效」、「由此推出」、「矛盾」等词——但使论证真正成立的规则究竟是什么?明日我们将深入逻辑本身:演绎(能保真,却不能凭空增加新信息)、归纳(休谟留下的伤口)与溯因(像侦探一样选择最佳解释)。我们将遇见日常欺骗我们的谬误,追问逻辑是被发现的还是被发明的,并抵达前沿——在那里,机器如今检验着人类头脑无法完全容纳的证明。这是此前所有讨论赖以成立的逻辑底座。


第 02 日终 · 还有 178 日等待深入