集智俱乐部 09月17日
科学发现并非天才独创,而是知识积累的必然
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

匹兹堡大学一项基于4000万篇论文的研究,运用“颠覆性指数”(D-index)量化指标,挑战了“孤独天才”的传统叙事。研究发现,科学突破更像是知识土壤成熟后的必然产物,多重发现模式在科学史上占据主导。文章通过分析科学突破的时间间隔符合幂律分布,而非泊松分布,有力论证了科学发现的相互关联性。这提示我们应重视“知识生态系统的涌现”,而非仅仅关注个体英雄,并积极构建促进科研公开、合作与普及的生态环境,让科学发展更具包容性和必然性。

💡 **科学突破源于知识积累而非个人灵感:** 研究通过分析海量论文数据,发现科学突破并非孤立的天才之举,而是当知识和工具积累到一定程度,研究者群体共同关注某一问题时,发现几乎是不可避免的“涌现”现象。这挑战了公众对爱因斯坦等“孤独天才”的刻板印象,强调了知识共享和集体智慧的重要性。

📊 **“多重发现”模式的实证支持:** 长期以来,关于科学史上“多重发现”(多位科学家独立同时做出相同发现)的观点受到手工收集案例数量不足的质疑。此次基于4000万篇论文的研究,通过引入“颠覆性指数”(D-index)等量化指标,并分析科学突破的时间间隔符合幂律分布,为“多重发现”模式提供了强有力的大数据证据,证明科学发现之间存在关联而非独立。

🌳 **构建“知识生态系统”的重要性:** 文章呼吁将科学史的书写视角从“英雄列传”转向“知识生态系统的涌现”。这意味着,成功的科学研究不仅依赖于顶尖人才,更需要一个开放、协作、数据共享、易于获取的科研环境。普及科学知识,鼓励公众参与,能够扩大科学发展的“养料库”,为未来的突破奠定基础。

🚀 **科学发现的必然性与主动性并存:** 认识到科学突破的必然性并不意味着被动等待。文章强调,资金、基础设施和合作等科学生态系统中的关键要素仍然至关重要。研究者应积极构建一个能够塑造科学突破发生方式和时间的“科研生态”,通过促进信息公开和技术创新,来加速知识的积累和转化。

原创 郭瑞东 2025-09-17 18:55 上海

相比科学英雄,我们更应该重视“知识生态系统的涌现”

导语

20世纪60年代,社会学家罗伯特·默顿手动收集了1600-1950年间科学史中的多重发现案例,并据此得出结论:“当知识和工具在人类的文化储备中积累起来,当相当多的研究人员的注意力集中在一个问题上时,或新兴的社会需求,或由于科学内部的发展,或者两者兼而有之,发现几乎是不可避免的”。70年代,社会学者西蒙顿(Simonton)花费了数十年,手动收集了1434例多重发现的案例。多重发现模式在科学史中占据主导,但由于案例主要依赖手工收集而长期受质疑。2025年匹兹堡大学助理教授吴令飞及其团队在一项基于4000万篇论文[1]的研究证明:科学突破的本质不是天才的灵光一现,而是知识土壤成熟后的必然产物。

关键词:多重发现模式,数据驱动,颠覆性指数(D-index)

郭瑞东丨作者

张江丨审校

牛顿与莱布尼茨的微积分之争、达尔文与华莱士的进化论竞速,科学史中充满“独立同时发现”的戏剧性事件。匹兹堡大学助理教授吴令飞及其团队在一项基于4000万篇论文[1]的研究证明:科学突破的本质不是天才的灵光一现,而是知识土壤成熟后的必然产物。

多重发现为何难敌孤独天才的叙事传统

20世纪60年代,社会学家罗伯特·默顿(Robert K. Merton)收集了1600年到1950年的264个科学史中,在相近的时间窗口,多位科学家几乎同时做出相同科学发现的案例[2](之后简称多重发现案例)。据此指出当知识积累到临界点,科学突破便会“破土而出”,与个人天赋无关。默顿相关论述的原文如下:

“科学史记录了数千个由科学家相互独立工作而做出的类似发现的实例。 有时,发现是同时出现;有时,科学家会重新发现一项他不知道,而其他人在多年前就已经做出的发现。这些事件表明,当先决条件的知识和工具在人类的文化储备中积累起来,当相当多的研究人员的注意力集中在一个问题上时,或新兴的社会需求,或由于科学内部的发展,或者两者兼而有之,发现几乎是不可避免的。”

这一观念,与根深蒂固的“孤独天才”叙事矛盾,毕竟大众心里最知名的科学家形象是诸如爱因斯坦这样,面壁十年无人知,直到一篇论文发表,最终改变世界的孤独天才。

默顿提出的多重发现模式在科学史中占据主导,但长期面临质疑:主要原因在于历史案例依赖手工收集。上世纪70年代,美国社会学者西蒙顿(Simonton)花费了数十年,手动收集了1434例上述独立发现的案例,这已是目前已知最大的多重发现案例库。然而相比历史中浩如烟海的发现,一千多例多重发现的案例数量,还是缺少代表性,因此难以具备足够的说服力。

大数据研究如何论证科学研究属于多重发现

然而如今随着科学学的成熟,研究者可以用海量数据,结合量化指标来替代人工整理案例集。吴令飞团队的这项研究,基于微软学术图谱(MAG)的4000万篇1900-2020年的各学科论文,还整合历史数据集(如前述默顿整理的案例库)、专项数据库(蛋白质结构库PDB)和诺奖得主论文。

收集完数据后,大数据研究的第二步是对数据进行过滤和清洗。我们讨论的问题是能够上新闻的科学发现,因此需要一个指标,从那4000万篇论文中选取出真正改变世界的一小部分。为了评估论文的颠覆程度,研究者创立了名为D-index(替换系数)的指标,根据论文引用关系,计算焦点论文对其最高引参考文献的“替代强度”。替代强度越高,说明该文对整个领域的影响越大,成为后人不得不关注的巨人。例如“爱迪生发明的电灯(焦点论文)不是凭空创造光,而是让蜡烛(之前最高引参考文献)退出历史舞台”。

图1:D-index示例图,右图的研究(蓝点)D-index最高,意味着该研究出现后,其它的研究都需要引用该研究,成为了领域中绕不过的基石

通过使用D-index衡量每项研究的颠覆性程度,能够全面地筛选出颠覆性研究,从而避免了人为筛选数据库所带来的数据稀疏和个人偏见,并能考察各个学科的中的颠覆式发现之间存在的共性。

接下来要做的是用数据去验证假设,计算机难以像人类这样,去梳理两个发现是不是由两组科学家在互不知情的情况下发现的。但研究者可以提出一个待验证的假设,并通过算法来检验这一假设。

而回想大学概率统计课上讲到的,泊松分布正是用来描述在固定时间或空间内,独立随机事件发生次数的概率分布(图2中的虚线),其特点是事件之间是没有记忆的,事件A的发生不会影响事件B。而若是两个事件之间相互影响,那事件的间隔就会更接近幂律分布。泊松分布的典型案例是原子核衰变放出的高能射线,而幂律分布的典型是地震后连续出现的余震震级。

按照孤独天才的叙事逻辑,每一个颠覆式发现都是相互独立的事件,因此颠覆式创新之间的时间间隔会符合泊松分布,而若是符合默顿提出的多重发现,那么就会接近幂律分布。

而实际中,无论是默顿、西蒙顿手工整理的科学突破案例集,蛋白质结构库PDB,还是根据D-index从4000万篇论文选取D-index排名前2%,再经过Llama大模型识别出的624个多重发现案例,两个科研突破的间隔时间,都接近幂律分布,如图2所示。

图2:不同数据集中科学突破的时间间隔符合幂律分布

研究者还考察了诺奖得主的获奖论文,以及MAG数据库中4000万篇D-index最高的top2%研究,这些研究的平均D-index是0.21,相比之下,诺奖得主的研究平均的D-index是0.1。去除了引用数小于100的研究后,剩余12564篇,这些研究之间的间隔,同样符合幂律分布。这些证据说明科学突破之间不是独立而是相关的。

科学研究要遵循人民史观

在历史学中,人民史观和英雄史观的对比,反映到科学史中,就是究竟是孤独天才还是多重发现。如果我们认为历史的推动者和创造者是广大普通的人民大众,而不是王侯将相。那么我们在面对科学研究时,也应当一以贯之,坚信科学发现虽迟必到。只要先决条件到了,就从不会缺席,就拿DNA的发现举例,克拉克和沃森如果没有发现双螺旋结构,那么荣誉就会落到女科学家罗莎琳德·富兰克林头上。

人民史观下,每一个普通的研究者都有着自己不可取代的价值。尽管大多数科研人员的工作并不是能够上头条改变教科书的,但通过诸如收集数据,改进观测方法等,也在为最终科学突破的出现提供源头活水。他们的努力虽然没有走到聚光灯下,但依然不该被人忽视。我们应认识到科研突破的关键不是选出一两个天才少年,而是培养出能适合天才诞生的土壤。这土壤包括促使科研论文公开原始数据,促进科研论文的方便获取,以及在当下使用大模型来对科研数据进行高效检索等。正是这些一点一滴的积累,让众多研究者能有更多的机会去站在巨人的肩膀上做出突破式发现。

认识到科学突破的必然性,未来科学史的书写,应当是被视为“知识生态系统的涌现”,而非“英雄列传”。科学突破的必然性也不意味着被动等待,科学生态系统中的资金、基础设施和合作仍然至关重要。科学知识的普及和公众参与将会扩大科学发展的养料库,故而需要通过科普打破知识垄断,让更多人参与科学决策和技术创新。科学突破像等待降落的雨滴——云层蓄满时雨水必至,但哪滴最先落地,则由风向来决定。我们构建的科研生态,正是那阵风。不是为了确保突破的发生,而是为了塑造它们发生的方式和时间。

参考文献

[1] Li, Linzhuo, Yiling Lin, and Lingfei Wu. "Is Science Inevitable?." arXiv preprint arXiv:2502.06190 (2025).

[2] Merton, R. K. Singletons and Multiples in Scientific Discovery: A Chapter in the Sociology of Science. Proc. Am. Philos. Soc. 105, 470–486 (1961).

作者:郭瑞东

审核:张江 北京师范大学系统科学学院教授

出品:中国科协科普部

监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

面向未来的科学学读书会

科学是研究实践、是理性精神,也是一个由学者、文献、科研项目、科学思想与灵感等一起构成的自组织、自生长的复杂系统。科学学这门学科,旨在深入理解科学研究的种种因素并推动科学发展。科学的迅猛发展在积累科学知识的同时,也遭遇诸多社会、伦理、政策问题:开放科学的范式如何影响科学研究的实践?阶层、性别、种族、国家等视角如何揭示科学不平等的起源?期刊编辑和审稿人如何塑造当今的科学活动?科学人口结构、人才激励、科技人才流动如何影响科学发展?AI大模型如何重塑科学研究的各个环节?

为了思考和回应科学的多元化挑战、科学开放性面临的危机,以及新兴技术对科学的冲击,集智俱乐部联合美国匹兹堡大学博士后崔浩川、东南大学副研究员孙烨、田纳西大学信息学院助理教授李恺、纽约大学阿布扎比分校博士研究生刘逢源、南京大学地理与海洋科学学院研究员古恒宇,共同发起「面向未来的科学学读书会」,这是继「复杂系统下的科学学读书会」之后的新一季科学学读书会。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:面向未来的科学学读书会:探索开放科学范式,揭示科学不平等的起源

推荐阅读

1. 科学发现的规模法则:自主通用科学家将突破科学极限

2. Nature子刊多篇文章速览: 大模型赋能的科学发现

3. Nature专题:颠覆性的科学发现是否越来越难诞生?

4. 涌现动力学如何用来分析复杂系统? | 新课上线

5. 集智学园精品课程免费开放,解锁系统科学与 AI 新世界

6. 高考分数只是张入场券,你的科研冒险在这里启航!

7. 重整化群与非线性物理,寻找复杂系统跨尺度的分析方法丨新课发布

点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多重发现模式 知识生态系统 科学突破 大数据研究 颠覆性指数 Multiple Discovery Knowledge Ecosystem Scientific Breakthrough Big Data Research Disruption Index
相关文章