生命科学进化带来的思考

原标题：生命科学进化带来的思考

生命科学的发展进程与自然界生物物种进化过程类似，都是由简单到复杂，由单一到多样，由低级到高级。因此，可以把生命科学的发展进程类比为生命科学进化。

目前，全世界范围内科技领域都存在“三多三少”的现象——科技投入越来越多、论文越来越多、专利越来越多，但颠覆性成果越来越少、原始创新越来越少、专利转化越来越少。科学技术创新模式面临挑战。就医学科学而言，如何确立医学领域的前沿科学问题，突破人类的认知边界，实现“从0到1”的突破，是生命科学进化带给我们的深刻思考。

科学研究范式的变革

当前，新一轮科技革命和产业变革突飞猛进，学科交叉融合趋势凸显，国际科技竞争向基础前沿转移。国际学术期刊《科学》在庆祝其创刊125周年时，公布了125个最具挑战性的科学问题。其中涉及生命科学的问题占46%，关系宇宙和地球的问题占16%，与物质科学相关的问题占14%以上，认知科学问题占9%，其余问题分别涉及数学与计算机科学、政治与经济、能源、环境和人口等。

这125个科学问题，从基础科学角度可归纳为三个基本问题，即对物质本质、宇宙起源、生命本质的探索。一旦这些问题获得突破，将是科学技术革命性的工作，是突破人类认知边界的重大创新。揭示物质的本质是为了破解能量和物质形成之间的关系和能量聚集成物质（宇宙中63种基本粒子）的过程；研究宇宙的起源是为了破解信息和能量传递、转换的机制，物质传送速度的机制；破解生命的本质是为了揭示生命物质互作的复杂网络动态运行机制，为探索决定生命、健康、疾病的分子网络调控规律提供科学基础。

基于上述科学问题的导向，科学研究范式急需深刻变革。

科学研究范式是20世纪60年代由美国科学家托马斯·库恩提出的。科学研究范式是指从事某一领域研究的科学共同体所共同遵从的信念、理论、价值观、科研行为方式，是科学工作赖以维持运转的学理基础和实践规范。当原有的范式已不能实现科学理论的实质性突破，甚至是理论之间多有冲突时，科学研究范式就会转变。2007年，图灵奖得主吉姆·格雷提出：“信息爆炸迫使科学家必须将实验、理论和计算机计算统一起来，建立起一种新的科学研究范式，数据密集型的科学发现（Data-intensive Scientific Discovery），即‘第四范式’。研究内容由局部走向系统，方法由单一学科走向学科交叉，范畴由多层分科走向探索共性。”

纵观人类发展历史，我们共经历了四次科学研究范式的转变。第一范式是实验科学范式，即基于实验或经验的归纳总结（Describing natural phenomena）来发现规律的科学范式，钻木取火、比萨斜塔实验、拉瓦锡发现的质量守恒定律等，都属于第一范式。文艺复兴以后，第二范式即理论科学开始备受推崇，它是以理论为基础开展研究，通过建立数学模型和理论框架（Using models,generalizations）演算、归纳总结，来解释自然现象的科学范式，代表性研究为牛顿定律、麦克斯韦方程、门捷列夫的元素周期律、相对论等。第三范式是计算机科学范式，即利用计算机仿真模拟复杂自然现象（Simulating complex phenomena），用计算机和AI模拟代替实验研究、预测结果的科学范式，如量子化学计算分子动力学模拟、天气预报模拟、核试验模拟、复杂化学反应模拟等。第四范式是数据密集驱动的范式，即以数据密集和智能驱动研究，发现其中的相关知识和规律的研究范式。这种范式通过实验、采集数据或模拟器仿真产生数据，建立数据集，采用数据挖掘、降维、升维、机器学习等方法分析计算，预测物质性质、揭示物质互作规律等，获取之前未知的新知识。

生命科学研究的困惑

今天的科学研究范式已经进展到第四范式，但对生命科学，尤其是医学科学的研究来讲，还大多停留在第一范式，即试图通过生物学实验探索一个复杂事物的规律；也很少采用第二范式，很少用数理逻辑表征事物之间的逻辑关系；即便是目前蓬勃兴起的元宇宙技术和数字孪生技术，实际上也仅停留在第三范式。要进行未知的生命本质研究，必须将科学研究范式推进到第四范式，而其关键就在于大数据的收集。数据和AI有着极为密切的关系，如果把AI比作工具，数据就是生产资料，只有数据的质量和数量达到一定程度，才能被AI工具有效利用。如果原始数据的收集很粗糙，就无法转换为特征性的数据表征，AI也就不能得出正确结论。

20世纪，生物学从传统的描述性科学转变成为假设驱动的实验科学。与此紧密联系的是，还原论占据了统治地位，即对复杂生命系统的理解可以通过将其拆解为组成部件并逐个研究。在这种分子生物学“范式”的指导下，试图通过认识单个基因或蛋白质的结构与功能来阐释个体的生理或病理活动。然而，细胞内的真实世界并非如此。事实上，我们很难找到真实世界的因果关系，即一个原因必须是一个结果的充分条件。例如，在真实生命的复杂系统中，mRNA表达水平及其翻译产生的蛋白质丰度之间存在着复杂的非线性关系。

由于慢性病威胁日益增大，现代医学正进入一个新的转型时期，有三种主要发展趋势值得我们关注：一是从简单性思维的分子生物医学转变到复杂性思维的系统生物医学；二是从基于统计研究证据的循证医学转变到关注个体分子特征的精确医学；三是从以治病为中心的临床医学转变到以健康为中心的健康医学。

要想实现这几个转变，我们需要厘清目前在生命科学领域，尤其是医学领域亟待解决的基本科学问题。在生命科学领域的研究中，不能仅局限于用先进的观测手段揭示亚细胞水平或分子水平的微观结构，因为这些被发现的静态结构并不能表征生命的微观动态过程。一定的组织结构必定为执行一定的功能而存在。细胞、亚细胞或分子水平的微观生命活动，是基于一定的结构存在所表征的结构间系统互作，并以这种互作行使一定功能的时空变化动态过程。这就需要我们一要解析细胞内的空间结构；二要揭示细胞内结构间的网络化系统互作表征；三要探索细胞内结构间系统互作的网络化动态时空演变规律。因此，要建立新的范式研究生命科学领域的这三大基本科学问题。

系统生物学拨云见日

系统生物学通过整合经典的分子细胞生物学、新兴的生命组学以及信息科学和数学等非生物学科的研究策略和方法，对生命复杂系统及其生理病理活动进行系统性、整体性的检测和分析。当前，系统生物学已成为生物学研究方法的主流。生命组学变化的多维度研究，可以揭示生物分子间系统性、网络化、时相性互作的生命活动规律。

系统生物学是一门注重定量研究的学科，不仅注重分子细胞生物学和组学等“湿实验”（第一范式），也同样注重信息科学和计算生物学等“干实验”（第二范式、第三范式）。成功的系统生物学研究应该是“干实验”与“湿实验”的紧密结合。

人体细胞内是一个多元异构的网络化复杂巨系统，要破解上述三大基本科学问题，需要从揭示细胞内复杂表型的发生与发展的动态过程入手。复杂表型涉及DNA、RNA、蛋白质及表观遗传等多个分子水平的共同作用形式。由于研究策略和分析方法的限制，既往的机制研究缺乏对不同分子水平组学数据的整合分析，无法实现对复杂表型分子机制的充分解释。因此，有效整合DNA、RNA、蛋白质、表观遗传等多组学数据，不仅可系统揭示复杂表型发生与发展的调控网络与分子特征，阐释其复杂分子机制，还有助于确定多组学分子标志物，在推进分子机制研究的基础上，实现从分子机制理解到疾病诊疗转化应用的跨越式发展，为建立风险评估与精准疾病诊疗模型以及探索有效的监测与预警方法奠定基础。具体思路如下：

第一步是对细胞内多源异构生物数据分子特征的提取。

高通量技术的发展产生了大量与基因、蛋白质和代谢相关的生物组学数据。从这些多源异构的生物组学数据中发现和提炼与疾病相关的信息，需要借助特征衍生的方法获取具有高区分性的特征。目前常用的特征衍生方法主要是对现有特征进行线性或非线性的变换，如四则运算特征衍生、交叉组合特征衍生、分组统计特征衍生等。然而，在特征衍生的过程中往往会产生大量无效或者低效的特征。如果把这些冗余特征带入模型中，会形成维度灾难，使建模工作无法在合理时间内有效完成，且冗余信息往往会造成干扰，导致真正有效的信息被掩盖，模型预测效能降低。通过模式识别中的特征选择技术，对高维生物组学数据中蕴藏的重要信息进行提取、筛选、识别和分类，也是生物组学数据整合分析的关键步骤。编码器接受原始特征输入，将原始特征转换成低维的新特征，解码器接受新特征并将新特征升维至与原始数据相同的维度，以达到有效数据降维和分子特征提取的目的。

第二步是选择模型，把降维后的数据带入模型，针对不同的任务选择不同模型。

不同模型对于输入数据的要求不同，因此需要在输入数据之前对数据进行预处理，若选择多层感知机和集成学习模型，需要进行多组学数据的表征合并；若选择卷积神经网络和图神经网络模型，需要进行高维度表征变换。这样可以将有效特征压缩并进行低维映射，构建交互调控网络，对细胞事件进行预测。对于多组学数据的模型选择，目前并没有一个金标准，往往需要根据具体任务进行选择。

值得注意的是，目前所有原生人工智能算法的开发都基于非生命体的工程数据，并不能完全适配以动态时空变化为主要异质性特征的生物类数据。因此，适配人工智能模型的开发和各级分子互作关系数据库的构建是生物组学数据整合与交互调控网络解析的关键和瓶颈，需要学科交叉进行联合攻关。

现代生命实验科学的主要目的是探寻事物之间的因果关系，但从大数据中获得的生命科学知识基本上是相关性的，而非因果性的。生物体是一个复杂网络的巨系统，研究者不能控制任何一个生理或病理活动涉及的所有变量。数据驱动的研究不依赖于假设，因而研究者不仅可以避开现存理论的限制，以及对“实验事实”的主观性选择和判断，还可以利用各种算法对获得的大数据进行分析，进而发现全新的现象或者事物之间隐藏着的内在联系。数据驱动的生命科学研究新范式并不追求结果的完备性。它采用的是一种全新的工作模式——迭代（iterate），即每一次研究工作获得的成果都不是完备的，需要未来研究者在已有版本的基础上不断完善并产生新版本，就像人类基因组从研究启动到今天的几次迭代不断完善一样。知识就像“未知海洋”中的“岛屿”，随着“知识岛屿”的扩大，“未知水域”同样也在扩大。不断拓展人类认知边界的挑战在于此，探索未知的乐趣也在于此。

（作者：丛斌，系全国人大宪法和法律委员会副主任委员、中国工程院院士）

(责编：孙红丽、申佳平)

相关推荐